在《數(shù)據(jù)分析師》第81頁(yè)關(guān)于數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)挖掘的探討中,其核心思想在現(xiàn)代人工智能公共數(shù)據(jù)平臺(tái)的構(gòu)建與運(yùn)營(yíng)中得到了深刻體現(xiàn)和廣泛應(yīng)用。人工智能公共數(shù)據(jù)平臺(tái),作為匯聚、治理和開放海量公共數(shù)據(jù)資源的基礎(chǔ)設(shè)施,其效能發(fā)揮高度依賴于數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)挖掘這兩大支柱技術(shù)的深度融合。
數(shù)據(jù)統(tǒng)計(jì)是平臺(tái)數(shù)據(jù)治理與價(jià)值評(píng)估的基石。在平臺(tái)層面,需要對(duì)匯入的各類公共數(shù)據(jù)(如政務(wù)數(shù)據(jù)、交通數(shù)據(jù)、環(huán)境數(shù)據(jù)、社會(huì)經(jīng)濟(jì)數(shù)據(jù)等)進(jìn)行全面的描述性統(tǒng)計(jì)分析。這包括數(shù)據(jù)總量、類型分布、更新頻率、完整性、一致性以及數(shù)據(jù)質(zhì)量指標(biāo)的量化評(píng)估。通過(guò)均值、方差、分布檢驗(yàn)、相關(guān)性分析等統(tǒng)計(jì)方法,平臺(tái)能夠清晰刻畫數(shù)據(jù)資源的整體面貌,識(shí)別數(shù)據(jù)缺口與異常,為數(shù)據(jù)標(biāo)準(zhǔn)化清洗、元數(shù)據(jù)管理和數(shù)據(jù)資產(chǎn)目錄編制提供科學(xué)依據(jù)。例如,通過(guò)對(duì)某城市歷年空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)的統(tǒng)計(jì),可以快速掌握污染物濃度的平均水平、波動(dòng)趨勢(shì)及空間差異,為后續(xù)的深度分析奠定基礎(chǔ)。
數(shù)據(jù)挖掘是釋放平臺(tái)數(shù)據(jù)潛能、驅(qū)動(dòng)智能應(yīng)用的關(guān)鍵引擎。在高質(zhì)量統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上,數(shù)據(jù)挖掘技術(shù)負(fù)責(zé)從海量、多源的公共數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式、關(guān)聯(lián)規(guī)則和知識(shí)。這主要包括:
- 預(yù)測(cè)建模:利用回歸分析、時(shí)間序列分析、機(jī)器學(xué)習(xí)算法等,基于歷史數(shù)據(jù)預(yù)測(cè)未來(lái)趨勢(shì)。例如,結(jié)合氣象、歷史人流、節(jié)假日信息等公共數(shù)據(jù),預(yù)測(cè)城市特定區(qū)域未來(lái)短時(shí)的人流密度或交通擁堵情況。
- 聚類分析:對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分組,發(fā)現(xiàn)內(nèi)在結(jié)構(gòu)。例如,對(duì)區(qū)域內(nèi)企業(yè)的公開經(jīng)營(yíng)數(shù)據(jù)(行業(yè)、規(guī)模、營(yíng)收等)進(jìn)行聚類,識(shí)別不同的產(chǎn)業(yè)發(fā)展集群,為精準(zhǔn)施策提供支持。
- 關(guān)聯(lián)規(guī)則與序列模式挖掘:發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的有趣關(guān)聯(lián)或先后順序。例如,在政務(wù)服務(wù)平臺(tái)日志數(shù)據(jù)中,挖掘用戶常辦理業(yè)務(wù)的組合順序,優(yōu)化服務(wù)流程和界面設(shè)計(jì)。
- 異常檢測(cè):識(shí)別與常規(guī)模式顯著偏離的數(shù)據(jù)點(diǎn)。這在公共安全(如金融詐騙監(jiān)測(cè))、基礎(chǔ)設(shè)施運(yùn)維(如傳感器異常讀數(shù)預(yù)警)等領(lǐng)域至關(guān)重要。
人工智能公共數(shù)據(jù)平臺(tái)通過(guò)集成先進(jìn)的數(shù)據(jù)挖掘算法和模型,將上述發(fā)現(xiàn)轉(zhuǎn)化為可復(fù)用的分析工具、API服務(wù)或可視化洞察,賦能政府決策、社會(huì)治理、科學(xué)研究及商業(yè)創(chuàng)新。平臺(tái)本身也通過(guò)持續(xù)收集用戶對(duì)數(shù)據(jù)服務(wù)的使用反饋數(shù)據(jù),運(yùn)用統(tǒng)計(jì)和挖掘方法進(jìn)行迭代優(yōu)化,提升數(shù)據(jù)服務(wù)的精準(zhǔn)性和易用性。
數(shù)據(jù)統(tǒng)計(jì)為人工智能公共數(shù)據(jù)平臺(tái)提供了數(shù)據(jù)認(rèn)知的“顯微鏡”和“度量衡”,確保數(shù)據(jù)的可知、可信、可用;而數(shù)據(jù)挖掘則扮演了“探測(cè)儀”和“引擎”的角色,深入數(shù)據(jù)內(nèi)部,揭示規(guī)律,創(chuàng)造智能價(jià)值。二者的協(xié)同作用,共同推動(dòng)公共數(shù)據(jù)從靜態(tài)資源向動(dòng)態(tài)生產(chǎn)要素轉(zhuǎn)變,是構(gòu)建高效、智能、可信公共數(shù)據(jù)生態(tài)的核心技術(shù)路徑。隨著大數(shù)據(jù)、人工智能技術(shù)的進(jìn)一步發(fā)展,數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)挖掘在公共數(shù)據(jù)平臺(tái)中的應(yīng)用將更加自動(dòng)化、實(shí)時(shí)化和智能化,為社會(huì)治理和經(jīng)濟(jì)發(fā)展注入更強(qiáng)大的數(shù)據(jù)動(dòng)能。