統計基礎數據庫建設研究
時間:2022-11-24 03:02:23
導語:統計基礎數據庫建設研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
山東省統計基礎數據庫是在“互聯網+”政務的時代大背景下提出的面向統計數據深度分析的新一代統計大數據管理系統。系統可以有效整合現有的所有數據資源以及對未來產生的數據資源進行更好的管理,形成具備處理百億級統計數據的高性能、專業化統計數據分析工作平臺,有利于更好地開展統計數據生產,建設現代化服務型統計,滿足各級黨委、政府和人民群眾對統計數據服務越來越高的要求。伴隨著現代統計業務的快速發展,建設“覆蓋全面、調查準確、核算科學、運作高效”的現代統計體系的要求不斷提高,這就要求統計部門能夠隨時對所掌握的統計數據進行大規模、隨機場景的專業化統計分析。建設統計基礎數據庫能夠幫助統計部門管理海量、多來源異構統計數據,并對數據進行多層次的分析和利用,解決當前各級統計部門在統計數據管理使用過程中所面臨的以下問題:1)數據資源分散,各種來源的統計微觀數據、綜合數據、宏觀數據分散在數管部門、業務處室,數據資源目錄不清晰,數據資源管理困難,大規模、跨專業使用困難。2)不同種類的調查歷史數據存儲在固定的硬件設備上,查詢歷史數據需要使用相應的軟件系統,效率低。年代久遠、硬件損壞、軟件丟失,導致數據丟失風險大。3)設管、專業、數管、各軟件開發商對統計調查元數據的術語不統一,建模方法不統一,導致在數據生產的各個流程階段,元數據可比性、延續性差。歷年的統計制度中,元數據的口徑變化沒有得到有效管理。4)生成指標時間序列數據困難,不能夠方便快速的查看數據隨時間的變化情況。5)數據交換效率低。數據庫系統與分析系統之間進行數據交換的能力弱,元數據交換質量差,主要數據文件載體無法直接跨系統使用。統計基礎數據庫的建設應具備以下兩大目標:第一,整合各種原始數據資源。使用標準化的元數據來描述來自不同調查的原始數據,使各種格式的原始數據都能夠方便的進入到基礎數據庫中,同時納入部門宏觀數據以及部分微觀數據,未來根據分析需求納入企業數據以及互聯網數據,實現對統計數據資源的整合和統一管理,方便按時間序列、主題、地區、行業等多維度多角度的查詢,使山東省統計數據資源都達到可以直接用于分析的狀態。第二,為統計數據分析工作提供支撐。使各種分析應用、分析工具都能夠方便的訪問基礎數據庫中的數據資源,提高數據資源的利用效率,提升數據資源的價值。
1總體架構設計
基礎數據庫的總體架構如下,從上至下依次分為數據應用展示、數據管理服務層、應用支撐層、數據資源層以及基礎設施層。1.1數據應用展示層。數據應用展示層包括元數據門戶、數據分析子系統、數據查詢展現門戶。數據應用展示層直接面向數據分析用戶,提供包括了元數據查詢、數據查詢、數據分析、數據計算等系統核心業務功能。元數據門戶可以查詢和展示基礎數據庫中各類元數據、元數據的關聯關系、元數據的屬性信息等。數據分析子系統包含兩個部分,分析應用工具集和可視化分析工具??梢暬治龉ぞ呤腔A數據庫提供的基于R語言的集成化數據分析環境。分析工具集是常用的數據分析工具的統稱,包括SPSS、SAS、馬克威等。數據查詢展現門戶能夠實現用戶快速查找、對比數據、數據圖表展示等。1.2數據管理服務層。數據管理服務層作為后臺支撐數據分析和各種數據應用,核心是數據資源服務平臺,各種數據管理模塊、數據應用模塊以組件的方式連接到數據資源服務平臺上。數據資源服務平臺應用多種先進的數據查詢訪問技術、數據緩存基礎開發,集成分析引擎、圖形引擎、報表引擎的多種組件,針對R和其他多種數據分析工具定制外部訪問組件。元數據管理系統基于DDI標準進行構建,主要功能包括元數據編輯、元數據管理、元數據注冊、元數據等功能。數據整合工具用于數據入庫,通過數據整合工具,多種源頭的基礎數據都能夠匹配上標準的元數據被寫入到基礎數據庫中。1.3應用支撐層。應用支撐層包括基礎開發平臺、高性能數據加載引擎、混合數據訪問引擎、報表工具、公式引擎、圖形引擎等。1.4數據資源層。數據資源層包括元數據庫、整合資源庫、數據倉庫和數據集市四個大的組成部分。其中元數據庫用于支撐元數據管理系統存儲和管理元數據,相對其他三個庫是獨立出來的,元數據庫中的內容通過元數據管理系統進行編輯入庫。整合數據資源庫采用NoSQL數據庫,實現非結構化數據以及元數據、標準化數據文件、數據描述文件的存儲。整合資源庫的數據內容,按照元數據描述的情況,被打散后逐條保存到數據倉庫中。數據倉庫的數據結構根據元數據動態生成,方便用戶隨時根據各種條件進行數據查詢,支持對海量數據的即席查詢和匯總分析。1.5基于大數據的基礎設施層?;A設施基于大數據分析架構搭建,整合資源庫、數據倉庫和元數據庫都由分布式數據庫、分布式文件存儲系統和應用服務引擎組成,共同為數據存儲和數據分析應用服務,具備處理海量結構化數據、非結構化數據的能力,能夠滿足快速查詢、高性能數據運算、復雜數據挖掘的需求。
2基于標準的理論模型設計
基礎數據庫系統的理論模型可以從業務模型、元數據標準、信息技術和最終實現四個層面。理論模型研發設計參照多個國際統計標準,包括GSBPM、GSIM、DDI、SDMX、ISO11179、CSpro等。標準規范體系按照國家統計局相關元數據標準、國家統計局相關業務流程規范設計,做到完整覆蓋和完美兼容。采用標準體系不但可以提升業務融合性、數據可讀性、系統可擴展性,而且可以實現統計數據的平臺無關性,系統數據和元數據脫離本系統一樣可以被理解被使用。系統設計應遵循統計通用業務模型、統計通用信息模型和企業聯網直報系統等,采用DDI和SDMX進行統計業務和數據的組織,運用XML和數據倉庫等信息技術,形成最終的產品。
3統計分析設計
統計分析設計為全流程一站式,徹底改變過去進行統計分析時需要先去多個系統找數,再逐一進行指標化預處理,再進行分析的低效能弊端,將數據提取、數據處理、數據分析、數據可視化的過程集成在一個平臺內,應用高性能的數據計算技術保證整個過程流暢,基于R語言實現描述性分析、模型分析和挖掘分析的多種層次的分析能力,保障用戶可以進行任意組合的查詢分析,提供即查即所見,使探索式分析成為可能。
作者:侯昭民 單位:山東省統計數據管理中心
- 上一篇:如何做好不動產統計工作
- 下一篇:畜牧生產統計數據分析