油田數據融合關鍵技術探究論文

時間:2022-11-04 03:53:00

導語:油田數據融合關鍵技術探究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

油田數據融合關鍵技術探究論文

摘要對于油田信息化建設而言,建立一個高度共享、界面友好、高效運行的數據融合平臺有著重要而深遠的現實意義。經過深入調研和分析,該文結合國內外數據中心建設的實踐經驗歸納總結了影響數據融合平臺建設成敗的五大關鍵技術因素。并在此基礎上,提出了以虛擬數據倉庫為核心的油田數據中心系統架構及關鍵技術路線。

關鍵詞虛擬數據倉庫;數據中心;聯邦;信息門戶;元數據

1引言

隨著信息技術的飛速發展,國內外各大石油公司的競爭已經表現在信息技術應用的競爭,都在設法借助信息技術的力量,尋找新的增長點,從石油天然氣行業的上、中、下游陸續建立了各類信息系統,歷經數十年,投資數十億美金不等。

另一方面,國內大多數油氣田,現有的信息系統多為自主開發和部分引進系統。已經完成的各類專業應用軟件、專業數據庫系統和數據倉庫等分別建立在不同的平臺上,數據源各異,信息標準不一、相互獨立,信息來源渠道分散并分別集中在不同的層次,相互間難以實現不同層次信息交換;這些系統不僅各自獨立,分散,甚至存在某些數據重復建設的情況,數據冗余嚴重,同一份數據重復出現在多個應用系統中,存在數據不一致的風險。

數據中心(數據融合平臺)通過將油田各應用系統有機集成和業務重組,最終構建一個統一的、標準的、集成的、能夠包容各業務流程的數據中心體系架構和數據交換和共享平臺,支持分散的、松藕合的分布式應用集成。大大地避免油田在信息系統方面重復建設,重復投資,為油田節省大量的資金。

然而,各大油田對數據融合平臺建設目標和建設內容的理解各不相同。所采用的技術也是五花八門,這樣實現的數據中心往往運行效率不高、對原有系統改動大(有的甚至直接放棄原系統)、難于推廣,這勢必會嚴重影響數據中心的全局應用。

在本文中我們試圖通過分析影響數據中心建設的若干關鍵技術因素及解決方案,得到一個具有普遍意義的、先進、高效的數據融合平臺架構。

2關鍵技術因素分析

2.1如何有效整合大量異構、異平臺數據源

隨著油田信息化建設的深入進行,大量的信息系統被開發并投入運行,由此而產生出了大量的同構異數據庫、異構異平臺的不同數據源,在這些數據源中有些是結構化的、有些則是文檔、曲線數據等非結構化數據,還包括OA、ERP、紙制文檔等一大批數據源。如不能有效整合和管理這些數據,將很容易造成數據遺失和管理混亂。

然而,如何有效整合如此龐大、復雜的數據源呢?是將所有數據集中到一個大庫中統一管理?還是采用分布式技術建立統一訪問平臺?如何在各數據源的基礎上實現綜合、分析、挖掘?這些問題都將成為油田數據中心建設所面臨的難題。

2.2如何為用戶提供統一的登錄及安全可靠的數據訪問平臺

油田數據中心建設用戶提供統一的登錄及安全訪問的目的是為了解決以下幾大問題:

(1)各系統之間互不兼容,數據信息不能共享。

(2)用戶使用不同系統時,需要在不同系統中不停登錄切換,效率低下。

(3)管理人員需要記憶一大堆的用戶名和密碼。

(4)不同系統需要很多不同專業的人員更新維護,維護成本很高。

針對上述問題,目前行業內提出了很多解決方案,但是在實施中如何選擇最優的方案以解決面臨的諸多難點問題:

(1)如何解決靈活性適應性差,花費大量時間建立的信息系統不能適應需求的變化,一旦需求改變,就將不斷修改程序甚至全部重建,增加時間和資金投入的問題。

(2)如何建立起全局的安全訪問目錄,為用戶提供靈活、方便、安全的數據服務。

(3)如何有效集成大量圖形、圖表工具,為不同角色、管理級別的用戶提供直觀、靈活的查詢界面。

(4)個性化服務問題,即為用戶定制訪問首頁及訪問內容。

2.3如何有效管理元數據

元數據的定義一般泛稱為:Dataaboutdata(管理數據的數據)。元數據的具體定義和應用隨學科不同和應用領域不同而異。在石油領域,元數據是描述一個具體的油田數據庫數據資源對象(數據集或數據),并能對這個對象進行定位管理,且有助于它的發現與獲取的數據。

從元數據的定義可以看出,所謂元數據就是要定義一種管理數據的格式或數據字典,與此同時數據之間的關聯也應定義在元數據中。然而在具體實施中卻存在著一系列難點問題需要解決,例如:

(1)在石油領域里需要定義怎樣的數據格式?

(2)元數據的規模有多大?

(3)如何將元數據的定義與數據源進行抽取、過濾、轉換、映射關聯在一起,從而實現元數據定義的自動化?

(4)如何為元數據管理提供完整易用的操作界面(甚至是圖形化的界面)?

2.4如何充分利用企業現有硬、軟件資源及網絡資源

企業現有服務器、網絡資源往往得不到充分的利用,如何高效的組織企業現有硬、軟件環境為生產應用服務,這也是數據中心建設中急需解決的一大問題。

實施中可能遇到的難點問題包括:

(1)如何評估企業現有硬件、網絡資源的使用效率?

(2)如何根據數據中心運行需求來優化配置企業現有資源?

(3)網絡及硬件設備管理規范。

2.5如何從海量數據中整理、挖掘出有價值的數據倉庫模型

建設面向主題的數據倉庫首先面臨的問題就是如何區分決策關鍵數據。其次是主題分類的問題,不同的專業需要不同的決策數據,需要建立不同的數據倉庫模型,這一點不同于研究院現有的數模和建模,需要在龐雜的業務數據中不斷挖掘出新的、不同規模的主題和倉庫模型,并為這些主題建立起專業分類以方便管理,隨著應用的深入能夠被發掘出來的主題會越來越多、越來越細。最后,怎樣把這樣大量的數據轉換成可靠的、商用的信息以便于決策支持的問題也是數據倉庫建設中必須要解決。

3數據整合平臺的總體技術架構設計

3.1數據融合平臺系統設計思想

通過上述關鍵技術因素分析,我們明確了所要解決的主要目標問題,在此基礎上我們進一步提出數據融合平臺系統設計思想和關鍵技術路線。

1)數據融合平臺建設是一個龐大的系統工程,需要分階段、分步驟實施。從上述關鍵技術因素分析中我們可以提煉出系統建設的三個主要層次,即:首先要完成數據中心所需數據的分析、整理工作,從而制度出統一的數據標準和元數據規范;其次是已數據標準為基礎建立數據交換與共享平臺;最后建立項目數據庫和數據挖掘、知識管理環境。

2)數據融合平臺需要建立在一個高效率、高穩定、高可擴展性以及高安全的運行環境中,因此作為目前技術主流的J2EE符合此類大型系統的設計需要,它具有可靠、穩定、跨平臺的諸多優勢。另一方面,數據融合平臺需要一套完整的而有機結合的技術解決方案,要解決包括異構、異平臺乃至非結構化數據的有機融合、符合個性化和安全要求的信息門戶與數據交換平臺的有機整合、知識管理、數據挖掘環境與數據交換平臺的有機整合。在眾多J2EE平臺中,只有IBM方案能夠有效滿足上述三大結合的需要,其主流產品WebSphereII、WebspherePortal、DW9已被廣泛運用于電力、銀行等大型企業數據整合系統中并具有較高的性價比。

3)針對數據集中還是分布的問題,我們提出的虛擬數據倉庫體系架構有效結合了集中式和分布式優點,既能夠保證原有系統不會因為數據集中而影響使用,又能夠通過ETL從虛擬數據倉庫中導出項目數據到項目數據庫中。有效滿足了用戶對數據的各類需求。

4)需要建立一個可擴展的集成數據挖掘、知識管理、OLAP等多種分析工具在內的項目環境為知識發現提供基礎運行平臺。

5)需要建立以數據中心為核心的服務器群集環形網絡架構體系及數據存儲NAS和SAN混合架構。服務器群集環形網絡架構體系包含群集件和負載平衡管理,可以定義規則使之在正常工作時和應對故障時自動為每個服務分配處理資源。

3.2虛擬數據倉庫總體技術架構

下面我們給出虛擬數據倉庫總體技術架構,本架構全面覆蓋了五大技術因素,并有機融合了目前國際領先、成熟的技術、產品包括聯邦技術、門戶技術、元數據管理、數據評分及多維數據分析技術,服務器群集環形網絡架構體系及數據存儲NAS和SAN混合架構等。

圖1虛擬數據倉庫總體技術架構

技術架構分析:

本技術架構由兩大資源管理平臺構成:

石油數據資產化管理與應用系統平臺

專業應用和綜合應用數據資源平臺

(上圖中兩大平臺所涉及領域用白色虛線區分)

石油數據資產化管理與應用系統平臺主要內容介紹:

1)目前分散在各部門的數據庫系統(包括勘探、開發、生產調度等)在物理位置上保持現狀,但在邏輯上和管理上統一納入分布式數據庫系統管理范疇。它們的數據源采集流程及數據質量保障則納入標準化體系,對錄入數據進行數據整理、質量審核、數據加載。

2)虛擬數據倉庫體系建立在分布式數據管理系統基礎之上,提供索引編目、安全管理、元數據管理、權限管理、空間數據集成、數據抽取等服務。

3)數據中心數據管理門戶為虛擬數據倉庫管理人員提供統一的登陸和管理操作界面。

4)企業應用門戶提供數據資源需求用戶統一的登陸、檢索界面。

專業應用和綜合應用數據資源平臺主要內容介紹:

1)數據需求者根據需求,通過虛擬數據倉庫抽取出所需要的數據建立數據集市。

2)根據以建立的數據集市提供用戶數據挖掘、高級檢索、OLAP所需的相關工具支持。

3)數據集市還包含地震、測井等大體數據。

4油田數據整合關鍵技術

4.1聯邦技術

聯邦是指對跨越多個數據資源的數據關聯查詢的技術。通過實現該技術從而支持不同數據庫表之間(甚至文本文件間)數據的關聯查詢。整合不同數據(分布式和大型機,結構化和非結構化,公共和私有),在處理使其如同是在單個數據源中。聯邦技術能夠統一地訪問以任何格式(結構化的和非結構化的)存儲的任何數字信息。通過采用數據聯邦,可在不影響現有應用的前提下,將各類系統的數據源通過聯邦的方式映射到一個邏輯的數據庫中。聯邦的特性:●透明性。所有信息源看起來就像是一個信息源。

●異構性。從不同數據源整合數據。

●可擴展性和工具化。可以訪問任何數據源。

●可以通過標準的分析、報告和開發工具來無縫利用的高級功能。查詢接口提供了基于標準的完整功能——包括對后端數據源中缺少能力的補償。

●避免需要對現有數據源和應用程序進行更改的自主性。

●其性能可以滿足實際應用程序和可能應用程序的需要,包括高級查詢優化技術、本地數據訪問以及透明緩存支持。

聯邦的技術組織結構:

圖2聯邦技術組織結構

圖2中:聯邦服務器(FederatedDatabaseServer)通過稱為包裝器(Wrapper)的軟件模塊與數據源進行通信。對于上述各類數據源,WebSphereII提供專用的wrapper,每個wrapper實現異構數據源的SQL處理,支持異構數據庫間數據類型的轉換和函數的轉換。對關系型數據庫數據源而言,包裝器通過安裝在信息整合平臺的該數據庫的客戶端與其進行交互。對非關系型數據源,包裝器直接進行數據訪問。包裝器從信息整合服務器接受數據訪問指令,進行轉換為數據源所支持的SQL,通過數據源的客戶端提交執行。然后將結果返回給信息整合服務器處理。

4.2Portlet技術

基于IBMWebspherePortal技術實現的油田信息門戶平臺能夠高效地把各種應用系統、數據資源和互聯網資源統一集成到通用門戶之下,根據每個用戶使用特點和角色的不同,形成個性化的應用界面,并通過對事件和消息的處理傳輸把用戶有機地聯系在一起。簡單而言,門戶平臺是能夠充分滿足用戶個性化需求,使得用戶能夠以自己的方式交互訪問相關信息、應用軟件以及業務流程的集成平臺。該平臺主要技術特點包括:

●多平臺系統的單點登錄集成框架

在統一的瀏覽器環境下,通過一次身份認證,即可按照各自的權限存取不同的應用系統,動態瀏覽企業內部管理信息、外部經營管理信息。

●多平臺系統內容集成框架

在統一的瀏覽器環境下,通過與原有應用系統(如OA系統、ERP系統、勘探信息系統,開發信息系統等)進行集成,在保留現有系統的前提下,使得通過統一的門戶能夠進入這些應用系統,并可以portlet形式集成原有應用系統的內容。

●強大的文檔搜索功能

石油行業的各種文檔形式多樣,格式可能是文本、XML、Word文檔、PDF及PPT文件,存儲在文件系統、內容資料庫、數據庫及郵件系統中,并且安全級別各不相同。因此,該系統提供區別于其他搜索引擎的專有引擎來搜索各種文檔。

●與ERP工作流、原始報表和水晶報表系統無縫集成

在統一的瀏覽器環境下,在各自的使用權限下通過portlet集成展現ERP工作流的審批過程及各種報表,統計圖表。

●用于協同工作的信息即時交流平臺

在該門戶系統上工作的同時,用戶可看到其他在線的人員,然后通過內部郵件系統、在線聊天等手段與之交流,提高工作效率。

●用戶的個性化定制

在該門戶系統上工作時,可自定義頁面,在自己的頁面上添加經常關注的信息,或經常要使用的集成的各種應用系統。

●強大的安全管理平臺

在基于LDAP的技術上,提供基于角色的用戶安全管理功能,使得各級用戶只能瀏覽權限范圍內的信息,確保系統安全運行。整個系統,只需要一次登錄,即可訪問所有具有權限的信息和功能。用戶口令實現集中管理。

4.3元數據管理

首先,油田各類數據庫可以利用元數據技術規范化其現有的數據資源。每個專業領域建立自己的元數據標準,各專業子庫按照這種標準的格式向外數據。這樣,用戶可以通過元數據標準提高數據查詢和使用的效率和準確性。其次,這些元數據將記錄有關于數據的所有上下文資料,數據管理者可以通過這些元數據對數據資源進行有效的管理,數據的使用者可以根據這些元數據了解數據資源的背景資料等信息。最后,元數據的使用能夠進一步的消除各個數據資源之間的語義的獨立性和異構性,能夠達到一定限度的數據整合和交換。

圖3油田元數據管理

油田元數據網格服務包括三個主要過程:用戶通過元數據網格服務到元數據庫中檢索元數據;用戶根據元數據到網格應用數據庫中查詢獲取數據;網格應用數據庫中新增數據庫、表、字段、某些特殊記錄時,向元數據網格數據庫與之相關的信息、資料。

4.4數據挖掘與知識發現技術

總體框架中描述的專業應用及綜合應用平臺需要包括從后臺數據整理、分析到前端圖形圖表展現的全面技術支撐。

IBMDB2DWE(DataWarehouseEdition)是面向商業智能應用的軟件產品包,它包含十多個工具,給商業智能提供了全面、堅實的支持。其中,DB2Alphablox是新版DWE的亮點,它是一套基于Java開發的分析組件。

圖4IBMDB2DWE產品分布

DB2Alphablox支持標準的J2EE應用程序開發模型,從而提供了可實現應用程序交付的全面開發范例,這為應用程序開發人員提供了定制用戶界面和添加自己商業及應用程序邏輯的靈活性。通過DB2Alphablox,用戶將獲取功能強大的報表生成、圖形化分析、無限制的信息“鉆取”等多種體驗。DB2CubeViews是DB2通用數據庫的附加功能部件,它增強了DB2,使DB2作為開發和部署商業智能產品和應用程序的平臺,特別值得一提的是,DB2CubeViews有助于加速位于DB2上的OLAP解決方案和應用程序的開發和管理。

該技術主要特性包括:

DB2UDBV9.1中的DataWarehouse特性包括:

●用于大量可伸縮性的DatabasePartitioningFeature。

●用于提高DBA效率和所有規模的數據庫的自動管理。

●多維數據集群--在OLAP和其他查詢中使用的數據的優化存儲選項。

●為倉庫查詢提供Cube似的性能的具體化查詢表。

●幫助維護實時倉庫的OnlineUtilities。

●DesignAdvisor,使得易于為高性能的分析工作負荷設計優化的一組倉庫對象(包括MQT、索引、分區和MDC)。

●用于高級分析的內置功能,包括回歸、協方差、柱狀圖和移動窗口。

5總結

本文針對五大關鍵技術因素提出的油田異構數據源整合虛擬數據倉庫系統,使得企業能夠多種業務應用系統、多種異構數據源并存,實現異構數據源的動態及時互訪,以及信息的挖掘與綜合利用,既保護了企業的原有信息化投資,又提供了應用系統由舊向新、系統平臺由低向高平滑過渡,能夠滿足企業低成本、階段性、可擴展性信息系統建設的需要。

參考文獻

[1]陳長清,等.異構平臺的數據倉庫與數據開采技術DB/OL;http://

[2]仇麗青,等.面向Web的數據倉庫體系設計J.計算機應用研究,2004,(9)

[3]MobasherB,JainN,HanE,SrivastavaJ.Webmining:PatterndiscoveryfromworldwidewebtransactionsR.TechnicalReportTR96-050,UniversityofMinnesota,Dept.ofComputerScience,Minneapolis,1996

[4]IBM,IBM聯邦數據庫技術.

http://www-/

[5]IBM,WS技術白皮書.

ttp://www-/developerworks/

[6]劉啟原,劉怡.數據庫與信息系統的安全[M].科學出版社,2000,1.20-28

[7]毛鋒.數字油田的理論.設計與實踐[M].北京:科學出版社,2001.65-106

[8]羅廣華,熊華平.油田開發數據倉庫的建立[J].大慶石油地質與開發,2002,(02).34-35

[9]趙蘊冬.數據倉庫及其建設方法[J].油氣田地面工程,2003,(02).73-74

[10]王權.解析石油行業信息化[J].數字化工,2004,(12).5-7