數(shù)據(jù)庫元數(shù)據(jù)管理系統(tǒng)設(shè)計分析
時間:2022-09-08 08:20:13
導(dǎo)語:數(shù)據(jù)庫元數(shù)據(jù)管理系統(tǒng)設(shè)計分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
元數(shù)據(jù)是數(shù)據(jù)記錄和存儲的根源,又被稱為“數(shù)據(jù)的數(shù)據(jù)”,它清楚的描述了數(shù)據(jù)的內(nèi)容、數(shù)量、記錄方法、數(shù)據(jù)持有者、數(shù)據(jù)儲存方法等,它是一種說明性的文檔,派生于數(shù)據(jù)集。使用者可以利用元數(shù)據(jù)的查詢來了解數(shù)據(jù)集的大體概況,也可以利用與數(shù)據(jù)集發(fā)放的單位進行溝通,獲得相關(guān)的數(shù)據(jù)。
1問題的提出和研究意義
隨著科技的發(fā)展,社會的進步,尤其是計算機通信技術(shù)的發(fā)展,人們對數(shù)據(jù)庫的共享性要求日益明顯,當(dāng)前數(shù)據(jù)庫的管理和訪問充滿了復(fù)雜性,如何解決這一問題成為了管理者和用戶最為關(guān)心,最為頭疼的問題。例如,非數(shù)據(jù)庫的建設(shè)者和維護者,都需要知道數(shù)據(jù)庫當(dāng)中的全部內(nèi)容,以此來避免數(shù)據(jù)的重復(fù)錄入,從而更好的使用數(shù)據(jù)。根據(jù)用戶的需求用戶需要知道數(shù)據(jù)信息的質(zhì)量,用戶也需要知道數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)和句存儲格式,來滿足用戶的信息數(shù)據(jù)交換和利用。在這種情況下數(shù)據(jù)的內(nèi)容、品質(zhì)等元數(shù)據(jù)的信息就變得十分重要了,它是信息數(shù)據(jù)有效管理和利用的重要方式,元數(shù)據(jù)的重要性正在得到用戶和數(shù)據(jù)庫的建設(shè)者的證明。由于現(xiàn)在數(shù)據(jù)庫的使用對象越來越專業(yè)化、復(fù)雜化,他們對數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容以及各式會存在相當(dāng)大的差別,對數(shù)據(jù)的共享性影響很大,為了制定一套元數(shù)據(jù)的標(biāo)準(zhǔn),需要采用同樣的各式對數(shù)據(jù)集進行描述。
2元數(shù)據(jù)的定義和形成
元數(shù)據(jù)又叫做描述數(shù)據(jù),是臺灣學(xué)者通過英文翻譯過來的(英文為Metadata),現(xiàn)在我國對該術(shù)語還沒有形成統(tǒng)一的認(rèn)識。國際標(biāo)準(zhǔn)化組織地理信息、地球空間信息技術(shù)委員會的地理信息元數(shù)據(jù)標(biāo)準(zhǔn)草案將元數(shù)據(jù)簡單的定義為“數(shù)據(jù)的數(shù)據(jù)”。美國聯(lián)邦地理數(shù)據(jù)委員會在數(shù)字地理空間元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)中將元數(shù)據(jù)定義為“關(guān)于數(shù)據(jù)的內(nèi)容、質(zhì)量、條件和其他性質(zhì)的數(shù)據(jù)”。國際地球科學(xué)信息網(wǎng)絡(luò)學(xué)會對元數(shù)據(jù)定義為“關(guān)于數(shù)據(jù)和信息資源的描述信息,他們描述、指向或者補充與之相關(guān)的信息內(nèi)容”。元數(shù)據(jù)的定義和專業(yè)術(shù)語出現(xiàn)的時間雖然不長,但是元數(shù)據(jù)的本質(zhì)內(nèi)涵確實流傳了很久。舉一個簡單的例子,在很早以前的圖書管理當(dāng)中,管理人員對書籍目錄的編寫,記載了書籍的各種相信內(nèi)容,包括作者、寫作時間、頁數(shù)和字?jǐn)?shù)等,這種對書籍信息的記錄就可以理解為元數(shù)據(jù)。只不過在以前涉及到的數(shù)據(jù)不是特別復(fù)雜,只是到了現(xiàn)代隨著網(wǎng)絡(luò)技術(shù)的普及,數(shù)字資源呈現(xiàn)出爆炸性增長的速度,人們?yōu)榱吮阌诮y(tǒng)計這些數(shù)字信息不得不將以前的文本化數(shù)據(jù)向網(wǎng)絡(luò)表格化數(shù)據(jù)方面進行轉(zhuǎn)變。從上世紀(jì)八十年代開始出現(xiàn)元數(shù)據(jù)的記錄方式,到現(xiàn)在元數(shù)據(jù)的應(yīng)用已經(jīng)擴展到了各個行業(yè)。
3元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容分析
根據(jù)元數(shù)據(jù)的使用目的不同可以將元數(shù)據(jù)大體分為兩類,即:管理和組織數(shù)據(jù)的元數(shù)據(jù);瀏覽和導(dǎo)航數(shù)據(jù)的元數(shù)據(jù)。第一種類型的元數(shù)據(jù)的代表就是美國nasa描述遙感數(shù)據(jù)的目錄交換格式標(biāo)準(zhǔn)(DIF),這一標(biāo)準(zhǔn)有一個典型的特征就是必備六個字段:登錄目錄標(biāo)識、登錄目錄的名稱、參數(shù)、原數(shù)據(jù)中心(包含名字、數(shù)據(jù)集標(biāo)識、聯(lián)系人等)和數(shù)據(jù)概要描述。另外,為了讓信息表達的更加明確,這一標(biāo)準(zhǔn)當(dāng)中還要增加字段,如傳感器的名字、位置、數(shù)據(jù)分析、計劃口令、品質(zhì)等,增加這些字段可以提高用戶的使用效率,盡可能的完善元數(shù)據(jù)。第二種元數(shù)據(jù)的代表就是澳大利亞新西蘭土地信息委員會制定的元數(shù)據(jù)標(biāo)準(zhǔn)。這一標(biāo)準(zhǔn)確立的核心元素較少,能夠讓用戶在最短的時間內(nèi)查詢到所需要的數(shù)據(jù)信息。核心元素能夠說明現(xiàn)有數(shù)據(jù)的種類、數(shù)據(jù)信息、數(shù)據(jù)范圍、與其他應(yīng)用的作用,以及獲取更多信息的位置等。核心元數(shù)據(jù)共分為九類三十二個元素:數(shù)據(jù)集中、展示、數(shù)據(jù)時間、數(shù)據(jù)狀況、訪問和瀏覽情況、數(shù)據(jù)品質(zhì)、聯(lián)系信息、元數(shù)據(jù)時間、元數(shù)據(jù)附加內(nèi)容。除此之外,核心元數(shù)據(jù)還要制定了數(shù)據(jù)格式,使用指南,以方便用戶查找信息。
4元數(shù)據(jù)表達方式的分析
美國聯(lián)邦地理數(shù)據(jù)委員會的數(shù)字化地理空間元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)元數(shù)據(jù)信息單元是元素、實體(包括復(fù)合實體)和字集。元素是元數(shù)據(jù)的基本信息單位,元數(shù)據(jù)實體由元數(shù)據(jù)元素組成,元數(shù)據(jù)實體、元素則構(gòu)成復(fù)合實體,最終部分元素、簡單或者復(fù)合元數(shù)據(jù)實體組成元數(shù)據(jù)子集,元數(shù)據(jù)的組成結(jié)構(gòu)從小到大排列為,元素、實體(復(fù)合實體)、子集。元數(shù)據(jù)是利用巴克斯諾爾范式進行表達的,巴克諾斯?fàn)柗妒娇梢远x常規(guī)語言元素和屬性標(biāo)準(zhǔn)語法,在確定復(fù)合實體和其他元素、實體間的聯(lián)系的時候,采用類似于數(shù)學(xué)等式的關(guān)系將標(biāo)識符和表達式用等號連接起來,以此來表表達式產(chǎn)生標(biāo)識符這一進化關(guān)系。這一規(guī)則公式代表了各種符合的意義,從數(shù)學(xué)角度可以解釋為,A=B+(C)表示A由B和可選項C構(gòu)成,A=3{B}5表示A由B重復(fù)3到5次而成,子集、實體、元素之間的關(guān)系可以用元素比實體進一格的辦法來表達,美國的數(shù)字化地理空間元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)利用這種方式可以清晰的表達數(shù)據(jù)實體和元素之間的各種關(guān)系,但是它也只是包含了標(biāo)準(zhǔn)化當(dāng)中元數(shù)據(jù)和元素的定義,并沒有規(guī)定數(shù)據(jù)的格式,有時候用元數(shù)據(jù)元素分層縮排來表示,有時候用編號系統(tǒng)表示,這就使得元數(shù)據(jù)使用起來并不簡潔。為了解決這一問題,建立了空間數(shù)據(jù)信息交換網(wǎng)絡(luò),利用比較統(tǒng)一的SGML、Z39.50和其他協(xié)議來表示,可以更加靈活的執(zhí)行元數(shù)據(jù)。ISO/TC211的元數(shù)據(jù)標(biāo)準(zhǔn)利用了圖表和數(shù)據(jù)字典相融合的表達方式,清晰的表示了元數(shù)據(jù)內(nèi)容之間的各種關(guān)系。數(shù)據(jù)字典可以詳細的解釋元數(shù)據(jù)的內(nèi)涵,圖表則是面向?qū)ο蟮慕y(tǒng)一建模語言UML靜態(tài)結(jié)構(gòu)圖、ISO借口定義語言,在圖表當(dāng)中信息單位是包、類和屬性。數(shù)據(jù)字典當(dāng)中元數(shù)據(jù)的信息單元是子集、實體以及元素,這一標(biāo)準(zhǔn)說明了圖表和字典當(dāng)中的對應(yīng)關(guān)系。因為靜態(tài)結(jié)構(gòu)圖準(zhǔn)確的解釋了元數(shù)據(jù)的語義和句法結(jié)構(gòu)規(guī)則,制定了標(biāo)準(zhǔn)的描述數(shù)據(jù)信息的方法和格式,通過輔助設(shè)計軟件可以精確的表達數(shù)據(jù)元素關(guān)系,檢查元數(shù)據(jù)設(shè)計的整體性和統(tǒng)一性,所以ISO/TC211的元數(shù)據(jù)表達方式對全世界各個行業(yè)的數(shù)據(jù)管理和服務(wù)產(chǎn)生了重要的影響。
5元數(shù)據(jù)網(wǎng)絡(luò)管理模型分析
當(dāng)下比較流行的元數(shù)據(jù)管理系統(tǒng)模式可以分為:集中式數(shù)據(jù)管理體系和分散式數(shù)據(jù)管理體系。集中式數(shù)據(jù)管理體系就是所有的元數(shù)據(jù)都聚集在一個元數(shù)據(jù)管理站點上,數(shù)據(jù)集元數(shù)據(jù)是通過數(shù)據(jù)制造者免費上傳的,數(shù)據(jù)的使用者可以通過當(dāng)下的數(shù)據(jù)管理站來進行訪問好查詢元數(shù)據(jù)。這一模式比較有代表性的就是英國地理數(shù)描述目錄,這一機構(gòu)的數(shù)據(jù)來源于國家制圖機構(gòu)。這種模式的優(yōu)點就是使用者可以迅速的查找元數(shù)據(jù),工作效率很高,當(dāng)然缺點也很明顯,就是這一模式分裂了這一管理系統(tǒng)和其他網(wǎng)絡(luò)元數(shù)據(jù)體系的鏈接,導(dǎo)致這一體系的元數(shù)據(jù)數(shù)目較少,在數(shù)據(jù)信息的更新和維護方面就取決于元數(shù)據(jù)的上傳者,元數(shù)據(jù)信息不能及時的更新,提供的數(shù)據(jù)有可能出現(xiàn)錯誤。分布式元數(shù)據(jù)管理體系就是要設(shè)立一個元數(shù)據(jù)網(wǎng)絡(luò)交換的核心連接點,使用者可以在這一連接點進行元數(shù)據(jù)的查詢,而對于元數(shù)據(jù)的供給者和元數(shù)據(jù)的數(shù)據(jù)制造者,則需要設(shè)立分節(jié)點,保存各種元數(shù)據(jù)的信息,然后將核心連接點和分節(jié)點聯(lián)系起來。元數(shù)據(jù)的使用者不能直接訪問數(shù)據(jù)的制造者,只能通過核心連接點來訪問數(shù)據(jù)信息,進行元數(shù)據(jù)的查詢。這一模式的代表性機構(gòu)就是美國空間數(shù)據(jù)交換網(wǎng)絡(luò),它將用戶、服務(wù)器內(nèi)容、數(shù)據(jù)庫服務(wù)器進行了分離。通過網(wǎng)關(guān)根據(jù)數(shù)據(jù)信息的類型、數(shù)據(jù)信息覆蓋位置等條件構(gòu)成元數(shù)據(jù)的查詢界面,用戶通過網(wǎng)絡(luò)進行查詢,核心連接點通過用戶信息向分節(jié)點進行傳輸,然后在將內(nèi)容反饋到用戶瀏覽的頁面當(dāng)中。這種模式的優(yōu)點在于能夠增加元數(shù)據(jù)的數(shù)量,減少核心連接點對元數(shù)據(jù)的更新負(fù)擔(dān),缺點在于元數(shù)據(jù)的查詢速度較慢,影響使用者的查詢效率。
6元數(shù)據(jù)傳輸各式的統(tǒng)一
雖然當(dāng)前已經(jīng)制定了一些元數(shù)據(jù)的標(biāo)準(zhǔn),但也只是確定了元數(shù)據(jù)的內(nèi)容、含義、類別、組成結(jié)構(gòu)等特征,但是這還不能滿足元數(shù)據(jù)的使用要求,制訂元數(shù)據(jù)標(biāo)準(zhǔn)的目的是為了元數(shù)據(jù)的查找和檢索,了解數(shù)據(jù)信息和內(nèi)容,因此必須要注重元數(shù)據(jù)的傳輸標(biāo)準(zhǔn),以此為基礎(chǔ)來設(shè)計元數(shù)據(jù)的管理體系,從而達到對元數(shù)據(jù)的搜尋、修改、更新維護和查詢檢索。在DOS環(huán)境下和ARC/INFO環(huán)境下,美國誕生了很多元數(shù)據(jù)錄入和編輯的軟件,澳大利亞也開發(fā)類似的軟件,這些元數(shù)據(jù)軟件都是為了便于自身的查詢需求,符合各自制定的元數(shù)據(jù)標(biāo)準(zhǔn)的。但是各個元數(shù)據(jù)錄入軟件的數(shù)據(jù)格式卻不相同,有的是文本格式,有的是HTML格式,還有的是關(guān)系型數(shù)據(jù)庫格式,雖然方便了用戶,但是在元數(shù)據(jù)的修改和維護方面成本很高,所以要制定統(tǒng)一的元數(shù)據(jù)轉(zhuǎn)化標(biāo)準(zhǔn),方便網(wǎng)絡(luò)上的元數(shù)據(jù)交換。美國和澳大利亞建議更改統(tǒng)一的后綴格式,例如,將SGML/HTML的統(tǒng)一轉(zhuǎn)換成XMLDTD或者是XMLSchema,將表格改編成ASCII的格式。這種方式優(yōu)點在于有利于建設(shè)元數(shù)據(jù)索引和能夠在不同地區(qū)的互聯(lián)網(wǎng)當(dāng)中進行元數(shù)據(jù)的查詢。
7元數(shù)據(jù)管理平臺設(shè)計和實現(xiàn)
7.1功能流程設(shè)計。功能流程設(shè)計需要滿足元數(shù)據(jù)生命周期的要求,當(dāng)前大多數(shù)公司單位都是分散式的數(shù)據(jù)管理體系,數(shù)據(jù)比較分散,需要采集多元數(shù)據(jù)并且簡化數(shù)據(jù)的存儲體系。可以將TSV(三層階梯式圖)引用到元數(shù)據(jù)管理體系當(dāng)中,在元數(shù)據(jù)導(dǎo)入配置方面,可以利用懸掛點配置的方式,在任務(wù)采集的起始階段可以配置相應(yīng)的懸掛點(類似分支點),建設(shè)元數(shù)據(jù)的查詢樹,在數(shù)據(jù)源配置方面要表明數(shù)據(jù)源的類型、銜接數(shù)據(jù)、賬戶情況等,還要進行測試觀察后續(xù)問題。為了更好的完善元數(shù)據(jù)的管理體系,保持元數(shù)據(jù)地圖的完整性,需要對元數(shù)據(jù)進行完備的采集,采集方式又分為手動采集和自動采集。手動采集是對用戶要求的數(shù)據(jù)庫進行單次采集,自動采集則額外的配置采集時間和采集周期。7.2元數(shù)據(jù)的瀏覽。將配置好的懸掛點體現(xiàn)在元數(shù)據(jù)的樹狀結(jié)構(gòu)當(dāng)中,以形象的結(jié)果提供給用戶,基于TSV的思想元數(shù)據(jù)樹需要具有三層以上的結(jié)構(gòu),首先是系統(tǒng),其次是各系統(tǒng)數(shù)據(jù)庫,再者是各數(shù)據(jù)庫的下屬表。在庫級元數(shù)據(jù)方面需要展示各個表名和創(chuàng)立的時間,在表級元數(shù)據(jù)方面需要雙擊查看該表的詳細信息,包括字段、約束、索引、鍵、視圖等,在下拉菜單當(dāng)中可以檢索相應(yīng)的元數(shù)據(jù)信息。在字段級元數(shù)據(jù)方面包括字段名、字段類型、字段解釋、所屬的表和庫,前三項屬于特點描述,后兩項是定義描述,這樣能夠方便對字段進行分析和定位。7.3元數(shù)據(jù)的構(gòu)架設(shè)計。元數(shù)據(jù)管理體系的技術(shù)構(gòu)架主要是對所有信息數(shù)據(jù)的篩選,來確定那些信息可以納入元數(shù)據(jù)管理體系,以此來構(gòu)建三級視圖。技術(shù)構(gòu)架的信息主要包括五個方面,即:數(shù)據(jù)源層、數(shù)據(jù)收集層、數(shù)據(jù)保存和管理層、應(yīng)用幫助層、登錄管理和用戶信息等。數(shù)據(jù)源層主要就是提供數(shù)據(jù)信息,數(shù)據(jù)收集層主要是理清各類數(shù)據(jù)關(guān)系方便元數(shù)據(jù)的管理。
8結(jié)語
綜上所述:數(shù)據(jù)庫元數(shù)據(jù)是處理各種數(shù)據(jù)信息,滿足個人和單位需求的一種重要數(shù)據(jù)管理模式。為了應(yīng)對當(dāng)下信息時代的各種數(shù)據(jù)信息,從海量信息當(dāng)中提取有價值的數(shù)據(jù)信息,就需要對數(shù)據(jù)庫元數(shù)據(jù)進行研究和優(yōu)化。元數(shù)據(jù)簡而言之就是管理數(shù)據(jù)的數(shù)據(jù),它本身也是一種數(shù)據(jù)信息,根據(jù)使用目的的不同可以分為管理和組織數(shù)據(jù)的元數(shù)據(jù);瀏覽和導(dǎo)航數(shù)據(jù)的元數(shù)據(jù)。元數(shù)據(jù)在表達方式上可以分為元素、實體(復(fù)合實體)、子集這樣的單位,在管理模式上可以分為集中式數(shù)據(jù)管理體系和分散式數(shù)據(jù)管理體系。在元數(shù)據(jù)的傳輸格式方面還沒有統(tǒng)一的標(biāo)準(zhǔn),建議改變傳輸格式,形成統(tǒng)一。在元數(shù)據(jù)平臺建設(shè)和管理方面可以參考TSV(三級視圖階梯)的模式,使元數(shù)據(jù)庫更加清晰明了。
參考文獻
[1]紀(jì)曉博.基于OAIS參考模型的檔案信息管理系統(tǒng)的設(shè)計與實現(xiàn)[D].中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院),2016.
[2]張馨月.基于SQLServer數(shù)據(jù)庫的銀行保險數(shù)據(jù)管理系統(tǒng)的設(shè)計和實現(xiàn)[D].吉林大學(xué),2015.
[3]姜平,程昌秀,謝炯,陳榮國.空間數(shù)據(jù)庫中柵格元數(shù)據(jù)管理模型的設(shè)計與實現(xiàn)[J].遙感技術(shù)與應(yīng)用,2012,27(02):315-321.
[4]劉海生.面向信息集成系統(tǒng)的內(nèi)核數(shù)據(jù)管理技術(shù)的研究[D].暨南大學(xué),2011.
[5]周震天.科技評價元數(shù)據(jù)管理系統(tǒng)設(shè)計與應(yīng)用[D].湖南大學(xué),2010.
作者:徐百盛 單位:廣東省紫金縣職業(yè)技術(shù)學(xué)校