高校檔案管理的實施與探討

時間:2022-11-21 03:34:35

導(dǎo)語:高校檔案管理的實施與探討一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

高校檔案管理的實施與探討

1構(gòu)建Hadoop項目的高校分布式檔案管理

Hadoop項目已經(jīng)大量的應(yīng)用于實際項目之中。淘寶、百度、騰訊、網(wǎng)易等都在使用Hadoop項目,加上很多高校也在研究Hadoop項目,所以本項目使用的Hadoop已經(jīng)是相當(dāng)成熟的技術(shù)。Hadoop平臺下的高校分布式檔案管理系統(tǒng),主要目的就是利用軟件來實現(xiàn)檔案文檔的歸檔、查詢、瀏覽以及下載等一系列流程管理,使工作人員對文檔的管理工作更加容易,既可以提高工作效率,又可以降低管理的成本。在充分考慮高校檔案工作的各種共性,避免重復(fù)投資、浪費(fèi)人力和物力情況發(fā)生的同時,采用分布式技術(shù)模型來構(gòu)建—個檔案管理系統(tǒng)平臺,具有深遠(yuǎn)的意義。

2Had項目管理系統(tǒng)需要解決的問題

2.1Had項目管理系統(tǒng)研究內(nèi)容

本項目方案首先是構(gòu)建檔案文件的錄入、存儲、歸檔功能,用以實現(xiàn)檔案的數(shù)字化,所有的文件信息都構(gòu)建在HDFS系統(tǒng)之上,實現(xiàn)分布式的文件存儲。其次,完成檔案的檢索和分析功能,實現(xiàn)用戶對存入檔案的查詢和數(shù)據(jù)分析,這部分將利用MapReduce(Hive)實現(xiàn)大規(guī)模數(shù)據(jù)的分析和處理。最后是檔案的瀏覽和下載功能,通過JSP技術(shù)實現(xiàn)檔案的頁面展示和下載。此外,項目還考慮到安全性問題,實現(xiàn)對檔案的加密,操作人員的身份認(rèn)證等功能。構(gòu)建基于HDFS系統(tǒng)上分布式檔案文件系統(tǒng),從而完成對大量高校檔案文件的安全存儲。構(gòu)建基于MapReduce(Hive)的檔案數(shù)據(jù)查詢、計算系統(tǒng),從而完成對已經(jīng)存儲的檔案數(shù)據(jù)進(jìn)行處理。構(gòu)建基于技術(shù)的檔案管理信息系統(tǒng),通過簡潔方便的WEB界面實現(xiàn)對整個檔案系統(tǒng)的操作。設(shè)計和實現(xiàn)海量檔案數(shù)據(jù)處理過程中的MapReduce。在海量數(shù)據(jù)查詢中結(jié)合Hive與MapReduce。

2.2Had項目管理系統(tǒng)研究方法

首先熟悉已有的相關(guān)成果,深入分析其中方法技巧,然后針對研究問題的特點及難點,通過不斷的實驗,大量的實踐來分析比較各種方法及方案配置的優(yōu)缺點,以期解決問題。除了進(jìn)行個人研究以外,還將積極參加相關(guān)學(xué)術(shù)會議,與同行專家進(jìn)行交流。同時充分利用現(xiàn)代通訊工具,如網(wǎng)絡(luò)等,即時了解與本項目有關(guān)的最新文獻(xiàn)、學(xué)術(shù)動態(tài),以使研究和應(yīng)用工作更有成效。在技術(shù)上,采用原型化的程序設(shè)計方法,逐步求精,最后開發(fā)出目標(biāo)平臺。在設(shè)計時,特別考慮數(shù)據(jù)存儲問題,尤其是海量數(shù)據(jù)的存儲,同時考慮基于MapReduce檢索和分析的效率,注重文件存儲的安全性和可靠性。

3實驗方案及可行性分析

本項目的研究是基于linux平臺進(jìn)行相應(yīng)的技術(shù)研究,所使用的工具基于Windows/Linux,其研究從技術(shù)上是可行的,主要從以下兩個方面進(jìn)行分析:(1)由于ubuntu具有界面好、操作簡單以及先進(jìn)的應(yīng)用軟件集成能力,而且價格適中,擁有廣泛的企業(yè)用戶群,特別適用于提供網(wǎng)絡(luò)服務(wù)。其相關(guān)技術(shù)資料也較為豐富,在研究過程中如果遇到與平臺有關(guān)的問題可以在短時間內(nèi)得以解決,保證項目的正常進(jìn)行。(2)Hadoop是Apache下的一個項目,由HDFS、MapReduce、HBase、Hive等成員組成。其中,HDFS和MapReduce是兩個最基礎(chǔ)最重要的成員。(3)本項目的創(chuàng)新之處是在技術(shù)上使用了Hadoop項目,通過Hadoop項目解決檔案文件的存儲、檢索等工作,并且能夠有效的解決海量檔案數(shù)據(jù)的計算和分析工作。整個項目組的人員大多從事過軟件的開發(fā)工作,熟悉軟件開發(fā)流程,熟悉Hadoop平臺;(4)HDFS是GoogleGFS的開源版本,它能夠提供高吞吐量的數(shù)據(jù)訪問,適合存儲海量(PB級)的大文件(通常超過64M)MapReduce是大規(guī)模數(shù)據(jù)(TB級)計算的利器,Map和Reduce是它的主要思想,來源于函數(shù)式編程語言。Map負(fù)責(zé)將數(shù)據(jù)打散,Reduce負(fù)責(zé)對數(shù)據(jù)進(jìn)行聚集,用戶只需要實現(xiàn)map和reduce兩個接口,即可完成TB級數(shù)據(jù)的計算,常見的應(yīng)用包括:日志分析和數(shù)據(jù)挖掘?;贏pache的Hadoop分布式平臺已經(jīng)開始在各大軟件公司使用,HDFS和MapReduce框架也為分布式存儲和計算帶來了新鮮氣息,提高了分布式存儲和計算在具體應(yīng)用場合的使用。當(dāng)然還存在著Hadoop開發(fā)平臺中計算機(jī)數(shù)量和存儲數(shù)量較小等問題。相信經(jīng)過開發(fā)人員的不懈努力,Hadoop項目的高校分布式檔案管理會發(fā)揮出其應(yīng)有的作用。

本文作者:蔡勁松工作單位:安徽新聞出版職業(yè)技術(shù)學(xué)院計算機(jī)中心