訪問趨勢熱點(diǎn)副本創(chuàng)建思考

時(shí)間:2022-10-25 07:45:00

導(dǎo)語:訪問趨勢熱點(diǎn)副本創(chuàng)建思考一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

訪問趨勢熱點(diǎn)副本創(chuàng)建思考

摘要:在分析動態(tài)副本創(chuàng)建策略的基礎(chǔ)上,對集中式的動態(tài)創(chuàng)建策略進(jìn)行改進(jìn),將熱點(diǎn)數(shù)據(jù)副本創(chuàng)建與數(shù)據(jù)訪問的歷史記錄相結(jié)合。最后通過數(shù)據(jù)網(wǎng)格模擬器進(jìn)行模擬實(shí)驗(yàn),得出并分析了實(shí)驗(yàn)結(jié)果。

關(guān)鍵詞:數(shù)據(jù)網(wǎng)格;副本優(yōu)化;熱點(diǎn)副本

在現(xiàn)代科學(xué)研究和應(yīng)用領(lǐng)域中,大量的數(shù)據(jù)是重要的資源,如高能物理和粒子物理、生物醫(yī)學(xué)研究、航空航天、數(shù)字地球、大型武器模擬、大型數(shù)據(jù)庫和數(shù)據(jù)倉庫等的應(yīng)用。其數(shù)據(jù)量將達(dá)到TB至PB的級別。同時(shí),地理上廣泛分布的科研工作者和用戶都希望能訪問和分析這些龐大的數(shù)據(jù),而現(xiàn)有的數(shù)據(jù)管理體系結(jié)構(gòu)、方法和技術(shù)已經(jīng)不能滿足人們對高性能、大容量分布存儲和分布處理的要求。因此,數(shù)據(jù)網(wǎng)格應(yīng)運(yùn)而生,以解決上述應(yīng)用面臨的問題。

數(shù)據(jù)網(wǎng)格計(jì)算[1]為各種應(yīng)用提供了一個(gè)高性能、大容量、高速傳輸?shù)牟⑿蟹植紡V域計(jì)算平臺。它是對廣域范圍內(nèi)大規(guī)模的數(shù)據(jù)集進(jìn)行分布式管理和分析及使用的一個(gè)綜合的體系結(jié)構(gòu),實(shí)現(xiàn)網(wǎng)格環(huán)境中安全、可靠和有效的數(shù)據(jù)傳輸以及訪問、復(fù)制等操作,并提供到不同存儲系統(tǒng)的統(tǒng)一接口,較好地解決了上述問題,從而使得數(shù)據(jù)密集型的高性能計(jì)算和大量的共享數(shù)據(jù)密集型的事務(wù)處理及科學(xué)研究成為可能。

在數(shù)據(jù)網(wǎng)格環(huán)境下,通過數(shù)據(jù)的復(fù)制使數(shù)據(jù)更接近用戶,可以更快執(zhí)行用戶提交的作業(yè),在更短的時(shí)間內(nèi)訪問作業(yè)所需的數(shù)據(jù)文件,以快速提高數(shù)據(jù)訪問性能。作業(yè)通過資源(RB)提交給網(wǎng)格。RB將作業(yè)調(diào)度到不同的計(jì)算單元(CE),以提高網(wǎng)格的吞吐量。副本管理器在每個(gè)站點(diǎn)管理站點(diǎn)與站點(diǎn)、存儲單元與計(jì)算單元接口間的數(shù)據(jù)流。副本優(yōu)化器負(fù)責(zé)副本的選擇、動態(tài)生成和刪除。在副本優(yōu)化服務(wù)執(zhí)行過程中,網(wǎng)絡(luò)性能和磁盤I/O也是影響作業(yè)調(diào)度和副本選擇的重要因素。優(yōu)化算法應(yīng)通過檢查計(jì)算單元和各個(gè)存儲單元之間的可用帶寬和存儲單元的磁盤I/O來從不同的存儲節(jié)點(diǎn)獲得最優(yōu)的副本。Vazhkudai等人[2,3]表明在網(wǎng)格環(huán)境下,磁盤吞吐時(shí)間能占用30%的傳輸時(shí)間。因此在計(jì)算數(shù)據(jù)傳輸時(shí)間時(shí),應(yīng)考慮網(wǎng)絡(luò)帶寬和磁盤吞吐率。這樣的優(yōu)化策略可以更加接近真實(shí)的數(shù)據(jù)網(wǎng)格系統(tǒng)。

本文在有限的網(wǎng)絡(luò)帶寬和磁盤吞吐能力的情況下,根據(jù)不斷變化的外部訪問特征和副本訪問歷史記錄來對副本進(jìn)行優(yōu)化,從而使得用戶可以就近訪問。整個(gè)數(shù)據(jù)網(wǎng)格系統(tǒng)達(dá)到一個(gè)負(fù)載均衡的狀態(tài)。

1相關(guān)工作

在用戶提交作業(yè)到作業(yè)完成這個(gè)過程中,副本管理器對作業(yè)的生命周期進(jìn)行三處優(yōu)化[4]:

a)資源(RB)決定作業(yè)在哪個(gè)計(jì)算單元上運(yùn)行,即調(diào)度的優(yōu)化。通過計(jì)算一個(gè)代價(jià)函數(shù)來實(shí)現(xiàn):

Cost=getAccessCost()+estimatedQueuingTime()。作業(yè)總的執(zhí)行是作業(yè)訪問文件時(shí)間和作業(yè)排隊(duì)時(shí)間之和[5]。其中作業(yè)訪問數(shù)據(jù)文件時(shí)間包括數(shù)據(jù)文件讀取時(shí)間、網(wǎng)絡(luò)帶寬延遲時(shí)間和磁盤I/O時(shí)間。本文中的作業(yè)調(diào)度流程如圖1所示。

b)作業(yè)運(yùn)行中的動態(tài)副本選擇。一旦作業(yè)在計(jì)算單元(CE)上運(yùn)行,它需要訪問不同的數(shù)據(jù)文件。由于一個(gè)數(shù)據(jù)文件在各個(gè)網(wǎng)格站點(diǎn)上可能存在多個(gè)副本,當(dāng)一個(gè)作業(yè)需要訪問某個(gè)數(shù)據(jù)文件時(shí),副本優(yōu)化器(RO)通過調(diào)用函數(shù)getBestFile()來找到最優(yōu)的文件副本。

c)動態(tài)副本優(yōu)化,即觸發(fā)在第三方站點(diǎn)上復(fù)制數(shù)據(jù)文件。每個(gè)站點(diǎn)對所請求的數(shù)據(jù)文件進(jìn)行監(jiān)控和記錄。當(dāng)特定的數(shù)據(jù)文件成為熱點(diǎn)數(shù)據(jù)時(shí),則可以考慮將該文件復(fù)制到最有可能被訪問到的第三方站點(diǎn)。本文通過數(shù)據(jù)文件的前N次訪問歷史記錄來判斷該數(shù)據(jù)文件是否可成為熱點(diǎn)副本,并通過一定的算法對其進(jìn)行復(fù)制。

本文在使用OptorSim模擬器的基礎(chǔ)上對副本管理器的三處優(yōu)化進(jìn)行改進(jìn)。OptorSim通過模擬(歐洲)數(shù)據(jù)網(wǎng)格中各個(gè)獨(dú)立部件之間的交互作用,從而達(dá)到評估不同的數(shù)據(jù)管理策略——副本優(yōu)化算法性能的目的。它以EDG的結(jié)構(gòu)為基礎(chǔ),包括了所有必需的部件,但是重點(diǎn)是在數(shù)據(jù)管理的副本機(jī)制上。使用OptorSim模擬器可以用數(shù)據(jù)復(fù)制與作業(yè)調(diào)度算法相結(jié)合的手段來對不同的算法作出評估,從而最大限度地利用網(wǎng)格資源。

2算法優(yōu)化

復(fù)制機(jī)制決定動態(tài)產(chǎn)生副本的時(shí)間以及副本放置的位置。主要有兩種方法,即集中的和分布的動態(tài)復(fù)制方法。本文根據(jù)目前數(shù)據(jù)網(wǎng)格拓?fù)浣Y(jié)構(gòu)的特點(diǎn),在集中式動態(tài)復(fù)制算法[6]的基礎(chǔ)上,提出了一種基于訪問歷史記錄的熱點(diǎn)副本產(chǎn)生算法。通過自動產(chǎn)生熱點(diǎn)數(shù)據(jù)的副本,并把副本移動到其他站點(diǎn)上,以求提高數(shù)據(jù)網(wǎng)格總體的性能。

4結(jié)束語

本文在集中式動態(tài)副本創(chuàng)建算法的基礎(chǔ)上,將熱點(diǎn)副本的創(chuàng)建與作業(yè)訪問數(shù)據(jù)文件的歷史記錄相結(jié)合,使副本創(chuàng)建更具預(yù)見性,并且準(zhǔn)確性也有了一定的提高。在此基礎(chǔ)上,通過OptorSim模擬器,將此算法從兩種不同的角度與其他兩種算法相比較,并得出了實(shí)驗(yàn)數(shù)據(jù)。但是對于每次復(fù)制操作,不僅網(wǎng)絡(luò)帶寬資源被消耗,而且由于磁盤I/O和CPU利用會使副本服務(wù)器負(fù)載加重。復(fù)制頻度必須受到控制,以避免網(wǎng)絡(luò)和服務(wù)器負(fù)載過重[10]。本文下一步的工作將對歷史訪問記錄中的N取值進(jìn)行進(jìn)一步的研究,并討論在不同的取值時(shí),算法的優(yōu)劣,使其做到使整個(gè)數(shù)據(jù)網(wǎng)格系統(tǒng)能夠負(fù)載均衡,用戶可以就近訪問所需要的數(shù)據(jù)文件,為用戶提供一種快速、優(yōu)質(zhì)的服務(wù)。

參考文獻(xiàn):

[1]FOSTERI,KESSELMANC,TUECKES.Theanatomyofthegrid:enablingscalablevirtualorganizations[J].IJSA,2001:15(3):20-23.

[2]VAZHKUDAIS,SCHOPFJ.Usingdiskthroughputdatainperditionsofendtoendgridtransfers[C]//Procofthe3rdInternationalWorkshoponGridComputing.Baltimore:[s.n.],2002:2-4.

[3]VAZHKUDAIS,SCHOPFJ.Usingregressiontechniquestopredictlargedatatransfers[J].TheInternationalJournalofHighPerformanceComputingApplications,SpecialIssueonGridComputing:InfrastructureandApplication,2003,17(3):249-268.

[4]BELLWH,CAMERONDG,RUBENCS,etal.Evaluationofaneconomybasedfilereplicationstrategyforadatagrid[C]//Procofthe1stInternationalSymposiumonClusterComputingandtheGrid.WashingtonDC:IEEEComputerSociety,2003:661.

[5]BELLWH,CAMERONDG,CAPOZZAL,etal.SimulationofdynamicgridreplicationstrategiesinOptorSim[C]//Procofthe3rdInternationalWorkshoponGridComputing.London:SpringerVerlag,2002:46-57.

[6]TANGMing,LEEBS,TANGXueyan,etal.Theimpactofdatareplicationonjobschedulingperformanceinthedatagrid[J].FutureGenerationComputerSystems,2006,22(3):254-268.

[7]HUAKA,CAIYing,SHEUS.Patching:amulticasttechniquefortruevideoondemandservices[C]//ProcofACMSIGMM’98.NewYork:ACM,1998:41-50.

[8]ZIPFGK.Humanbehavourandtheprincipleofleasteffort[M].Cambridge,MA:AddisonWesley,1994:15-23.

[9]CAMERONDG,CARVAJALSCHIAFFINOR,MILLARAP,etal.EvaluatingschedulingandreplicaoptimizationstrategiesinOptorSim[C]//Procofthe4thInternationalWorkshoponGridComputing.WashingtonDC:IEEEComputerSociety,2003:52.

[10]TANGMing,LEEBS,YEOCK,etal.Dynamicreplicationalgorithmsforthemultitierdatagrid[J].FutureGenerationComputerSystems,2005,21(4):775-790.