電子政務(wù)郵件取證分析技術(shù)研究

時(shí)間:2022-12-07 09:46:16

導(dǎo)語:電子政務(wù)郵件取證分析技術(shù)研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

電子政務(wù)郵件取證分析技術(shù)研究

【摘要】電子郵件系統(tǒng)已經(jīng)成為我國電子政務(wù)中信息交換的重要載體,如何準(zhǔn)確、快速地對電子政務(wù)郵件系統(tǒng)中敏感郵件的擴(kuò)散進(jìn)行追蹤溯源,已經(jīng)成為當(dāng)前核查工作的重點(diǎn)。本文針對電子政務(wù)系統(tǒng)郵件取證中用戶關(guān)系挖掘困難的問題,基于Louvain算法對電子政務(wù)郵件網(wǎng)絡(luò)中潛在的社區(qū)進(jìn)行發(fā)現(xiàn)并與郵件數(shù)據(jù)分析相結(jié)合,挖掘出郵件網(wǎng)絡(luò)內(nèi)部的人物關(guān)系網(wǎng)絡(luò)并對郵件網(wǎng)絡(luò)進(jìn)行可視化分析,可支撐電子政務(wù)郵件取證工作的開展。

【關(guān)鍵詞】郵件取證;關(guān)系挖掘;可視化分析;擴(kuò)散追蹤

1引言

隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的高速發(fā)展,電子郵件在多個(gè)行業(yè)特別是電子政務(wù)系統(tǒng)中得到廣泛使用。電子郵件在便利人們生活的同時(shí),也被犯罪分子所利用,使用電子郵件進(jìn)行垃圾郵件傳播等活動(dòng),這些行為可能使受害者遭受嚴(yán)重?fù)p失。為了打擊電子政務(wù)系統(tǒng)中的郵件犯罪行為,必須依靠電子郵件取證技術(shù)[1]。傳統(tǒng)的電子郵件取證過程一般包括原始數(shù)據(jù)的獲取、郵件相關(guān)數(shù)據(jù)提取、郵件恢復(fù)、文件轉(zhuǎn)換和信息提取、查詢和關(guān)鍵字查找、得出相關(guān)結(jié)論等6個(gè)步驟,取證人員通過關(guān)鍵字查找的方式挖掘郵件之間可能存在的聯(lián)系,從人物、事件、時(shí)間3個(gè)維度對郵件數(shù)據(jù)進(jìn)行分析,最終得出案件相關(guān)人員之間的人物關(guān)系網(wǎng)絡(luò)、事件關(guān)系網(wǎng)絡(luò)等。在小數(shù)據(jù)集的情況下,這種傳統(tǒng)的關(guān)鍵字查找方式較為適用,但是當(dāng)需要取證的郵件數(shù)據(jù)龐大、相關(guān)人員關(guān)系復(fù)雜時(shí),一次關(guān)鍵字查找將會(huì)獲得大量冗余結(jié)果,獲取人員之間的人物關(guān)系網(wǎng)絡(luò)將會(huì)變得極為困難,不僅消耗大量的資源,分析結(jié)果也往往不盡如人意。在這種現(xiàn)狀下,本文對郵件取證中的人物關(guān)系網(wǎng)絡(luò)挖掘進(jìn)行了研究和改進(jìn)。本文使用Louvain算法對郵件網(wǎng)絡(luò)中的潛在社區(qū)進(jìn)行發(fā)現(xiàn),結(jié)合對特定郵件傳播軌跡的可視化,分析比較特定郵件在郵件用戶社區(qū)中的傳播情況和擴(kuò)散范圍,通過對擴(kuò)散范圍和社區(qū)邊界的比對來發(fā)現(xiàn)郵件系統(tǒng)存在的其他有害郵件,挖掘出郵件網(wǎng)絡(luò)內(nèi)部的人物關(guān)系網(wǎng)絡(luò)。從計(jì)算學(xué)的觀點(diǎn)來看,社交關(guān)系挖掘的研究主要包括3個(gè)方面[2]:關(guān)系鏈接預(yù)測,即預(yù)測和推薦未知的鏈接,如Liben-Nowell和Kleinberg[3]系統(tǒng)地研究了推斷用戶之間新鏈接的問題;關(guān)系類型預(yù)測,即自動(dòng)地識別與每一個(gè)社交關(guān)系相關(guān)聯(lián)的語義,如Leskovec[4]等人使用Logistic回歸模型預(yù)測在線社交網(wǎng)絡(luò)中的正/負(fù)關(guān)系,Diehl[5]等人通過學(xué)習(xí)排序函數(shù)識別“經(jīng)理—下屬”關(guān)系等;關(guān)系交互預(yù)測,即研究單向的社交關(guān)系怎樣發(fā)展成雙向的社交關(guān)系及其產(chǎn)生的原因,如Lou[6]等人研究了社交關(guān)系如何發(fā)展成三元閉包等。從這類角度來看,本文對人物關(guān)系網(wǎng)絡(luò)的研究屬于關(guān)系挖掘研究中的關(guān)系鏈接預(yù)測,即預(yù)測和推薦未知的鏈接(發(fā)現(xiàn)郵件系統(tǒng)存在的其他有害郵件);相比于傳統(tǒng)的關(guān)鍵字查找方式,這種方法結(jié)合了郵件社區(qū)劃分和郵件擴(kuò)散可視化,大大減少了取證人員的工作量,更加直觀地展示了郵件用戶之間的關(guān)系,更準(zhǔn)確地挖掘出人物關(guān)系網(wǎng)絡(luò),從而提高了電子郵件取證工作的質(zhì)量和效率。實(shí)驗(yàn)證明,本文提出的方法在追蹤特定郵件附件擴(kuò)散范圍的場景下應(yīng)用效果良好。

2郵件取證

電子郵件取證的原始數(shù)據(jù)一般來自多個(gè)數(shù)據(jù)源,包括發(fā)件人或收件人使用的終端、郵件傳遞服務(wù)器上的存儲(chǔ)介質(zhì)等,如果是Web端郵件則需要檢查用戶瀏覽器的相關(guān)信息,如緩存、日志等。這些數(shù)據(jù)較為原始,提取需要較強(qiáng)的專業(yè)知識且一般不能直接理解,同時(shí)這些數(shù)據(jù)一般包含著大量的無關(guān)信息,需要進(jìn)一步篩選;獲取原始數(shù)據(jù)后,需要使用一定的技術(shù)手段來獲取與郵件證據(jù)相關(guān)的數(shù)據(jù),這一步直接決定了之后要處理數(shù)據(jù)的規(guī)模和質(zhì)量,因而是整個(gè)電子郵件取證過程中較為關(guān)鍵的一步;通過上一步的篩選,得到所有與郵件相關(guān)的數(shù)據(jù),但是這些數(shù)據(jù)仍然處于取證人員很難理解的形式,需要進(jìn)行數(shù)據(jù)恢復(fù)和格式重組來得到可讀性更高的原始郵件內(nèi)容;根據(jù)重組后的郵件格式進(jìn)行文件轉(zhuǎn)換及信息提取后,可以將郵件內(nèi)容轉(zhuǎn)化為可以直接閱讀的文本、圖片等形式;到了這一步,郵件數(shù)據(jù)已經(jīng)完全可讀,此時(shí)根據(jù)傳統(tǒng)的辦法對所有郵件數(shù)據(jù)進(jìn)行關(guān)鍵字查找等處理,進(jìn)而得出人物關(guān)系網(wǎng)絡(luò)、事件關(guān)系網(wǎng)絡(luò)等,以及得出有效的電子證據(jù);分析完成后,根據(jù)確定的關(guān)系網(wǎng)絡(luò)、電子證據(jù)等對案件的過程進(jìn)行還原,從時(shí)間、事件、人物3個(gè)維度對原始場景進(jìn)行構(gòu)建并得出最終結(jié)論。在查詢和關(guān)鍵字查找步驟中,已經(jīng)獲得了所有與案件相關(guān)且直接可讀的郵件數(shù)據(jù),此時(shí)傳統(tǒng)的方法會(huì)對所有郵件數(shù)據(jù)進(jìn)行關(guān)鍵字查找等分析處理,進(jìn)而挖掘出人物關(guān)系網(wǎng)絡(luò)、事件關(guān)系網(wǎng)絡(luò)等結(jié)構(gòu)性信息,這種方法在面對數(shù)據(jù)總量龐大、涉及人員眾多、人員關(guān)系錯(cuò)綜復(fù)雜的情況時(shí)效果將會(huì)顯著下降。這正是本文主要研究和解決的問題。

3基于Louvain算法的郵件網(wǎng)絡(luò)人物關(guān)系

網(wǎng)絡(luò)挖掘方法現(xiàn)實(shí)網(wǎng)絡(luò)中存在著大量的社區(qū)結(jié)構(gòu),這些結(jié)構(gòu)表現(xiàn)為社區(qū)內(nèi)部節(jié)點(diǎn)聯(lián)系緊密,而外部節(jié)點(diǎn)聯(lián)系稀疏。Louvain算法是Vincent等提出的一種進(jìn)行快速社區(qū)發(fā)現(xiàn)的算法,該算法在面對大型網(wǎng)絡(luò)時(shí)能夠取得較好的效果,如圖1所示。在郵件取證中有一種重要場景追蹤特定郵件附件的擴(kuò)散范圍,即通過對所有相關(guān)郵件數(shù)據(jù)的分析來確定一個(gè)或多個(gè)特定郵件附件在郵件網(wǎng)絡(luò)中的傳播情況,包括原始郵件的發(fā)送者、郵件的所有接收者、郵件的轉(zhuǎn)發(fā)情況、是否有其他的來源等。在這種場景下,僅考慮查詢郵件附件hash是不夠的,因?yàn)樽鳛榉治鲆罁?jù)的郵件數(shù)據(jù)可能存在缺失,因此,需要結(jié)合郵件用戶的社區(qū)劃分情況對可能存在的附件傳遞進(jìn)行推測。已知的附件傳播鏈與郵件用戶的社區(qū)劃分存在以下兩種可能的關(guān)系,如圖2所示。圖2(a)中,已知的附件傳播鏈所有部分屬于同一個(gè)社區(qū),此時(shí)可以認(rèn)為指定的郵件附件僅在此社區(qū)內(nèi)傳播,該社區(qū)即為郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò);圖2(b)中,已知的附件傳播鏈各部分分屬兩個(gè)或多個(gè)社區(qū),即指定的郵件附件從初始社區(qū)傳播到多個(gè)社區(qū)當(dāng)中,每個(gè)社區(qū)都有全部或者部分用戶參與了附件傳播的過程,此時(shí)認(rèn)為附件傳播鏈跨過的所有社區(qū)共同組成郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)。為了更好地對比附件的轉(zhuǎn)發(fā)鏈與郵件用戶社區(qū)分布的關(guān)系,筆者對原始郵件數(shù)據(jù)進(jìn)行了可視化,整個(gè)過程的數(shù)據(jù)處理流程如圖3所示。最終將郵件數(shù)據(jù)的顯示形式由原始的{發(fā)件人;收件人;時(shí)間;附件hash}轉(zhuǎn)換為更直觀的網(wǎng)絡(luò)拓?fù)湫问剑诳梢暬缑嬷锌梢郧逦赜^察附件擴(kuò)散范圍和郵件用戶社區(qū)分布,進(jìn)而發(fā)現(xiàn)郵件系統(tǒng)存在的其他有害郵件,挖掘出郵件網(wǎng)絡(luò)內(nèi)部的人物關(guān)系網(wǎng)絡(luò)。

4實(shí)驗(yàn)與結(jié)果分析

4.1實(shí)驗(yàn)數(shù)據(jù)實(shí)驗(yàn)使用的數(shù)據(jù)分為2個(gè)部分。(1)美國全國委員會(huì)(DNC)郵件。2016年7月22日,維基解密網(wǎng)站公布了美國全國委員會(huì)內(nèi)部的一批絕密郵件,這些郵件真實(shí)記錄了希拉里在郵件門事件爆發(fā)之前與高層的通信情況,共包含19252封郵件,時(shí)間跨度從2015年5月14日直到2016年5月25日。(2)鑒于全國委員會(huì)郵件數(shù)據(jù)未包含郵件附件信息,自行構(gòu)建了一組包含15個(gè)用戶23封郵件的測試郵件數(shù)據(jù)。4.2實(shí)驗(yàn)環(huán)境使用本文提出的方法對部分DNC郵件數(shù)據(jù)進(jìn)行了展示,如圖4所示。然后在追蹤特定郵件附件擴(kuò)散范圍的場景下對基于Louvain算法的郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)挖掘方法進(jìn)行了實(shí)驗(yàn),從郵件附件hash、時(shí)間和郵件用戶3個(gè)維度對郵件數(shù)據(jù)進(jìn)行了可視化處理。實(shí)驗(yàn)場景如下:郵件用戶U0~U14在2018年3月9日到2018年3月20日時(shí)間段內(nèi)的郵件數(shù)據(jù)被作為取證分析目標(biāo),現(xiàn)對hash為588f7fba9060d7c9c436032a6417b43c的文件進(jìn)行追蹤,希望獲取原始郵件的發(fā)送者、郵件的所有接收者、是否有其他的來源等信息。使用基于Louvain算法的郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)挖掘方法對郵件數(shù)據(jù)進(jìn)行處理后,得到結(jié)果如圖5所示。4.3結(jié)果分析從圖4可以看出,選取的部分DNC郵件數(shù)據(jù)被分為8個(gè)社區(qū),其中處于整個(gè)區(qū)域最中心位置的用戶是BonoskyGarret。由于數(shù)據(jù)沒有包含附件信息,所以未能顯示出指定附件的擴(kuò)散軌跡。從圖5可以看出,所有的郵件用戶被分為紫色和綠色代表的2個(gè)社區(qū),攜帶指定附件的郵件最初由用戶U0在2018年3月11日發(fā)送給處于同一社區(qū)的用戶U4,U4于2018年3月15日將郵件跨社區(qū)發(fā)送給用戶U10,U10于2018年3月19日將郵件進(jìn)行了一次群發(fā),同時(shí)發(fā)送給了同一社區(qū)的用戶U11~14。從上述結(jié)果可以分析得出:原始郵件的發(fā)送者為U0,郵件的所有接收者為U4,U10,U11,U12,U13,U14,且根據(jù)目前已知的數(shù)據(jù),沒有其他附件來源。可能的郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)由紫色代表的社區(qū)以及綠色代表的社區(qū)共同組成,下一步取證應(yīng)該對郵件的原始發(fā)件人U0、完成附件信息跨社區(qū)傳播的用戶U4和U10進(jìn)行重點(diǎn)調(diào)查。本方法使用郵件數(shù)據(jù)可視化的方式直觀地展示了郵件用戶之間的關(guān)系,更準(zhǔn)確地挖掘出人物關(guān)系網(wǎng)絡(luò),縮小了取證調(diào)查的范圍,提高了電子郵件取證工作的質(zhì)量和效率。

5結(jié)語

本文針對電子政務(wù)系統(tǒng)郵件取證中郵件用戶關(guān)系挖掘困難的問題,結(jié)合郵件用戶社區(qū)劃分與郵件數(shù)據(jù)分析,提出一種電子政務(wù)系統(tǒng)郵件網(wǎng)絡(luò)人物關(guān)系網(wǎng)絡(luò)挖掘方法。實(shí)驗(yàn)證明,該方法在追蹤特定郵件附件擴(kuò)散范圍的場景下應(yīng)用效果良好,具有較好的應(yīng)用價(jià)值。下一步工作將研究減小社區(qū)發(fā)現(xiàn)效果對網(wǎng)絡(luò)挖掘結(jié)果的影響。

參考文獻(xiàn):

[1]危蓉.鎖屏Android智能手機(jī)取證方法的研究[J].中國司法鑒定,2015(01):67~70.

[2]王即墨.Android智能手機(jī)鎖屏密碼及破解方法研究[J].刑事技術(shù),2015,40(02):142~145.

[3]石穗東.運(yùn)用第三方recovery破解安卓手機(jī)屏幕鎖[J].刑事技術(shù),2015,40(02):327~329.

[4]張笑魯.Android移動(dòng)設(shè)備的數(shù)字取證關(guān)鍵問題研究[D].吉林大學(xué):吉林大學(xué),2016:21.

[5]SonN,LeeY,KimD,etal.AstudyofuserdataintegrityduringacquisitionofAndroiddevices[J].DigitalInvestigation,2013,10(08):S3~S11.

[6]KimK,HongD,RyouJC,etal.ForensicDataAcquisitionfromCellPhonesusingJTAGInterface[C].SecurityandManagement.2008:410~414.

作者:楊群領(lǐng) 喻民 姜建國 劉超 單位:1.中國科學(xué)院信息工程研究所 2.中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院