Web日志分析系統設計與應用
時間:2022-01-02 05:09:28
導語:Web日志分析系統設計與應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:作為網絡安全的重要領域,web日志分析系統一方面能夠改進Web網站結構,促進Web服務器性能提升;另一方面能夠幫助識別用戶的喜好及滿意程度,尋找潛在用戶群體,提升網站服務核心競爭力。筆者介紹了Web日志分析系統設計策略,探究了其實際應用發展前景,為Web日志分析系統效率的提升提供參考。
關鍵詞:Web日志分析系統;系統設計;數據預處理
信息時代背景下,網站大小、數目及復雜度等呈現出持續增長趨勢,傳統運維管理中,日志管理存在不規范、易刪除、不方便使用等問題,企業如果沒有專業的日志管理或日志分析工具,很難滿足網絡安全法的合規要求。日志分析是IT運維領域非常重要的一項工作,甚至可以說,在平臺化、模塊化、服務化盛行的今天,這項工作的重要性已接近傳統的設備監控。不過日志由于來源、使用者、管理者都比設備指標要復雜,導致日志分析的功能需求也較大[1]。
1Web日志分析系統設計
Web日志分析系統數據挖掘主要包括數據預處理、模式挖掘及模式分析三個階段。日志分析功能實現了自動收集匯總日志和智能化解析,可以減少運維管理中日志查詢搜索的巨大工作量。全面系統化日志分析,滿足日常運維需要,從安全角度分析海量日志數據,深層次挖掘攻擊事件。日志搜索能夠通過選擇系統日志或Web日志以及日志產生的時間,搜索日志內容。統計分析包含系統日志常規分析、Web日志常規分析和威脅分析。異常行為規則設置,主要設置異常行為的判定規則,包含了安全狗累積的經驗規則。日志采集菜單主要是查看日志采集狀態,可以開啟、暫停或關閉主機或Web采集。同時,還可以手動上傳日志文件,該系統組成如圖1所示。1.1數據預處理模塊。在進行數據預處理前,首先要收集原始數據,將收集的原始Web數據導入數據庫中,建立WALS數據表,其主要針對的是原始Web訪問日志[2]。通常Web訪問日志數據主要包括id、ip、identd、url、size等多個組成部分,流程如圖2所示。1.2模式挖掘模塊。盡管在Apriori向下封閉屬性下,候選項集的大小已大大縮小,然而仍存在較大的算法時間復雜度,難以達到理想的標準[3]。與此同時,Apriori算法需要對日志數據庫進行多次掃描,當候選序列長度增加時,就需要對數據庫進行一遍掃描,能夠大大提升整個算法的執行效率。搜索文本是找到想要的信息的最基本方法,搜索文本最常用的工具是grep,這個命令行工具,大多數Linux發行版上都有,它支持用正則表達式來搜索日志。正則表達式是一種用專門語言寫成的語句,可用來識別匹配文本。最簡單的正則表達式是把搜索的字符串加上引號。1.3數據庫設計。數據庫設計主要涉及WALog表、存儲原始Web訪問日志等。首先要嚴格按照時間先后順序儲存WALog表的記錄,用戶在訪問網站時需要一定的IP地址作為載體,該載體則采用IP字段表示。用戶在采用某一IP地址進行訪問時,其所用的時間也會形成相應的記錄,該時間可以通過Date字段判斷,GET及POST的表現則能夠通過Method字段取值來反映,用戶在瀏覽過程中會將需要的資源存儲下來,資源多通過URL字段表示。所發送的字節數采用Bytes字段表示,瀏覽器及操作系統類型則采用BrowserOS表示。CWALS表則為所有數據均清理后Web所訪問的日志表[4],CWALog表中的含義與WALog相同。UILog表中主要包括UID、IP、Date等字段,其主要指的是用戶識別后的日志數據表,每一個用戶都具有一個唯一的標識UID,其他字段意義均與上述相同。用戶會話識別后的日志數據表則采用的是USILog表,其中涉及URL、USID、Date以及Refer等字段,其中每個用戶會話都具有唯一標識USID。當路徑填充后其具備的Web日志表為PSLog表,主要包括USID、Date、URL等字段,其頁面的引用長度采用Rlength標識,主要含義為用戶瀏覽每一個網頁所用的時間。CPS表包括URL及ID字段,其主要表示的是內容頁面表。
2Web日志分析系統的應用及展望
作為信息、交互及獲取的重要工具,Web信息量呈現出飛快增長的態勢,面對這一趨勢,Web日志分析系統的研究量也逐漸增加,發展前景廣闊。目前,Web日志挖掘技術還存在大量問題需要予以有效的解決,這對研究工作者提出了嚴峻的挑戰。日志管理系統可以讓用戶快速分析大量日志文件,可以自動解析標準日志格式,比如公共Linux日志或Web服務日志,這會節省很多時間,因為在定位系統問題時不用去想如何寫解析邏輯[5]。通常,用戶只想看來自同一個應用的日志,如果應用總是把日志記錄在單個文件中,這樣很容易分析,如果要從聚合或集中起來的日志里篩選出和某個程序相關的日志,會很復雜,這時可以用Rsyslog服務解析和過濾日志。例如將sshd應用程序的日志寫入名為sshd-messages的文件中,然后丟棄事件,所以它不會在其他日志里重復出現。可以嘗試把它加到Rsyslog.conf文件里。對非標準格式的日志,也可以自定義解析規則。最常用的工具是Grok,它用通用正則表達式庫把純文本解析成JSON格式。這是Grok的配置示例,用來解析Logstash的內核日志。日志分析模塊采取了定時與實時分析相結合的辦法,能夠為用戶查詢提供極大的便利,節省時間。
3結語
隨著現代計算機網絡信息技術的不斷發展,Web日志的進一步開發已做好準備工作,在今后的開發、利用中,要加強對系統的擴展,實現對日志的深度挖掘,提供Web流量分析、用戶行為模式分析及事務分析等多種功能,通過日志挖掘獲得大量可靠信息,促進信息系統優化,確保其有效運行,改進算法,增強系統在實踐應用中的有效性與時效性。
參考文獻
[1]李珊,劉繼超,邵芬紅.Web日志與瀏覽行為結合下的用戶瀏覽興趣數據挖掘分析[J].現代電子技術,2017,40(5):22-25.
[2]楊晶,趙鑫,蘆天亮.基于logs2intrusions與WebLogExplorer的綜合取證分析研究[J].信息網絡安全,2017,12(3):33-38.
[3]張春生,郭長杰,尹兆濤.基于大數據技術的IT基礎設施日志分析系統設計與實現[J].微型電腦應用,2016,32(6):49-52.
[4]馬勇,鮮敏,鄭翔,等.基于Web日志挖掘和相關性度量的電子商務推薦系統[J].計算機系統應用,2016,25(8):91-95.
[5]姬浩博,王俊紅.一種改進的PrefixSpan算法及其在Web用戶行為模式挖掘中的應用[J].計算機科學,2016,43(1):25-29.
作者:何爽 單位:云南電網有限責任公司紅河供電局
- 上一篇:淺談網絡系統設計復雜性
- 下一篇:智能變電站系統設計論文