煙草網絡安全態勢感知研究與應用

時間:2022-11-16 10:56:06

導語:煙草網絡安全態勢感知研究與應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

煙草網絡安全態勢感知研究與應用

摘要:通過安全數據分析可知,中國煙草總公司福建省公司每年遭受高達千萬次級別網絡安全攻擊事件,特殊高峰時期遭受的網絡安全攻擊事件高達百萬次。如何在高頻次網絡攻擊條件下,采用多維數據的綜合梳理及關聯分析,結合威脅情報技術以及相關算法檢測,構建自學習行為模型而形成用戶訪問行為基線發現基于偏離度的異常行為,實現快速檢索發現真正攻擊源IP、攻擊方法以及主要被攻擊目標對象。并將相關威脅和態勢進行可視化呈現,幫助中國煙草總公司福建省公司感知新型網絡攻擊行為,發現潛伏的隱患和威脅,進而提供決策支撐。并通過態勢感知,建立應急響應、安全預警機制,完善風險控制,實現整體安全防護水平的提升。

關鍵詞:關聯分析;威脅情報;算法檢測;攻擊行為;態勢感知

1態勢感知概述

態勢感知起源于20世紀80年代的美國空軍,主要用于對戰場形勢的分析及判斷,并提供相關情報信息,用于領導層面決策,從而取得戰場上的軍事勝利。在網絡安全層面上,態勢感知的研究,則主要側重于網絡攻擊形態及趨勢方面的信息研究,態勢感知的研究面臨著全局性、動態性、復雜性、有效性、準確性等諸多因素影響。態勢感知的研究主要分為三級,一級態勢感知主要進行海量信息或數據的收集研究,包括主機、網絡、安全、應用、物理、情報、威脅等各方面數據信息的采集。二級態勢主要進行數據關系及數據融合的梳理研究,數據融合技術是指利用計算機對按時序獲得的若干觀測信息,在一定準則下加以自動分析、綜合,以完成所需的決策和評估任務而進行的信息處理技術,包括數據關聯、數據合并、數據提取,數據有效性、準確性、趨勢性歸納、統計、分析。三級態勢主要進行數據預測及可視化展示,包括資產、威脅、風險、脆弱性等各方面數據可視化展示及趨勢預測分析。態勢感知的研究最終要形成具有多源數據融合與可視化、異質性、自動化、實時處理特點的風險評估、決策、預測系統。

2福建省局態勢感知實踐

中國煙草總公司福建省公司按照整體防御、分區隔離;積極防御、內外兼防;自身防御、主動免疫;縱深防御、技管并重的安全原則構建其網絡安全域,安全區域劃分為統一互聯網出口區、DMZ區、銀行前置服務、銀聯外聯區、核心區、辦公區、服務器區、廣域網區、行業業務專網區等安全區域。并分別在每個區域部署了防火墻、入侵防御、Web應用安全網關、高級持續性威脅檢測系統等安全防護和檢測設備進行安全防護,從而保障各項業務系統安全穩定運行。按照傳統運維模式,中國煙草總公司福建省公司每日對安全設備進行安全檢查,日常平均攻擊告警數量在數萬之間,特殊時期下攻擊告警時間高達數百萬次。在安全設備數量多、安全事件日志基數大的條件下,日常安全運維存在安全日志分析不完整情況,從而造成安全事件分析遺漏,對攻擊源IP、受攻擊目標系統、攻擊方式定位不完整不快速等情況。最終有可能導致相關安全事件的發生。因此急需部署一套網絡安全態勢感知系統,從物理層面、網絡層面、安全層面、業務層面、漏洞隱患、網絡攻擊、威脅情報等各方面關聯分析及綜合分析,并利用可視化技術進行風險或態勢呈現。福建省局網絡安全態勢感知的建立研究主要包括三個層面,一是底層數據的采集獲取及存儲。數據采集獲取方式主要有三種,一是來自福建省局網絡、安全、系統、業務數據等各方面日志信息,通過syslog、SNMP、采集器等方式將數據采集發送至態勢感知平臺;二是部署網絡安全流量探針進行數據流量威脅分析,主要抓取互聯網出口、DMZ區業務口、銀行外聯區出口、廣域網區和行業業務專網區、服務器區等關鍵區域的業務流量;三是與外部單位合作,購買威脅情報數據,將內網數據有外部威脅情報數據進行耦合關聯,提升內網攻擊IP定位的真實準確性以及確認互聯網威脅攻擊IP的可靠性。二是數據的分析及計算。針對采集上來的各類安全數據信息及威脅情報數據信息,采用樸素貝葉斯算法、隨機森林、聚類算法等相關算法,實現對網絡安全設備日志分析、網絡流量分析、威脅情報分析、漏洞脆弱性分析、網絡安全風險分析以及宏觀態勢分析。網絡安全風險分析包括了資產價值分析、弱點分析、威脅分析、風險評估、影響性分析等;宏觀態勢分析包括了地址熵分析、熱點分析、關鍵安全指標分析、業務健康度分析、關鍵管理指標分析。三是網絡安全態勢可視化展示。

3態勢感知關鍵技術及算法

如何將眾多安全設備數據、流量探針數據、威脅情報數據等數據進行關聯對接、真實數據提取和有效性分析,考驗的是整個網絡安全態勢感知系統的算法能力及處置能力。一個良好的算法,可以高效快速解決許多問題,本次網絡安全態勢感知主要算法包括聚類算法、異常點算法、BP神經網絡的網絡惡意行為網絡流特征分析等算法技術,同時引入異常檢測、機器學習等相關技術。通過該些技術及算法的加持優化,使得整個態勢感知平臺更具智能、更具感知,提供更為準確有效的態勢分析決策功能。3.1關聯分析福建省局存在較多的網絡安全設備,通過對設備安全日志的分析,經常在不同區域、不同安全設備上面發現同一個攻擊目標源IP或是攻擊源IP,如何有效提取真正有效攻擊信息,則需要進行對眾多安全日志的關聯分析,需要采用關聯挖掘技術和大數據技術,通過關聯分析,查找存在于項目集合或對象集合之間的頻繁模式、關聯規則、相關性或者因果結構。對提取的事件基于規則、統計、資產等屬性進行分析,通過邏輯符號and、and、not來表示屬性的邏輯關系。當符合相應的限制條件時,則激活相應的規則進行誤報排除、事件源推論、安全事件級別重新定義、閾值關聯、黑名單等動作。數據經過分析和計算后,通過前端可視化技術,采用數據同步方式,將福建省局所感興趣的內網威脅和外網攻擊等各方面數據進行可視化展示,可視化展示的內容主要包括攻擊類型分布、攻擊目標排行榜、實時攻擊數據瀏覽、資產攻擊數據統計、內網威脅分布情況、內網威脅趨勢、攻擊告警數據展示以及攻擊地圖數據展示。福建省局存在較多的網絡安全設備,通過對設備安全日志的分析,經常在不同區域、不同安全設備上面發現同一個攻擊目標源IP或是攻擊源IP,如何有效提取真正有效攻擊信息,則需要進行對眾多安全日志的關聯分析,需要采用關聯挖掘技術和大數據技術,通過關聯分析,查找存在于項目集合或對象集合之間的頻繁模式、關聯規則、相關性或者因果結構。對提取的事件基于規則、統計、資產等屬性進行分析,通過邏輯符號and、and、not來表示屬性的邏輯關系。當符合相應的限制條件時,則激活相應的規則進行誤報排除、事件源推論、安全事件級別重新定義、閾值關聯、黑名單等動作。3.2多元數據接入。福建省局網絡安全態勢感知系統基于大數據計算和存儲技術,支持DIKI(D-Data網絡流數據,設備日志、Web及應用服務器日志等數據;I-Information企業關聯信息例如漏洞掃描數據;K-Knowledge安全知識;I-ThreatIntelligence威脅情報)數據接入,并基于安全分析需要進行數據范式化、清洗與轉換、豐富化和標簽等加工處理,對部分安全設備告警數據提供語義自動理解識別能力,使數據“干凈可用”,保證數據質量。同時,支持對漏洞信息數據的導入,從而實現威脅信息與漏洞信息的關聯匹配,為整個網絡安全風險進行充分賦值及確認。3.3通過模型構建智能畫像。攻擊分析常常基于特征碼signature來識別攻擊,特征知識庫不能覆蓋的攻擊無法發現。但攻擊者越來越容易改變這些特征指標來有效地逃避檢測,現代攻擊以多階段、快速變換特征碼方式進行攻擊和隱藏自身,由于攻擊者行為模式相對而言更不易改變。因此,需要通過新一代威脅分析技術,構建多維模型,采用多種分析方法來對攻擊者的技戰術(戰術、技術、過程)來發現。追蹤攻擊者的攻擊路線,形成攻擊流程圖,提取攻擊者的相關指紋信息和畫像數據,最終形成畫像及相關信息屬性,包括使用過的IP地址、賬號、常訪問的系統、安裝軟件、漏洞信息、流量趨勢等,為后續的安全事件調查分析提供相關數據支撐。3.4基于皮爾遜相關系統的網絡流持續時間特征分析。Pearson相關系數是用協方差除以兩個變量的標準差得到的,雖然協方差能反映兩個隨機變量的相關程度(協方差大于0的時候表示兩者正相關,小于0的時候表示兩者負相關),但是協方差值的大小并不能很好地度量兩個隨機變量的關聯程度,為了更好度量兩個隨機變量的相關程度,引入了Pearson相關系數,其在協方差的基礎上除以了兩個隨機變量的標準差,容易得出,pearson是一個介于-1和1之間的值,當兩個變量的線性關系增強時,相關系數趨于1或-1;當一個變量增大,另一個變量也增大時,表明它們之間是正相關的,相關系數大于0;如果一個變量增大,另一個變量卻減小,表明它們之間是負相關的,相關系數小于0;如果相關系數等于0,表明它們之間不存在線性相關關系?!稊祿诰驅д摗方o出了一個很好的圖來說明(圖2):圖2皮爾遜相關系數圖在考慮到僵尸、木馬、蠕蟲等網絡惡意行為的網絡數據流相互之間可能存在相關性,因此將皮爾遜相關系數引入態勢感知平臺,以描述網絡流之間相互關聯度。3.5基于隨機森林的深度威脅檢測技術。隨機森林是機器學習中的一種常用方法,而隨機森林背后的思想,更是與群體智慧,甚至“看不見的手”相互映照。隨機森林顧名思義,是用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之后,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預測這個樣本為那一類。隨機森林算法具有準確率高、魯棒性好、易于使用等特點,是最流行的機器學習算法之一,相對于其他機器學習分類算法有很多的優點,表現優異。在處理特征維度較高的數據時不用做特征的選擇,能達到較高的識別精度,模型泛化能力強且在訓練時樹與樹之間是相互獨立的,能達到較快的訓練速度。隨機森林算法在處理特征維度較高的數據時不用做特征的選擇,能達到較高的識別精度,模型泛化能力強且在訓練時樹與樹之間是相互獨立的。在態勢感知平臺中利用隨機森林的機器學習算法進行分類器的訓練,最終可以得出惡意網絡行為的結果。3.6基于聚類算法的異常流量識別。聚類分析指將數據點集按照一定的規則進行劃分,使得同一個分組(稱為簇)內數據點之間的相似度較高,而不同分組(簇)數據點之間的相似度較低。聚類分析是數據挖掘中常用的統計分析手段,在機器學習領域中通常將其歸為無監督學習方法,因為它的輸入數據不需要進行標注。聚類算法是聚類分析中使用的各類算法的統稱,不同算法的聚類分析結果可能存在較大差異,主要原因是它們的聚類模型不同,一些代表性的模型思想有連接模型、圖模型、分布模型、密度模型和中心模型等。這些聚類算法有各自的優缺點及適用場景,對此不進行深入探討,而只對異常流量識別這一工作有影響的兩點簡單說明如下:(1)大部分聚類算法依賴于距離的計算,但對于高維數據,傳統概念的距離衡量變得不再精確有效;(2)很多聚類算法會將所有數據點都劃分入某一個簇中,從而無法用于異常數據點的識別。3.7基于異常點算法的異常流量識別。異常點檢測是指數據挖掘領域中識別與期望模式相違背或與其他大多數數據點相偏離的數據點,而用于檢測識別異常點的具體算法則統稱為異常點檢測算法。與聚類算法相同,異常點檢測算法也屬于無監督學習一類,作為算法輸入的數據不需要標注。根據算法的指導思想不同,異常點檢測算法可以分類為基于機器學習、基于角度、基于空間、基于密度等不同維度。3.8基于SVM的多維護特征構建方法(圖3)支持向量機(SVM,SupportVectorMachine)是根據統計學習理論和結構風險最小原則提出的一種機器學習方法。它能提高學習機的泛化能力,由有限訓練樣本得到的決策規則對獨立的測試集仍能得到較小的誤差,是一種具備較高分類性能和容噪能力的機器學習方法。3.9基于BP神經網絡的網絡惡意行為網絡流特征分析BP神經網絡的基本原理是采用梯度下降法調整權值和閾值使得網絡的實際輸出值和期望輸出值的均方誤差值最小。標準的BP算法在修正權值時沒有考慮以前時刻的梯度方向,從而使學習過程常常發生振蕩,收斂緩慢。在態勢感知平臺采用一種改進的BP學習算法,通過引入動量項來減小學習過程的振蕩趨勢,改善收斂性。

4結論及成效

網絡安全態勢感知的研究,包含多個方面的態勢感知研究分析,包括資產運行態勢、風險威脅態勢、漏洞攻擊態勢、情報威脅態勢等眾多態勢研究及分析,單位網絡安全態勢感知的建設,屬于一個持續性的安全建設過程,同時,隨著大數據、人工智能、云計算、機器學習等方面新技術的發展。網絡安全態勢感知平臺的建設愈發完善及強大??梢詾楹罄m領導網絡安全建設工作決策提供輔助意見。同時也更好的響應和支撐單位應急響應工作,精準抓出有效攻擊源頭和路徑,有效提升事件查看、分析及解決的效率。

參考文獻:

[1]董超,劉雷.大數據網絡安全態勢感知中數據融合技術研究[J].網絡安全技術與應用,2019(7):60-62.

[2]石樂義,劉佳,劉祎豪,等.網絡安全態勢感知研究綜述[J].計算機工程與應用,2019,55(24):1-9.

[3]王傳棟,葉青,姚櫓,等.基于大數據的網絡惡意行為及特征關聯分析[J].太原理工大學學報,2018,49(2):264-273.

[4]李丹丹.網絡安全態勢感知引擎的設計與實現[D].西安:西安電子科技大學,2018.

[5]朱博文.基于大數據的網絡安全態勢感知模型研究[D].泉州:華僑大學,2018.

作者:王強 單位:中國煙草總公司福建省公司信息中心