甲型流感病毒數據挖掘研究

時間:2022-09-18 10:24:47

導語:甲型流感病毒數據挖掘研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

甲型流感病毒數據挖掘研究

1前言

流感是世界范圍內受關注度比較高的傳染性疾病之一,每年導致300萬到500萬例嚴重疾病并有25萬到50萬例導致死亡。甲型流感病毒起源于野生水禽[1],由于物種屏障的限制,它們通常在禽鳥種群內生存和進化,無法感染其它種類的宿主。然而,經過進化中的位點突變以及基因重組的作用導致病毒發生了抗原漂移或抗原轉移,使得部分病毒獲得了跨越物種屏障并感染人類的能力[2]。利用數據挖掘技術研究甲型流感病毒的宿主偏好性可實現對新發流感病毒的宿主偏好作出預測,從而對人類公共健康發出預警提高防控效率。數據挖掘的各項技術已經在眾多的領域取得了成功的應用[3,4]。本文將利用決策樹展開對甲型流感病毒蛋白宿主偏好預測模型的研究,并通過關聯規則技術挖掘影響宿主偏好性的關鍵位點及位點上的氨基酸。

2基于決策樹的甲流病毒宿主偏好預測模型

2.1數據準備。針對禽類和人類這兩個生物種群,收集病毒的10種蛋白氨基酸序列,由10種蛋白聯合構成的序列代表該病毒毒株。實驗數據來源于NCBI流感病毒數據庫。在NCBI數據庫中獲取了198,611條禽類流感病毒蛋白質序列和282,307條人類流感病毒蛋白質序列。執行數據清洗,對于原始數據,除去有缺失值的序列。對于毒株序列,若某蛋白有缺失,則實驗不考慮該條毒株序列。H5N1和H7N9是已經確定可發生宿主跳躍感染人類的兩種病毒亞型,具有較高的代表性及研究價值,篩選出這兩類亞型的蛋白數據作為小數據集,其余數據作為大數據集。將數據集中各蛋白及毒株序列做多序列比對,保證序列長度和位點的統一。比對完成后,將氨基酸信息轉化為數值從而將病毒蛋白序列轉化為向量并采用Min-Max方法對數據進行變換實現標準化。2.2建立決策樹預測模型。將標準化后的數據導入決策樹模型,來自于人類宿主的蛋白劃分為正樣本,來自于禽類宿主的蛋白劃分為負樣本。建立決策樹常用算法為ID3、C4.5、CART算法,三種算法的區別是度量標準不一樣,分別是信息增益、信息增益比率和Gini指數。本文采用CART算法建立決策樹。CART算法如下:1)計算訓練集樣本D的Gini指數,之后利用樣本中每一個特征Att及Att的每一個可能取值att,根據Att與att的大小關系將樣本分為兩類,并計算Gini(D,Att)值;2)找出使得Gini指數Gini(D,Att)最小的最優劃分特征及取值,并判斷是否停止劃分,否則,輸出最優劃分點;3)遞歸調用1)、2);4)生成CART決策樹。在這些樹模型中,由蛋白質序列的關鍵位點擔任決策節點對蛋白或病毒序列劃分。預測模型的所有訓練均使用10倍交叉驗證。在10倍驗證交叉中,整個數據集被分為9個訓練子集和1個測試子集。訓練過程將使用9個子集訓練,同時保留最后1個子集進行測試,迭代10輪。最后數據集中的每個樣本都將被測試一次,以防止過度擬合問題。2.3決策樹分類模型結果分析。利用CART算法及10倍交叉驗證后將得到10個準確率,即測試子集在模型上被分類正確的數量百分比,取其均值作為模型的準確率。結果表明毒株的宿主偏好性決策樹預測模型在H5N1和H7N9亞型構成的小數據集上準確率達到95.17%,而在其它亞型構成的大數據集上準確率達到99.83%。而10個蛋白的平均準確率在小數據集上為90.94%,大數據集上為98.86%。所有10種蛋白和毒株的決策樹預測模型都表現出了高預測性能。這10種流感病毒蛋白分類模型的高準確率表明同種宿主的蛋白序列具有某些共性。分析大小數據集上的各蛋白及毒株準確率,發現10種蛋白及毒株在大數據集上的分類模型準確率要高于小數據集上的分類模型準確率,表明在大數據集上的分類效果要優于小數據集。這是由于實驗定義的小數據集僅包含H5N1和H7N9兩種亞型病毒。這兩類亞型病毒原來只是在禽類中傳播,發生突變后獲得了感染人類的能力。結果表明了這兩類亞型病毒相較于其余亞型病毒區分度較小,與這兩類亞型病毒感染人類的高風險相一致。

3關聯規則挖掘

關聯規則分析用于發現項目間相互關聯的規則。例如,規則可以挖掘經常與其他產品同時購買的特定產品。判定規則的條件是看支持度與置信度,規則的支持度是包含該規則的事務數量占比,而置信度是規則前后件同時出現的數量與規則前件出現的數量比值。置信度和支持度超過規定閾值的規則稱為強關聯規則。實驗中每個蛋白質序列代表一個交易T,并且其中各位點氨基酸例如A,S,T,K,M,V屬于項目集I。所有的序列構成一個D集。Y集包括2個分類標簽:禽類宿主,人類宿主。關聯規則是形式XY的概念,其中XI。如果既包含X也包含Y的規則在D中出現,那么該規則在D中有支持度,并且這個支持度是該規則出現的次數在D集中的比例。而置信度則是該規則在D中出現的次數與該規則前件X出現次數的比值。針對小數據集上的數據做關聯規則挖掘,尋找在突變導致宿主偏好改變過程中發揮作用的具體氨基酸位點。結果挖掘了一些影響宿主偏好性的氨基酸位點,例如規則(HA_617=S人類)的支持度為1.337%,表明有1.337%的人類毒株在HA蛋白的617號位置是絲氨酸,置信度為100%則表明了所有617號位點是絲氨酸的序列其宿主都為人類。另有一條規則(PB2_471=M&PB2_487=V禽類)的支持度為8.546%,置信度為100%,表明有近十分之一的禽類病毒PB2蛋白在471號位點是甲硫氨酸以及487號位點是纈氨酸,并且具有這樣的位點特征的病毒在人類PB2蛋白中沒有出現過。

4結語

本文利用數據挖掘計算技術針對甲型流感病毒的10種蛋白以及其聯合構成的毒株序列構建了決策樹分類預測模型,結果表明除了已經被認定的HA蛋白和PB2蛋白外,其余蛋白質也表現出了對宿主偏好性的影響。同時,針對毒株構建的預測模型能夠預測新型流感病毒,確定其宿主偏好,為甲型流感的早期防控提供預警。此外研究針對甲型流感病毒的10種蛋白及其宿主偏好挖掘關聯規則,找到了一些重要的位點,分析這些特定位點上的氨基酸,發現它們在不同宿主間差異顯著,這些位點將對研究甲型流感的跨種傳播研究提供一些線索。

參考文獻

[1]陳浦言.獸醫傳染病學(第五版)[M].北京:中國農業出版社,2006.

[2]徐慧琳,張文彤,趙耐青,姜慶五.影響H5N1甲型流感病毒對哺乳動物毒力變異的HA序列關鍵位點研究[J].復旦學報(醫學版),2006,33(5):473-473.

[3]王光宏,蔣平.數據挖掘綜述[J].同濟大學學報(自然科學版),2004,32(2):246-252.

[4]張引,陳敏,廖小飛.大數據應用的現狀與展望[J].計算機研究與發展,2013,50(s2):216-233.

作者:王佳 丁雄飛 單位:華中農業大學信息學院