遺傳學(xué)條件概率范文

時間:2023-11-14 17:36:49

導(dǎo)語:如何才能寫好一篇遺傳學(xué)條件概率,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

篇1

關(guān)鍵詞:Shannon熵 基因突變 多樣性

中圖分類號:TP39 文獻標(biāo)識碼:A 文章編號:1672-3791(2015)03(a)-0242-01

隨著計算機技術(shù)和信息技術(shù)的發(fā)展,對復(fù)雜冗長的DNA序列的分析研究變?yōu)楝F(xiàn)實。如何分析這些數(shù)據(jù),提取相應(yīng)的特征量來描述生命體之間的聯(lián)系,是近年研究的熱門問題。通過近幾年的發(fā)展,也開發(fā)出一系列對比軟件,常用的有CLUSTRALW等軟件。

該文擬提取出不同DNA序列的平均互信息AMI作為特征參數(shù),通過多元統(tǒng)計的方法對DNA序列進行描述,進而可以進行分類,在遺傳學(xué)、醫(yī)學(xué)等領(lǐng)域廣泛應(yīng)用。此種方法的優(yōu)點是計算簡單且速度較快,對大量數(shù)據(jù)的處理非常方便且準確率較高。

1 平均互信息AMI

對隨機變量M,事件m的自信息定義為:

其中p(m)是事件m發(fā)生的概率,自信息I(m)是事件m發(fā)生的可能性的一種度量,表示事件M=m發(fā)生時,事件m所含有的所能提供的信息量。

對隨機變量M和N,M的事件m與N的事件n之間的互信息定義為:

其中表示在事件n發(fā)生的概率下m發(fā)生的條件概率

根據(jù)上述公式,可以定義基因序列的平均互信息(AMI):

其中為4種核苷酸A、C、G、T的集合,如果固定X在基因序列上的某一位置,則Y為X下游方向間隔k個位置的核苷酸。和是核苷酸為X和Y的概率。其中表示前一個核苷酸為X,下游方向間隔k個位置為Y的組合的個數(shù),這樣就表示X和Y間隔為k的聯(lián)合分布概率。當(dāng)k=0時,就表示了緊鄰二聯(lián)體核苷酸的概率,k=1時表示次緊鄰二聯(lián)體核苷酸的分布率[1]。

[2]就是基因序列的AMI,不同的k值對應(yīng)不同的,對于每一個基因組,我們都能夠得到一組向量,不同的基因序列,則可以得到不同的向量。

2 相關(guān)系數(shù)

在該文中我們選擇的是pearson相關(guān)系數(shù),又稱為線性相關(guān)系數(shù),它能反映兩個數(shù)據(jù)集之間的線性相關(guān)程度。

令為兩個向量和的Pearson相關(guān)系數(shù),和代表的AMI各有k個分量(,,…,)和(,,…, )。

這是一個范圍在[-1,+1]之間的數(shù)值,若相關(guān)系數(shù)為+1,表示兩個數(shù)據(jù)集合之間呈現(xiàn)完美的正線性相關(guān);若相關(guān)系數(shù)為-1,則表示量數(shù)據(jù)集之間是負線性相關(guān);若相關(guān)系數(shù)為0,則表示兩組數(shù)據(jù)之間沒有線性相關(guān)性。

3 距離計算

根據(jù)相關(guān)系數(shù),我們定義兩種基因的AMI之間的距離為:

通過計算的距離可以看出各個物種與自己的距離為0,與其他物種的距離則根據(jù)進化關(guān)系的遠近而不同。

4 聚類分析

通過計算不同物種兩兩之間的AMI距離,可以得到一個距離矩陣。對于這個距離,該文選用“ward”法即離差平方和方法進行聚類[3]。

5 K值選擇

對于不同的基因組,首先提取各自序列的AMI的值,對于k值大小的選取,通過反復(fù)計算,認為取0到500是比較合適的。這樣每種基因組就得到一個向量,共有501個分量。對于不同基因組的AMI向量,計算相關(guān)系數(shù)得到距離,兩兩相比較距離得到一個距離矩陣,對距離矩陣通過ward法聚類,最后得到結(jié)果。

6 具體應(yīng)用

通過此種方法,可以很方便地對各類DNA序列進行分類和研究。該課題研究者對64種脊椎動物線粒體DNA繪制了生物進化樹,進行分類進而構(gòu)建它們之間的進化關(guān)系的應(yīng)用。

參考文獻

[1] Yuan Zhi fa,Zhou Jing yu,Guo Man cai,et al.Gene Diversity and Shannon Information Entropy.Animal[A]Biotechnology Bulletin,8(1):353-358.