主成分Logistic回歸在早期鑒別卵巢囊腫研究中的應用及其軟件開發
時間:2022-03-18 07:54:00
導語:主成分Logistic回歸在早期鑒別卵巢囊腫研究中的應用及其軟件開發一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
【關鍵詞】Logistic回歸;卵巢贅生性囊腫;卵巢非贅生性囊腫;
摘要:目的:應用主成分logistic回歸分析方法對卵巢囊腫進行早期鑒別診斷,并對此實施軟件開發以便于門診輔助診斷,進而提高疾病鑒別診斷的準確性和效率。方法:首先對Logistic回歸模型進行共線性診斷,然后篩選出對鑒別卵巢囊腫有統計學意義的檢查指標并建立Logistic回歸模型,利用該模型對卵巢囊腫進行早期鑒別診斷。程序開發選用delphi7.0軟件。結果:孕次、產次、流產次數間存在著中等程度的共線關系;除孕次、形態、內壁結構外,其余11項指標均納入模型;回顧性判別符合率為8786%,前瞻性差別符合率為8514%,判別效果較好。結論:主成分Logistic回歸實現了卵巢囊腫的早期鑒別診斷,開發的軟件可以用于門診輔助診斷。
關鍵詞:Logistic回歸;卵巢贅生性囊腫;卵巢非贅生性囊腫;
delphi7.0軟件非贅生性卵巢囊腫是因為下丘腦垂體性腺軸功能紊亂等原因形成的潴留囊腫[1],屬于生理性瘤樣病變,不易手術治療,但它從形態、大小等方面與病理性真性腫瘤贅生性卵巢囊性腫瘤極為相似,臨床特別容易混淆,輔助檢查(腹腔鏡、CT等)的效果也不理想,從而導致不必要的手術。為此本文應用主成分Logistic回歸建立早期定量診斷模型,并實施相應的軟件開發提高診斷的準確性和效率。
1資料與方法
11資料來源
用單純隨機抽樣方法從1996年~2002年在河北醫科大學附屬四院(腫瘤醫院)確診的卵巢囊腫(病理診斷結果)患者中隨機抽取494例作為樣本。各項檢查指標及賦值見表1。
12統計方法
統計分析選用stata8.0統計軟件。
121Logistic回歸共線性診斷[2,3]
Logistic回歸模型中的共線性診斷應用多元線性回歸共線性診斷工具,共線性診斷所選指標為條件指數、方差分解比例和方差膨脹因子。
122主成分Logistic回歸分析
①主成分分析:將主成分的向量記為:C=C1=α1X
C2=α2X,C1為保留的k個主成分,C2為余下的14-k個主成分,其中α為主成分對應的特征向量陣。
②Logistic回歸分析
(1)利用主成分C1進行Logistic回歸分析得到回歸系數及其協方差陣的估計值C1和cov(C1),那么C=C1
0,cov(C)=cov(C)000[4]。表1卵巢囊腫類型的檢查指標及賦值利用式(1)和式(2)求出標準化回歸系數X*和標準化回歸系數協方差矩陣cov(X*)。
X*=αC(1)
cov(X*)=αcov(C)α(2)
(3)利用U檢驗進行自變量的篩選并利用式(3)對原變量的回歸系數進行估計,進而建立Logistic回歸模型。
X=X*SX(3)
其中SX為原自變量的標準差。
(4)應用ROC曲線評價模型的預報能力。
(5)判別效果的評價
計算回預性與前瞻性判別符合率。
(6)應用Logistic回歸模型的線性形式進行鑒別診斷
可事先規定應變量y=1表示贅生性卵巢囊腫,y=0表示非贅生性卵巢囊腫。為差別值,那么將一組特定的自變量代入到Logistic回歸模型中就可以得到相應的值,判別屆值為0,當>0時可判定贅生性卵巢囊腫,當<0可判為非贅生性卵巢囊腫。
123程序開發
1231界面設計所選組件為:Label、Combobox、Edit和Button。
1232程序代碼編寫主要運用循環語句對Logistic回歸模型的線性形式進行代碼編寫。
2結果與分析[3]
21Logistic回歸共線性診斷
最大條件指數為171331時的孕次X4、產次X5、流產次數X13的方差分解比例為09034、08268和0606,均大于05;最大的方差膨脹因子為761>5,據此可認為X4、X5、X13變量間存在著中等程度的共線關系。為了解決共線性問題進一步選擇主成分Logistic回歸分析方法。
22主成分Logistic回歸分析
221主成分分析結果見表2。表2特征值、累計貢獻率
主成分C1C2C3C4C5C6C7C8C9C10C11C12C13C14特征值3.18312.53451.31841.19680.99750.87010.79480.77370.62850.49360.41620.40110.31870.0731累計貢獻率0.22740.40840.50260.58810.65930.72150.77820.83350.87840.91360.94340.9720.99481根據表中累計貢獻率大于80%和特征值接近1判定,選取9個主成分[5]。
222主成分Logistic回歸分析結果見表3。表3主成分Logistic回歸
該模型有14個因素進入,擬合方程為:
Logit(P)=0.228X1-0.950X2+0.698X3+0.405X5+0.883X6+1.265X8+1.244X10-0.734X11+0.906X12-0.423X13-1.287X14-3.977(4)
23Logistic回歸模型擬合情況分析
由圖1可見,ROC曲線下面積為0868,標準誤等于0018,P=0.000,P<0.05,表明該模型預報能力中等。
圖1Logistic回歸模型預測能力的ROC曲線
24判別效果的評價表4回顧性判別符合率
25新病例的鑒別診斷
新病例的指標征象為:年齡50歲,無個人史,無痛經史,產3次,囊腫表面不光滑,內部回聲混合,壁厚3mm,無壓迫癥狀,囊腫房數為多房,流產1次,囊腫大小23cm×22cm。將各指標征象的賦值代入到式(4)中得到=4.738>0,因此可判斷該患者所患為贅生性卵巢囊腫。
26程序開發
程序界面及結果見圖2。程序結果顯示該軟件對新病例進行鑒別診斷的結果同按照主成分Logistic回歸分析的原理計算的結果完全一致。
圖2主成分Logistic回歸分析對卵巢囊腫的鑒別診斷程序界面
3討論
Logistic回歸是進行病因分析等常用的多元統計分析方法。但人們在長期的應用中發現很多情況下求出的模型偏回歸系數不穩定,解釋問題時會得出荒謬的結論,種種跡象表明多元Logistic回歸也如同多元線性回歸一樣需要考慮共線性診斷問題。本研究采用的主成分Logistic回歸分析方法較好的減弱了自變量間的共線性,得出了較為理想的診斷結果。在此基礎上開發的軟件,是我們面向臨床實踐的一次嘗試,實踐證明該軟件可以大大提高鑒別診斷的效率和準確率。我們會在今后的工作中,進一步完善軟件的相關方面的設計以更好的應用于臨床。
參考文獻
1陳中年,主編婦產科病理學第一版上海:上海科學技術出版社,1982,151~152.
2趙宇東,肖峰,張揚,等多元Logistic回歸的共線性分析中國衛生統計,2000,17(5):259~261.
3楊俊英,楊海濤應用stata軟件實現Logistic回歸的共線性診斷中國衛生統計,2005,22(3):174~176.
4陳雄飛,董曉梅汪寧,等多因子共線性的主成分Logistic回歸分析中國衛生統計,2003,20(4):213~214.
5余松林,主編醫學統計學第一版北京:人民衛生出版社,2002,200;206;209~210;303.