數理統計探討論文

時間:2022-02-11 04:21:00

導語:數理統計探討論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數理統計探討論文

許寶騄(1910—1970年)是20世紀中最富有創造性的統計學家之一,是中國最早在概率論與數理統計研究方向達到世界先進水平的杰出數學家。他加強了強大數定律;研究了中心極限定理中誤差大小的精確估計;發展了矩陣變換技巧;得到了高斯2馬爾科夫(Gauss-Markov)模型中方差的最優估計;揭示了線性假設似然比檢驗的第一個優良性質等[1]。其研究成果已經成為當代概率論與數理統計理論的重要組成部分,至今“許方法”仍被認為是解決檢驗問題的最實用方法。

少年時代的許寶騄受益于表姐夫徐傳元(畢業于美國麻省理工學院)的指導。1928年,許寶騄考入燕京大學化學系,但對數學的濃厚興趣,促使他改攻數學,并于1930年考入清華大學數學系。期間,深受熊慶來(1893—1969年)、孫光遠(1900—1979年)和楊武之(1896—1973年)的教誨。1933年,以優異成績獲得理學士學位。1936年,通過赴英庚子賠款公費留學考試,進入倫敦大學學院(UniversityCollege)的高爾頓(FrancisGaldon,1822—1911)實驗室和統計系學習數理統計學。1938年獲得哲學博士學位,兩年后又獲得理學博士學位[2]。

1940年,許寶騄回到抗日烽火中的祖國,受聘為北京大學教授,在西南聯合大學任教。1945年,應加州伯克利大學和哥倫比亞大學的聯合邀請而前往美國。1947年10月,謝絕眾多朋友的挽留,毅然回到中國,此后一直在北京大學任教。

許寶騄是中央研究院第一屆當選的5名數學所院士之一。1955年當選為中國科學院學部委員。1979年美國《數理統計學年鑒》高度評價了他對概率論與數理統計學科所做出的卓越貢獻。1981年和1983年,科學出版社和德國施普林格(Springer2Verlag)出版社分別出版了《許寶騄文集》和《許寶騄選集》。在美國斯坦福大學統計系走廊里至今懸掛著許寶騄的畫像。

1984年,為了紀念許寶騄及推進我國統計學的發展,數學家鐘開萊、鄭清水、徐利治發起設立“許寶騄統計數學獎”,獎勵35歲以下研究數理統計與理論統計的青年工作者。這是我國最高的數學獎項之一。

1問津概率論王國

1880年,英國學者傅蘭雅(JohnFryer,1839—1928)和中國數學家華蘅芳(1833—1902年)合譯的《決疑數學》是傳入我國的第一部概率論著作。由于種種因素,該書對我國的概率論發展沒有產生多大影響。辛亥革命后,微積分、近世代數、近世幾何學等相繼進入我國的高等教育領域,而概率論尚未進入。1915年1月創刊的中國第一份現代科學雜志《科學》曾刊出一篇文章《最小二乘式》,此為我國第一篇概率論文章。后胡明復(1891—1927年)曾撰寫《幾率論》、《誤差論》等一系列論文探討概率統計的哲學問題[3]。由于受中國傳統數學思想的影響,加之近代數學基礎薄弱,隨機數學在我國發展甚是緩慢。直到20世紀30年代,我國數學家褚一飛、劉炳震、許寶騄、鐘開萊等才陸續發表概率論與數理統計的研究論文,拉開了中國對概率論與數理統計研究的序幕。

許寶騄痛感中國數學之落后,懷著滿腔的報國熱情,決心把自己的事業立足于祖國。由于概率論與數理統計在中國幾乎是空白的學科領域,于是,許寶騄以驚人毅力和無私奉獻精神為其奠定了基礎,并為之振興付出了畢生精力。

在實際工作及理論問題中,概率接近于1或0的隨機事件具有重要意義。概率論的一個基本問題就是探索概率接近于1的規律,特別是大量獨立或弱相依因素累積結果所發生的規律。大數定律就是研究這種規律的命題之一。許寶騄對大數定律進行了深入探討。

強大數定律和弱大數定律取決于收斂的類型。第一個弱大數定律由雅可布·伯努利(JacobBernoulli,1654—1705)提出,刻畫了大量經驗觀測中呈現的穩定性。后泊松(SiméonDenisPoisson,1781—1840)又提出了一個條件更寬的陳述,即泊松大數定律。

切比雪夫(P.L.Chebyshev,1821—1894)第一次嚴格地證明了伯努利大數定律,并把結果推廣到泊松大數定律。1866年,切比雪夫給出著名的切比雪夫不等式,并由此導出切比雪夫大數定律。

第一個強大數定律由法國數學家博雷爾(EmailBorel,1871—1956)在1909年對伯努利試驗場合建立。他證得若試驗次數無限增加時,頻率將趨于概率。博雷爾的工作激起了數學家沿這一嶄新方向的一系列探索,其中尤以柯爾莫戈羅夫(A.H.Kolmogorov,1903—1987)的研究最為卓著。他在1926年推導了弱大數定律成立的充分必要條件,后又對博雷爾提出的強大數定律給出了一般結果。

許寶騄進一步加強了強大數定律的結論。其結果為:設X1,X2,⋯,Xn,⋯是獨立同分布均值為零、方差有限的隨機變量序列,任給ε>0,有Σ∞n=1P1n|X1+X2+⋯Xn|>ε<∞證明是經過一個卷積的富立葉逆轉,把問題轉化為含有特征函數某個積分的分片估計,這需要具有相當深厚的數學功底和敏銳的數學眼光才能完成。由于推證較復雜,盡管已經得出關于矩的充要條件,但在刊出時刪去了必要性的證明[4]。

概率論中的極限定理研究的是隨機變量序列的某種收斂性,對隨機變量收斂性的不同定義將導致不同的極限定理。許寶騄在“依分布收斂”、“依概率收斂”、“r2階收斂”和“依概率1收斂”的基礎上,創造性地提出“完全收斂性”概念,開辟了概率論極限理論研究的新局面。直到今天,對完全收斂性的討論仍是一個有意義的課題,這就足以表明該文的開創性價值。正如許寶騄所說:“一篇論文不能因為獲得發表就有了價值。其真正價值要看發表后被引用的狀況來評價?!盵1]許寶騄對中心極限定理也進行了較為深入的研究?!爸行臉O限定理”這個術語是由波利亞(G.Polya,1887—1985)1920年引入的。該定理斷言在適當條件下,大量獨立隨機變量和的概率分布近似于正態分布。在長達兩個世紀的時間內極限定理成了概率論的中心課題。

1733年,棣莫弗(A.DeMoivre,1667—1754)由二項分布的漸進分布推導出正態分布。較一般的極限定理由拉普拉斯(Pierre2SimonMarquisdeLaplace,1749—1827)給出,但其證明不完善。

誤差分析是概率論的生長點之一。如果把隨機變量總和中的每項看作是小的“基本誤差”,那么中心極限定理就為觀察誤差中正態分布的發生給出一個解釋。19世紀初高斯(C.F.Gauss,1777—1855)在研究測量誤差時引進了正態分布,并發展了具有廣泛應用的最小二乘法。

在許多數學家為給出中心極限定理嚴格證明所做的努力均告失敗后,切比雪夫使用矩方法的嘗試相當令人鼓舞。馬爾科夫(A.A.Markov,1856—1922)于1887年第一個用矩方法給出了中心極限定理的嚴格證明。切比雪夫的另一個弟子李雅普諾夫(A.M.Lyapunov,1857—1918)則從一個全新角度去考察中心極限定理,引入特征函數這一有力工具,避免了矩方法所要求的高階矩存在的苛刻條件,在1901年給出了定理的完善證明,其證明方法與現在素數理論中的方法相類似。特征函數實現了數學方法的革命,為極限定理的進一步精確化提供了條件。

一個從理論和應用上都應當關心的問題是,僅知道某個概率分布漸近正態分布是不夠的,還必須知道換成正態分布后誤差有多大。李雅普諾夫給出這個誤差的一個上限。瑞典數學家克拉美(H.Cramér,1893—1985)發現李雅普諾夫所給余數的估計在風險問題中是遠遠不夠的,并于1928年改進了結果。1941年,貝萊(A.C.Berry)再次改進了李雅普諾夫的結果。

許寶騄有一本翻破了的克拉美概率著作,書上幾乎寫滿了批注。他認為該書包含了所有概率論的基礎。1945年,許寶騄改進了克拉美定理和貝萊定理,并給出克拉美定理的一個初等證明[5]。他以特征函數為工具,通過12個引理,給出了上述定理的證明。但影響更深遠的結果是他將相應的樣本均值代之以樣本方差。許寶騄說:“關于均值的漸近分布,已知結果如此之多??寄崴?Cornish)和費希爾(R.A.Fisher,1890—1962)通過半不變量獲得了逐步近似于任何隨機變量分布的各項。若把考尼斯和費希爾的形式結果轉化為一條漸近展開的數學定理,它能給出剩余項大小的階。在本文中,樣本方差就做到了這一步。”[5]

這里許寶騄第一個討論了樣本方差的漸近展開,給出余項階的估計。他直接引進了一個新維數,用特征函數來近似隨機向量的分布,其難點是用特征函數來近似兩個高度相關的隨機變量的分布。他對特征函數的應用已經達到爐火純青的境界,在不少論文中對這一技巧信手拈來,應用自如。

許寶騄所采用的方法具有普遍意義,還可以用于解決樣本高階中心矩、樣本相關系數及樣本統計量的類似問題。他的這一工作在20世紀70年代以后引起了進一步的研究。此后,許寶騄開始研究費勒(W.Feller,1906—1970)對中心極限定理一般形式的充要條件。1947年5月,他得到每行獨立的無限小隨機變量三角陣列的行和,依分布收斂于一給定的無窮可分律的充要條件。當時一些著名的概率專家,如柯爾莫戈羅夫、辛欽(A.Ya.Khintchine,1894—1959)、格涅堅科(B.V.Gnedenko,1912—1995)、萊維(PaulLévy,1886—1971)和費勒等,都在尋找這一答案,所以許寶騄在給鐘開萊的信中說,擔心正在進行的工作會和別人相重復。

許寶騄的條件與格涅堅科的不同,后者的“兩個尾巴”是并在一起的,而許寶騄則利用核(sint/t)3直接證明。但得知格涅堅科的研究成果已經發表時,許寶騄立即承認了其優先權[6]。因此,在格涅堅科和柯爾莫戈羅夫合著的相關專著英譯本再版時,添加了許寶騄的這一論文作為附錄。

20世紀50年代中期,許寶騄對馬爾科夫過程產生了興趣,他用分析的方法討論了關于轉移概率函數的可微性。這一工作暗示了分析結構和概率結構的內在聯系,為進一步研究奠定了基礎。

2涉足統計推斷領域

貝葉斯(T.Bayes,1702—1761)的論文《論機會學說問題的求解》可看作最早的一種統計推斷程序。拉普拉斯和高斯等利用貝葉斯公式估計參數的研究,促使統計學擺脫觀測數據的單純描述而向強調推斷的階段過渡。

19世紀末,皮爾遜(K.Pearson,1857—1936)明確指出,統計學不是研究樣本本身而是要根據樣本對總體進行推斷,并引進一個分布族,包含正態分布及現在已知的一些重要非正態分布,還提出矩估計法,用來估計分布族中的參數[7]。皮爾遜所提出的檢驗擬合優度統計量,為大樣本統計的先驅性工作。戈塞特(W.S.Gosset,1876—1937)1908年導出的t分布,則開了小樣本理論的先河。小樣本理論強調樣本必須從總體中隨機抽取,從而使統計學研究對象從群體現象轉變為隨機現象。

20世紀20年代費希爾對現代數理統計學的形成和發展做出了卓越貢獻。他發展了正態總體下種種統計量的抽樣分布理論,建立了以最大似然估計為中心的點估計理論,創立了實驗設計,并發展了相應的數據分析方法———方差分析。

1911年,皮爾遜應聘為倫敦大學學院優生學教授,并任生物統計系主任,而費希爾自1933年起任倫敦大學學院教授。他們共同建立和領導了一個有世界影響的數理統計學派,使倫敦大學學院的高爾頓實驗室和統計系成為世界數理統計學的研究中心。

1936年許寶騄來到高爾頓實驗室和統計系學習時,小皮爾遜(E.S.Person,1895—1980)剛繼任父親的領導工作,任統計系主任;費希爾任高爾頓實驗室主任;現代統計學家奈曼(J.Neyman,1894—1981)任統計系教授;一些著名學者也不斷來訪,如美國的多元分析專家郝太林(H.Hotelling,1895—1973)、頻率曲線專家克萊格(C.C.Craig)和概率專家費勒等。頻頻接觸這些“世界級”人物,其發現一般原理、發現科學實質的深邃思想,其才氣橫溢、思如泉涌的大家風范,其刻苦鉆研、鍥而不舍的科學精神,都給天資聰慧的許寶騄留下了深刻印象。這對其概率統計思想的形成和發展產生了很大影響,他一生的科學貢獻與這段經歷是密切相關的。

在奈曼.皮爾遜的假設檢驗理論建立之初,將這一方法應用于線性模型的線性假設檢驗問題是一個很有意義的研究方向。費希爾對線性模型的線性假設發展了F檢驗(起初他稱之為Z檢驗,其學生改進為F檢驗,用Fisher的第一個字母命名),但這種檢驗有何優越性或是否存在比它更優越的檢驗,尚需進一步探討。奈曼2皮爾遜理論提供了以比較功效函數為基礎的方法,涉及到很復雜的精細分析問題,在當時的統計隊伍中,具備這樣數學素質的為數甚少,許寶騄正是其中的突出者。他敏銳地意識到該課題的重要性,并隨之進行了精心研究,發表了一系列相關論文,取得了突破性進展,從而在國際數理統計界爭得一席之地。

28歲的許寶騄在奈曼和皮爾遜《統計研究報告》的第二卷發表了關于數理統計學的第一篇論文《Studentt分布理論用于兩樣本問題》,研究了所謂Behrens2Fisher問題。[8]他創造性地引進統計量u=(X-Y)2(A1S21+A2S22)

其中A1>0,A2>0為常數,來討論以|u|>c為否定域的檢驗。許寶騄通過把u的密度函數展開成冪級數,研究了否定域|u|>c的勢函數對參數的依賴關系。其主要內容是計算上述U檢驗的功效函數,并研究該檢驗在種種情況下的表現[9]。這是一個精確的(不是漸進的)分析,當代統計學家謝非(H.Scheffe)稱之為“數學嚴密性的范本”。據許寶騄的研究結果所給出的方法后被稱為“許方法”。

1941年,許寶騄首次證明了方差分析中的F檢驗在功效函數觀點下的優越性。方差分析中任一個效應有無的檢驗,都可以化為典則形式之下的假設。他證得若假設水平α的檢驗不是F檢驗,其功效函數在任一球面上保持常數,則此檢驗的功效必小于水平α的F檢驗的功效[10]。這是一元線性假設似然比檢驗的第一個優良性質,其本質上是對任何特定多于一個參數值假設的第一個非局部的優良性質。許寶騄考察了高斯2馬爾科夫模型中方差的最優估計問題,得到了樣本方差為總體方差的最優二次無偏估計的充要條件。后來的研究表明,許寶騄的結果是近年來研究方差分量模型和方差最優二次估計的起點。

許寶騄證明了似然比檢驗在所有功效函數僅依賴于一個非中心參數的所有檢驗中是一致最強的。這個條件等價于勢函數在某一類自然變換下的不變性,由此開創了假設檢驗的兩個發展方向:(1)將所得形式推廣到多元問題(郝太林的T2及多元相關系數);(2)提供了獲得所有相似檢驗的新方法。

正是在許寶騄的建議下,其學生席瑪卡(J.B.Simaika)和萊曼(E.L.Lehmann)將這個方法用于其他問題,后萊曼和謝飛形成了完備性的概念。

3推進多元分析發展

皮爾遜的數理統計學建立在自然總體的“大樣本”基礎上,而費希爾則著重處理受控實驗中“小樣本”的統計分析。后者在數學上占有優勢,頻頻對前者發起攻擊,尖銳地批評皮爾遜所提出的x2檢驗。

奈曼和小皮爾遜在1933年發表了關于假設檢驗的論文,把檢驗問題作為一個數學最優化問題來處理,發展了費希爾的研究工作。由于費希爾對皮爾遜有成見,因而對奈曼和小皮爾遜的研究也不以為然,甚至稱其編輯的《統計學研究通報》是“一堆破爛貨”。由于和費希爾的矛盾,奈曼感到在英國難以發展,于1938年4月應聘為美國加州伯克利大學數學系教授,并籌建了統計實驗室。

加州伯克利大學統計實驗室在二戰后逐步取代了倫敦大學學院的統計系地位,成為世界數理統計學的中心。相比之下,當時蘇聯在概率論領域雖領先于世界,但在數理統計領域遠遠落后于美國。在20世紀50年代大力倡導“學習蘇聯”時期,中國統計學也長時期得不到發展。

奈曼猶如伯樂,慧眼識俊才。他非常器重許寶騄,認為許寶騄是新一代數理統計學家中的佼佼者,一度選定其為接班人。1945年,奈曼邀請許寶騄參加了第一屆伯克利概率統計討論會,并聘請他為伯克利統計實驗室教師。校方僅聘許寶騄為講師,奈曼為此大聲疾呼,表示了強烈不滿。1946年秋,許寶騄開始在教堂山(ChapelHill)教學,奈曼還曾去看過他。當許寶騄回國時,奈曼一再挽留,想把他爭回自己的麾下?;貒?許寶騄也與奈曼保持了多年的聯系。許寶騄對科學所做的貢獻以及孜孜以求的好學精神,是與奈曼的教誨和影響分不開的。

如果個體的觀測數據能表示為P維歐幾里得空間的點,那么這樣的數據叫做多元數據,而分析多元數據的統計方法稱為多元統計分析。主要多元分析方法有:多重回歸分析、判別分析、聚類分析、對應分析、典型相關分析、多元方差分析等。許寶騄在哥倫比亞大學和教堂山講授多元統計分析,培養學生從事這一領域的研究。

自20世紀30年代起,費希爾、郝太林、許寶騄等做出了一系列奠基性的工作,使多元統計分析在理論上得到迅速發展。1938年到1945年,許寶騄所發表的相關論文一直處在多元統計分析理論的前沿。在多元分析假設檢驗理論中,許寶騄最先討論了優良性,是奈曼-皮爾遜的假設檢驗理論在多元分析中應用的先導。他推進了矩陣論在數理統計理論中的應用。許寶騄把矩陣論中處理問題的方法引進了數理統計的研究,實質上這是一個長方陣在某一變換群下的標準型。有了線性模型的法式,使估計和假設檢驗問題變得十分簡明。

費希爾創立的“n維幾何”方法,使數學家們獲得了一些重要統計量的精確分布。典型例子是1928年維夏特(J.Wishart)導出了任意維正態樣本全體二階矩的聯合分布———維夏特分布。

不少學者給出維夏特分布的不同證明。1939年,許寶騄利用數學歸納法推導出維夏特分布。他假定對n-1,p-1成立來推導對n,p的密度函數。除了密度函數中的矩陣外,還需要一個(p-1)維的正態向量和一個n維的正態變量,在證明過程中所需的分析推導僅僅是n維向量模的平方是x2n分布[11]。專家們一致認為許寶騄的推導方法是最優美的一個。

文中許寶騄的另一個杰作就是得到了現今所稱的許氏公式:當n≥p≥1時,有

∫⋯∫f(x′x)dxn×p=πnp2-p4(p-1)Πp-1j=OΓ(n-j2)∫A>0⋯∫|A|n-p-12f(A)dA

該公式是處理20世紀80年代所形成的橢球等高分布統計量的有力工具。

多元分析中一個基本分布是關于隨機正定陣相對特征根的分布。線性模型中線性假設的檢驗問題,都與這些特征根有關。若正定隨機矩陣A和B相互獨立,各自遵從維夏特分布W(m,Σp×p)和W(n,Σ),且m≥p,n≥p,θ1≥⋯≥θp≥0表示|A-θ(A+B)|=0

的p個根,尋求θ1,⋯,θp的聯合密度是一個重要研究課題。在20世紀30年代末,許寶騄和一些著名統計學家,都對其進行了探討。在眾多方法中,許寶騄的方法嚴密而清晰,他以矩陣微分為工具,計算了一些復雜變換的雅可比行列式,而導出相應的分布[12]。

這個方法的難點是計算雅可比行列式,許寶騄在文章中給出了任意階的雅可比行列式結果,并證明了3階行列式情形。其學生安德遜(T.W.Anderson)詳細介紹了這一工作,認為某些雅可比行列式的計算是許寶騄的杰作。

許寶騄把數學家分成三流。第一流的數學家是天才,他們能開創新的領域,如柯爾莫哥洛夫、諾依曼(JohnvonNeumann,1903—1957)、維納(NorbertWiener,1894—1964)等。第二流數學家是靠刻苦學習而成功的。他們認真消化整理前人的東西,在此基礎上有所創造和發現,辛欽就屬于這一類。第三流的數學家只是在某個問題上有所貢獻,不能像第二流的那樣系統工作。剩下的就是不入流的數學家了。他認為自己沒有才能,所有成就完全是靠刻苦學習而獲得。

“三十功名塵與土,八千里路云和月”。許寶騄對科學研究的態度和精神永遠值得我們借鑒和學習。

參考文獻

1吳文俊.世界著名數學家傳記[M].北京:科學出版社,1990.

2江澤涵,段學復.深切懷念許寶騄教授[J].數學的實踐與認識,1980,(3):1—3.

3張奠宙.中國近現代數學的發展[M].石家莊:河北科學技術出版社,2000.

4Pao-LuHsu,pleteConvergenceandtheLawofLargeNumber[J].Proc.Nat.Acad.Sci.U.S.A.,1947,33:25—31.

5Pao-LuHsu.TheApproximateDistributionoftheMeanandVarianceofaSampleofIndependentVariables[J].Ann.Math.Statist,1945,16:1—29.

6鐘開萊.許寶騄在概率論方面的工作[J].數學的實踐與認識,1980,(3):12—15.

7陳希孺.數理統計學簡史[M].長沙:湖南教育出版社,2005.

8MorrisLE,RichardAO.RandomQuotientsandtheBehrens2FisherProblem[J].AnnMathStatist,1972,43:1852—1860.

9Pao-LuHsu.ContributionstotheTwo-sampleProblemandtheTheoryofthe“StudentpsT-test[J].Statist.Res.Mem,1938,2:1—24.

10Pao-LuHsu.OntheBestQuadraticEstimateoftheVariance[J].Statist.Res.Mem,1938,2:91—104.

11Pao-LuHsu.AnalysisofVariancefromthePowerFunctionStandpoint[J].Biometrika,1941,32:62—69.

12Pao-LuHsu.ANewProofoftheJointProductMomentDistributions[J].Proc.CambrigePhilos.Soc.,1939,35:336—338.

摘要許寶騄是中國最早在概率論與數理統計研究方面達到世界先進水平的杰出數學家。他奠定了中國概率論與數理統計學科的基礎,并為之付出了畢生精力。其研究成果已成為當代概率論與數理統計理論的重要組成部分,至今“許方法”仍被認為是解決檢驗問題的最實用方法。

關鍵詞許寶騄概率論數理統計假設檢驗多元分析