數據分析的統計學基礎范文

時間:2023-07-11 17:50:59

導語:如何才能寫好一篇數據分析的統計學基礎,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

數據分析的統計學基礎

篇1

關鍵詞:大數據時代;統計學;影響

隨著大數據時代的到來,各企業采用了新的策略,獲得了更多的利潤。對于統計專業來說,改變發展策略,使培養出來的專業人才能夠適應大數據背景的需求是其主要任務。目前,高校統計學專業逐漸認識到大數據時代綜合性人才培養的重要性,并對專業建設進行了相關改革。

一、大數據時代對統計學的影響

大數據時代的到來對現代統計專業的發展造成了新的沖擊,要確保培養出來的人才能夠起到應有的作用,首先要了解大數據時代對統計專業所造成的影響。

(一)大數據時代使數據結構和數據性質發生變化

網絡技術以及基于網絡技術的電子商務等新的數據記錄模式標志著大數據時代的到來。大數據時代,不再依賴于抽樣調查的記錄模式,網站瀏覽、視頻監控都將形成大量數據。傳統的數據結構甚至是數據性質發生了變化。大量的數據信息對于需求者來說,如何甄別其可用價值成為關鍵。傳統的數據可以二維表格顯示和整理。但大數據時代所產生的數據具有多樣化和復雜化特征,往往包含了大量的音頻、視頻、HTML等。這要求大數據的收集具有較強的目的性,才能實現其價值。

(二)大數據時代要求統計分析方法和統計思維更新

大數據時代的主要特征為數據多且復雜,數據分析要求分析者對總體進行分析。在這一背景下,參數統計不再具有意義,假設檢驗法也隨著總體分析而失去價值。數據的復雜化對傳統大數據統計思維造成了巨大的沖擊,要求統計者具有活躍的思維。只有對傳統數據的改變進行分析,并且樹立新的統計方法。

二、大數據時代下的統計學發展新策略

為適應大數據時代的需求,統計學專業的發展勢必要對傳統模式進行改革。目前,多數高校統計學專業已經認識到大數據對于其發展帶來的沖擊。為此,本文提出了以下策略,以及能夠幫助統計學取得更好發展。

(一)加強統計應用性教學

根據大數據時代數據的總體分析特征,數據分析人員應掌握全面的分析方法。在人才培養過程中,應致力于培養實踐分析能力,提高數據和資料收集能力,并且培養其強烈的數據價值觀,使其能夠從眾多數據中找到所需的。另外,對傳統模式進行改革,增加大數據統計內容,以適應時代的需求。基于大數據的結構特點,實施資料透視化教學,提高分析者對復雜數據的分析能力。

(二)培養大數據統計思維

在人才培養過程中,新的統計思維的培養具有重要意義,即強調數據分析實踐能力的提高。統計思維的培養有助于數據分析者對復雜的數據進行區分,從而整理有效信息。在大數據時代,不僅要以傳統的平均思維、動態思維和變異思維為基礎,還要注重基于整體分析的大數據思維。另外,還要培養數據分者的復雜性思維,以應對復雜的數據庫。總之,大數據時代需要數據分析者具有全面的、創新性的思維。

(三)強化基礎性統計知識

統計學自身具有復雜性,其改變多且抽象。基礎的統計知識是進一步掌握大數據分析思維的基礎,可見學習基礎性統計知識的重要性是不言而喻的。為此,應該采取深入淺出的方法,利用多媒體等方式使復雜的數據統計清晰化、簡單化。結合具體的案例使數據分析者正確認識統計概念、掌握統計原理和方法。此外大數據分析不再是一種專業,而是更傾向于一種技術,這要求我們將大數據分析與統計學以外的相關知識相互聯系。注重真實相關與偽相關的講解,強調商務智能的開發和分析。只有具有堅實的基礎,才能確保數據分析者大數據分析思維的養成,適應現代社會的需求。

(四)加強復合型人才培養

為適應大數據時代的需求,復合型人才的培養是關鍵。所謂復合型人才,是指其不但要具有專業的數據分析能力,還要相應的具備管理以及其從事專業的技術。大數據時代,高校應建立全面的人才培養模式,注重培養人才的數據分析能力、編程能力等,使其真正了解大數據,懂得如何利用大數據對其所處的行業起到積極作用才是關鍵。總之,大數據時代對綜合性人才具有更高的需求,大數據時代不僅培養的是一種能力,而且是一種思維,是對全新模式下的數據的分析和利用。高校作為人才培養的重要基地,其教學模式的改革、對大數據時代所需教學模式的認識是高校的主要任務。

三、總結

統計學是經濟學的基礎課程,傳統的統計人才培養具有定向性。而隨著大數據時代的到來,數據產生的形式多樣,且具有復雜性。大數據分析不僅是作為一種專業存在,而是應以一項必備的技術而存在。大數據時代,傳統的統計思維和統計方法發生了改變,統計人才培養方式的改革也就勢在必行。(作者單位:海南師范大學)

參考文獻:

[1] 朱懷慶.大數據時代對本科經管類統計學教學的影響及對策[J].高等教育研究,2014(3).

[2] 姚壽福.經濟管理類本科專業統計學課程教學改革思考[J].高等教育研究,2012(3).

[3] 孫耀東.大數據背景下統計學專業課程教學探究[J].廊坊師范學院學報(自然科學版),2015(06).

篇2

關鍵詞:統計測度;統計學;大數據;數據科學;

作者簡介:李金昌,男,50歲,浙江義烏人。浙江財經大學校長,統計學教授,博士生導師。研究方向為經濟統計學,統計理論與方法,抽樣技術,政府統計等。

最近兩年,統計學界對大數據問題所進行的理論探討逐漸增多,視角也各有千秋,引起了一些共鳴。圍繞大數據問題,由統計學、計算機科學、人工智能、數學等學科共同支撐的數據科學開始形成。但大數據畢竟是一個新課題,因此遠未達到對其有一個系統完整的認識,仍然需要從不同的方面加以研究,其中有一個重要但又容易被忽視的問題,即統計測度問題,值得去探討。

一、什么是統計測度

漢語上,測度是指猜測、揣度、估計。數學上,測度是一個函數,它對一個給定集合的某些子集指定一個數,這個數可以比作大小、體積、概率等等。通俗地說,測度把每個集合映射到非負實數來規定這個集合的大小:空集的測度是0;集合變大時測度至少不會減小(因為要加上變大的部分的測度,而它是非負的)。

除了數學角度的測度論,查閱國內文獻資料,帶有測度這個詞匯的文獻不少,但專門針對統計測度(或測度)內涵的討論幾乎沒有。一些對社會經濟現象進行分析測度的文獻,例如新型工業化進程測度、貨幣流動性測度、全面小康社會發展進程測度、收入分配公平性測度、技術效率測度、人力資本測度、金融風險測度、產業關聯測度等等,所做的測度都是再測度,均不對測度本身進行討論。查閱國外文獻資料(關鍵詞:measurement),也同樣存在這樣的問題,只能收集到一些比較零散的表述。LudwikFinkelstein(1975)[1]認為,在我們對事物或現象進行描述時,測度可以被定義為對現實世界中某一現象的個體屬性或特征進行量化的過程。JamesT.Townsend和F.GregoryAshby(1984)[2]認為,如果按照極端的觀點,那么統計分析中的基本測度理論的含義仍然是存在爭議的。LudwikFinkelstein(2003)[3]指出,測度在那些原來尚未得到卓有成效或廣泛應用的領域,也已取得了明顯的進步,社會、政治、經濟和行為科學正在更大程度地利用定量技術;測度是現代思維的一種實際有效的工具,是我們借以描述世界的一種方法。GiovanniBattistaRossi(2007)[4]認為,用以表示測度結果的,是數字或者數字符號。LucaMari(2013)[5]認為,測度的基礎特征是被公認為世界上獲取并正式表達信息的基本方法,這讓它成為一種跨學科的工具。LudwikFinkelstein(2014)[6]指出,在自然科學技術中,測度的重要性不可否認,它是科學調查和發現必不可少的工具,它可將宇宙中的復雜現象用精確、簡潔和普遍的數學語言來描述。

那么,到底什么是統計測度呢?目前沒有一個統一的定義。本文認為,統計測度具有不同于測度的意義,并且大大超越數學上的界定,即它具有數學定義的一般屬性,但又不受制于函數表現形式,因為統計測度所要面對的是現實世界,實際問題要比理論上可以定義的問題復雜得多。按照我們的理解,統計測度就是用一定的符號和數字,用一定的形式和載體,對所研究的現象或事物的特征進行量化反映,表現為可用于統計分析的數據的過程。它應該具有這樣一些屬性:以實際現象為測度對象,測度結果具有實際意義;以量化為目的,把信息轉化為數量,提供人們容易理解的定量結論;個體特征的測度符合形成總體定量結論的要求,同時能夠體現個體差異。可以發現,統計測度需要借用數學工具,但更重要的是對具體測度現象本質特征的認識和掌握。

統計測度可以從若干不同角度進行分類。邱東教授(2012)[7]曾在“宏觀測度的邊界悖律及其意義”一文中,從邊界的角度對宏觀測度進行了分類:一是因事物本身可測度性而形成的邊界,即本體論意義上的測度邊界;再一是由人的認知能力而形成的邊界,即認識論意義上的測度邊界;第三則是由統計相關性偏好和投入約束而形成的邊界,即操作意義上的測度邊界。這三條測度邊界,應該以本體論意義的測度邊界最大,認識論意義的測度邊界次之,而操作意義的測度邊界最小。這樣的分類,對于我們正確理解統計測度的內涵很有幫助。受此啟發,筆者認為統計測度還可以有如下分類:

1.從測度的實現形式看,可以分為原始測度和再測度。原始測度也可以稱為直接測度,它通過對測度對象進行直接測度來獲取數據,例如清點庫存物品數量、丈量作物播種面積、觀察培育細菌數目、檢測藥物成分等獲得的數據,以及各種登記、記錄的原始數據等等。再測度也稱為間接測度,它以其他已知的測度數據為基礎去計算、推算或預測所需的未知數據,例如根據GDP和人口數測度人均GDP、根據人口普查分年齡人口數據測度老齡化系數和社會負擔系數、根據相關指標數據測度CPI的變化等等。復雜的再測度則需要借助相應的統計模型作為工具,因為它實際上是對相關變量之間的關系進行定量反映。從兩者關系上看,原始測度是基礎,是根本,沒有科學的原始測度就不會有可靠的再測度;再測度則是測度功能提升的必然要求,以解決原始測度不能解決的問題。

2.從測度的計量方式看,可以分為自然測度、物理測度、化學測度、時間測度和價值測度。自然測度是利用現象的自然屬性所進行的一種統計測度,例如人口規模、企業數量等的測度,采用自然計量單位;物理測度是利用現象的物理屬性所進行的一種統計測度,例如公路長度、作物播種面積、天然氣產量等的測度,采用物理計量單位;化學測度是利用現象的化學屬性所進行的一種統計測度,例如醫學、生物學中化學合成物的成分結構測度,采用百分數、千分數或特定標識為計量單位;時間測度是利用現象的時間屬性所進行的一種統計測度,例如勞動用工、閑暇時間等測度,采用時間計量單位;價值測度是利用現象的價值屬性所進行的一種統計測度,例如勞動報酬、經濟活動成果等測度,采用貨幣計量單位。在這些測度計量方式中,價值測度因最具有綜合功能而應用最為廣泛。

3.從測度的方法看,可以分為計數測度、測量測度、實驗測度、定義測度和模型測度。計數測度是一種通過觀測計數來獲得數據的方法,最為簡單,一般用于自然測度或時間測度;測量測度是一種根據物理或化學規制對現象進行測量、測算來獲得數據的方法,一般用于物理測度或化學測度;實驗測度是一種按照科學實驗原理、通過觀察實驗對象在既定條件下的反應來獲得數據的方法,一般與測量測度相結合,用于獲取科學研究數據;定義測度也可以稱之為指標測度,是一種通過探究現象的本質特征和活動規律、歸納出表現其數量特征的范疇、給出統計指標定義(包括內容、口徑、計算方法和表現形式等)來獲取數據的方法,最常用于價值測度,也用于其他形式的測度。可以說,定義測度方法應用最為廣泛,但也最為困難。模型測度是一種根據現象與現象之間的內在聯系關系、或者現象自身的發展變化規律,通過建立一定的方程模型來獲取數據的方法。前面三種統計測度方法基本上都屬于直接測度,定義測度既可能是直接測度、也可能是間接測度,而模型測度都屬于間接測度方法。

4.從測度的維度看,可以分為單一測度與多維測度。單一測度是指采用單一的方式方法對所研究現象或事物進行單一角度的測度,獲得單一的數據。多維測度是指對所研究現象或事物進行多角度的測度,測度過程中可能需要采用多種測度方法和計量方式,例如多指標綜合評價就需要借助統計指標體系對評價對象進行多角度的測度。顯然,單一測度是多維測度的基礎。

二、統計測度是統計學的立足之本

首先,從統計學的發展歷史看,是統計測度使統計學破繭而出。為什么主流觀點認為政治算術是統計學的起源而不是國勢學?正是因為威廉·配第首次采用統計測度的方式進行了國家實力的統計分析和有關推算,得出了令人信服的結論。威廉·配第在1693年出版的《政治算術》[8]中寫道“因為和只使用比較級或最高級的詞匯以及單純作思維的論證相反,我卻采用了這樣的方法(作為我很久以來就想建立的政治算術的一個范例),即用數字、重量和尺度的詞匯來表達我自己想說的問題,只進行能訴諸人們的感官的論證和考察在性質上有可見的根據的原因”,這一觀點在統計學的發展過程中產生了非常重要的影響。他的這段話雖然沒有出現測度一詞,但卻道出了測度的本質,即讓事物變得明白、變得有根據,因為“數字、重量和尺度”就是測度、就是根據,用“數字、重量和尺度的詞匯來表達想說的問題”就是一種測度的思想,盡管測度的方式方法還很簡單。相反,國勢學雖然提出了歸納法這一統計學的基本方法并首創了統計學一詞,但由于沒有采用統計測度的方式進行國勢問題的研究而難以修成正果。正如邱東教授[7]所說:“在配第之前,統計學的研究對象雖然是國家的態勢,但它在方法論上只是定性言說。一個國家的財富總量在本體論意義上是可以測度的。然而只是到了配第時期,人類才想到了要測度它,并發明了如何測度的基本方法。政治算術,即開創期的經濟統計學,實現了從無到有的轉變,大大擴展了宏觀測度的認識論邊界,因而才具有了統計學范式創新的革命性意義。”同樣,格朗特的《關于死亡表的自然觀察和政治觀察》也是人口統計測度方面的經典之作,無論是原始測度還是再測度,都給后人留下了寶貴的財富。之后,統計學就是沿著如何更加科學、準確測度世界這一主線而發展的。筆者曾在“從政治算術到大數據分析”一文[9],對數據的變化與統計分析方法的發展進行了粗淺的歸納,其主題實際上就是統計測度問題。

其次,從統計學的研究對象上看,統計測度是體現統計學數量性特征的前提條件。統計學的研究對象是現象的數量方面,或者說統計學是關于如何收集和分析數據的科學。統計數據從何而來?從統計測度中來。數據不同于數字,數字是統計測度的符號,數據是統計測度的結果,這也正是統計學區別于數學之處。所以說,數據的本質問題就是統計測度問題,故此統計測度是統計學的基本問題。這里重點討論兩個問題:一是統計測度與統計指標的關系,二是統計測度面臨的新問題。關于第一個問題,本文認為統計測度與統計指標是一個事物的兩個方面,這個事物就是數據。統計指標法是統計學的基本方法之一,盡管前面對統計測度從方式方法上進行了分類,但從廣義上說所有統計測度都是定義測度,都表現為指標。也就是說,任何統計測度———不論是直接測度還是間接測度,最終目的是獲得能夠讓人明白的數據,而表現數據的最主要形式就是統計指標,其他表現數據的形式都是派生出來的。所以,統計測度就是根據所設定的統計指標去獲得所需的數據。關于第二個問題,與后文所要論及的大數據有關,就是定性測度問題。在統計學中,數據可以分為兩類———定性數據與定量數據,其中定性數據又包括定類數據與定序數據兩種,它們屬于非結構化或半結構化數據。相應地,統計測度也可分為定性測度與定量測度。很顯然,只有定性測度與定量測度方法得到同步發展,統計學才能更加完善。總體上看,定量數據的統計測度已經比較完善,但定性數據的統計測度還有很多問題尚待解決,難點就在于測度的切入點———如何提取有效的信息、如何最終轉化為統計指標。盡管關于定性數據分析的論著已經不少,但還沒有從理論方法上建立起定性數據統計測度的體系,因此統計學在這方面的任務依然很重。

第三,從統計學的永恒主題看,通過科學的數據分析、得出有效的結論是其不變的追求,而數據分析過程就是綜合的統計測度過程。獲得數據的目的是為了發現隱含其中的有價值的信息,即發現數據背后的數據,讓數據再生數據,從而滿足人們認識事物、掌握規律、科學決策的需要。除了總量、結構等基本信息外,更重要的是通過數據分析來呈現現象的變化規律與相互關系。不難發現,這種數據分析的過程,就是不斷進行各種統計測度的過程,所以最終的統計分析結果實際上就是各環節、各方面的各種類型的統計測度的疊加結果,或者說是統計測度不斷放大的過程。大量針對社會經濟現象進行分析研究的文獻(不論是否冠以“測度”兩字),只要有數據分析,都是如此。可以說,統計測度貫穿于統計數據分析的全過程。但是,為什么很多統計數據分析并沒有得出有效的結論呢?本文認為原因就出在統計測度上,尤其是沒有首先解決好原始統計測度問題。應該說,圍繞數據分析已經建立起一整套比較完整的統計方法體系,很多方法也都身經百戰、行之有效,但一旦原始統計測度有問題、數據不準確或不真實,那么任何方法都只是擺設。仔細研讀很多所謂的實證分析文獻,其重點均在于構建什么樣的模型或運用什么樣的方法,雖然有的文獻也必須要討論選擇什么樣的變量(指標)這個問題,但并不是系統地從測度的角度進行闡述,因此所用的模型越來越復雜,但所得的結論卻離實際情況越來越遠。學界總是有這樣一種觀念:變量越多、符號越新奇、模型越復雜的文章才越有水平,似乎這樣分析所得的結論才越可靠。殊不知,不以科學可靠的原始統計測度為基礎,任何數據分析都會成為無源之水、無本之木,所得的結論也只是更精確的錯誤而已。本文認為,任何脫離科學統計測度的統計分析都是毫無意義的,充其量是一種數字游戲而已。應該樹立這樣一種觀念:科學的統計數據分析首先取決于科學的統計測度,而不是首先取決于什么樣的分析模型,雖然模型也很重要。這也再一次證明,統計測度問題是統計學的根本問題。其實,歸根結底看,在統計數據分析過程中,每一步分析都以前一步的測度為原始測度,每一步所用的方法都是統計測度方法,因此所有的統計分析方法都是統計測度方法。甚至可以說,統計學方法體系就是統計測度方法體系。

當然,在實際的統計分析中,統計測度往往遇到一些困難,即有些指標數據由于各種原因無法獲得,這就不得不采用替代這種途徑。例如,綠色GDP核算的概念已經提出很多年,但為什么還沒有哪個國家真正公布綠色GDP數據,原因就是自然資源價值、生態環境價值等的統計測度目前還面臨著很大的困難,其背后存在著一系列有待進一步研究和解決的理論與實踐問題,因此不少學者進行了替代測度的探討。這一方面說明統計測度的重要性,另一方面說明統計測度替代的無奈性。但是,替代測度必須遵守相應的規則與邏輯,要經得起推敲。有的文獻明明知道有關變量無法測度、有關數據無法獲得,卻隨意地、不符合邏輯地進行所謂的替代,結果是最后的結論不知替代成什么樣了,很難理解它的意義。關于替代測度的有效性問題,邱東教授[7]已有精辟的論述,在此不再展開討論。

三、統計測度是數據科學的基礎

籠統地講,數據科學就是以大數據為研究對象的科學,需要多學科交叉融合、共同支撐。由于大數據是快速增長的復雜數據,因此大數據分析僅有統計思維與統計分析方法是不夠的,還需要強大的數據處理能力與計算能力。只有把統計思維、統計方法與計算技術結合起來,才有可能真正挖掘出大數據中的有價值信息。本文認為統計思維、統計方法與計算技術相結合的基礎就是科學的統計測度。

首先,大數據技術不能自行解決其計算和分析應從何處著手的問題。現代信息技術與互聯網、物聯網技術的快速發展,使人類進入大數據時代,也有人說進入到數聯網時代,這意味著我們一方面被各種越來越多、越來越復雜的數據所包圍,另一方面又被數據中巨大的信息價值所吸引,想從中挖掘出可供決策之用的信息。如何挖掘大數據?人們已經進行了艱苦的探索,發展了很多專門的方法技術,并已嘗到了不少甜頭,但遠未達到充分利用大數據中有效信息的目的,因為已有的大數據分析研究主要集中于計算機科學與技術、軟件工程、計算數學等領域,重點是計算能力與算法研究,而很少從統計學的角度進行有針對的探討,還沒有真正進入數據分析的深層。這里面實際上忽略了最基礎的統計測度問題。如果說,計算技術的發展能夠解決數據儲存與計算的能力問題,算法模型的改進能夠解決大數據分析的綜合能力問題,那么它們仍然不能解決對誰進行計算與分析的問題,也即從何處著手的問題。無論是傳統的結構型數據,還是現在的包含大量非結構型數據的大數據,要對它們進行分析都必須找到正確的切入口,即分析的基本元素是什么,或者說需要測度什么。當然,還有如何測度的問題。然后,才能進行分組、綜合和構建模型,否則大數據分析不會達到人們的預期。

其次,大數據之所以催生數據科學,就是為了通過多學科交叉融合來共同解決大數據分析中存在的問題,其中包括統計測度問題,這一點對于非結構化數據尤為突出。實際上,大數據的本質就是非結構化數據,一是體量大、比重高(超過95%),二是變化快、形式多,三是內容雜、不確定。通過各種社交網絡、自媒體、富媒體,以及人機對話和機器感應記錄等產生的各種非結構化數據,例如各種文字、各種表情符號、各種聲音、各種圖像,到底表示什么?綜合在一起能體現什么規律?如何綜合各種信息?存在著大量有待研究的問題。其實,文字的長短、用詞、表達形式(敘述式、議論式、散文式、詩歌式,等)甚至字體大小與顏色,表情類型與偏好,聲音高低、頻率與情緒,圖像顏色等等,都是有特定意義的,即在特定環境條件下的反應。所以,一句話或一段聲音的意義并非文字本身的意思,一個表情符號的意義并非符號表征的意思,一個圖像的意義并非圖像內容與色彩本身的意思,因為背后有太多的未知。人們瀏覽檢索各種信息的習慣、收看與回復郵件等信息的習慣、參與信息網絡的習慣、購物習慣與支付習慣等等,也是如此。更何況,同樣的網絡詞匯在不同的時間代表著不同的語義。這背后隱藏著的是人們的行為與社會關系,既具有個性又具有共性,極其復雜。所以對這樣的數據進行分析,首先絕非是計算問題,也不是用什么模型問題,而首先是從何處著手、如何選取關鍵詞、如何選定關聯詞、可以用什么樣的指標來綜合、可以用什么樣的表式來表現等問題,一句話就是統計測度問題。非結構化數據的統計測度將主要是定義測度,這些問題不解決,分析模型也是難以構建的,或者難以得出令人信服的結論。

例如,關于《紅樓夢》前80回與后40回是否同一作者的爭論,韋博成[10]進行了綜合性的比較研究并提出了自己的觀點,他指出已有美國威斯康辛大學華裔學者陳炳藻教授(1980)[11]、我國華東師范大學陳大康教授(1987年)[12]和復旦大學李賢平教授(1987年)[13]等學者從統計學的角度進行過專門的研究,但卻得出了不同的結論:陳炳藻教授認為前80回與后40回均是曹雪芹所著;陳大康教授認為前80回與后40回為不同人所著;李賢平教授認為前80回是曹雪芹根據《石頭記》增刪而成,后40回是曹雪芹親友搜集整理原稿加工補寫而成。此外,還有其他一些學者進行過類似的研究,也有一些不同的結論。為什么都通過提取關聯詞和統計的方法卻得出不同的結論?原因就在于用以分析的關聯詞不同,即統計測度的切入點不同,當然也有統計方法上的差異,但前者是根本。至少存在幾個統計測度上的問題:提取單一維度的關聯詞還是多維度的關聯詞?提取什么類型的關聯詞(例如:關聯詞是名詞、形容詞還是動詞;是花卉、樹木、飲食、醫藥還是詩詞)?這些關聯詞可以綜合為什么樣的指標?等等。由此可見,原始統計測度代表著數據分析的方向。

相比《紅樓夢》,大數據分析要復雜得多、困難得多。所以,數據科學除了需要數學、統計學、計算機科學與技術、人工智能等學科的交叉融合外,還需要與行為科學、語言學、社會學、經濟學等學科相結合,以便能很好地解決作為數據分析之前提的統計測度問題。

第三,數據科學將進一步拓展統計測度的邊界,并提出更高的要求。伴隨著人類認識世界的范圍的不斷拓展,統計測度的范圍也不斷擴大,從自然現象統計測度到人口現象、經濟現象統計測度,再到社會現象、環境現象、政治現象等統計測度,幾乎已經滲透到了所有可以想象到的領域。相應地,統計數據分析也從少量數據的分析進入到了大數據分析。大數據的復雜性、不確定性和涌現性(王元卓等,2013)[14],意味著統計測度的內容大大增加,原來一些不能測度的數據被納入到了統計測度的范圍,按照邱東教授的說法就是統計測度的邊界大大擴展了。統計測度邊界的擴大,必須以統計測度能力的提升為前提,即要求統計學借助現代信息技術進一步提升處理和分析數據的能力———對大數據“化繁為簡”、“變厚為薄”的能力,這就必須以科學準確的大數據統計測度為前提,既改變統計思維,又創新統計分析方法,其中就包括統計測度思維、統計測度方法與統計測度標準。面對大量繁雜的數據,如果沒有更好的統計測度思路與方法,包括個體標志定義方法、最小數據細胞分組與聚類方法、關聯詞含義的時間影響計量方法、定性測度指標篩選方法、再測度路徑與方法、大數據統計測度評價標準等,那么統計學在數據科學發展過程中就難以發揮應有的作用,數據科學也將裹足不前。這就是統計學邁向數據科學的重要挑戰之一。

綜上所述,統計測度的基礎性問題從統計學延伸到了數據科學,是兩者的共同基礎,并且對于數據科學而言顯得更為重要。大數據的復雜性、不確定性和涌現性導致了統計測度的難度猛增,亟需建立面向大數據分析的統計測度理論與方法。要通過研究大數據的復雜性、不確定性和涌現性特征的基本因素,以及這些因素之間的內在聯系、外在指標和測度方法,進而研究基于先進計算技術的大數據度量模型,構建尋找面向計算的數據內核或者數據邊界的基本方法。總之,建立有效易行的數據表示方法,即科學的統計測度方法,是數據科學必須解決的基礎問題之一。

四、創新與完善大數據統計測度方法

如前所述,統計學研究對象已經從結構化數據延伸到了包括非結構化數據在內的一切數據,統計測度邊界得到了大大的擴展。按照邱東教授[7]曾經引用過的海德格爾的話:“界限并不表示某一事物的發展到此為止,而是像希臘人所認知的那樣,界限是某種事物開始展現的地方”,預示著統計學在數據科學發展階段的新起點已經展現在我們面前。新的統計測度邊界催生統計測度方法的創新,統計測度方法的創新促進統計測度邊界的拓展,兩者相輔相成,共同推動統計學與數據科學的發展。為此,我們要系統梳理統計測度方法的發展歷程,面對大數據提出的新挑戰,大膽探索統計測度的新思路、新理論和新方法,為數據科學奠定堅實的統計學基礎。為此提出如下幾點建議:

首先,要緊密結合現象的本質去探求更科學的統計測度方法。本質決定一切,既然統計測度的目的是獲得客觀反映現象本質的數據,那么深入到現象本質、認識和掌握現象的本質,是科學統計測度的關鍵,也是探求新的統計方法的出發點。換句話說,科學的統計測度方法能夠體現出數據的真正意義。例如,要探求社交網絡數據的統計分析和測度方法,就必須了解社交網絡的產生背景、構成要素、表現形式與基本特征,既要研究它的共性問題,又要研究它的個性問題與差異性,同時還要研究它的變化趨勢。只有這樣,才能掌握社交網絡數據的構成要件或元素,才能建立起科學的、能有效體現社交網絡數據意義的統計測度方法。再如,要分析研究電子商務數據,也必須先弄清楚什么是電子商務,尤其是弄清楚它與傳統的商業模式有什么不同(包括物流、資金流與信息流)、有哪些新生事物(包括時空特征、法律監管)等等,否則統計測度無從下手或者抓不住要害。同時,作為一個新的研究領域,數據科學的理論基礎將與計算機科學、統計學、人工智能、數學、社會科學等有關,離不開對相關學科領域知識與研究方法的借鑒,因此對相關領域的知識與研究方法的學習十分重要。否則,就會嚴重扭曲統計測度方法,胡亂設置測度標志,這需要引起高度關注。

其次,要緊密結合大數據的特點去創新統計測度方法。大數據的特點是復雜性、不確定性和涌現性并存,構成了多維的數據空間,里面蘊藏著豐富的信息資源,這是傳統的統計數據不可比擬的。那么該從何處進入這樣的數據空間?怎么進去?又怎么出來?這歸根結底還是統計測度方法問題。因此,在開展大數據分析之前,首先要研究大數據的基礎性問題,包括大數據的內在機理(包括大數據的演化與傳播機制、生命周期),數據科學與社會學、經濟學、行為科學等之間的互動機制,以及大數據的結構與效能的規律性等等,為創新統計測度方法提供導向。本文認為,再復雜的數據也有共性,再不確定的數據也有規律,再涌現的數據也有軌跡。網絡大數據背后的網絡平均路徑長度、度分布、聚集系數、核數、介數等具有共性的特征與參數,是開展復雜網絡數據分析的基礎(李國杰、程學旗,2012)[15];大數據在時空維度上的分布形式、內在結構、動態變化和相關聯的規律,是找到大數據分析切入口、進而簡化大數據表征的前提;大數據的涌現性軌跡(包括模式涌現性、行為涌現性和智慧涌現性),是研究更多的社會網絡模型和理解網絡瓦解失效原因,理解人們網絡行為涌現特征(例如人們發郵件數量的時間分布特征),以及探求大量自發個體語義融合連接形成有特定意義的通用語義之過程的路徑(靳小龍等,2013)[16]。也就是說,這些共性、規律和軌跡就是統計測度的主要依據,也是重點內容。發展和創新能夠準確發現大數據的共性、規律和軌跡的定量方法,其實就是發展和創新大數據統計測度方法。

第三,要緊密結合現代信息技術以完善統計測度方法。復雜、多變和不斷涌現的大數據,不僅需要借助現代信息技術(包括硬件與軟件)來解決極其復雜的分析計算問題,也需要利用現代信息技術來解決其繁雜多樣的統計測度問題。對于大數據,不論是原始統計測度還是再測度,其復雜性或難度都不是傳統的結構化數據所能相提并論的,哪怕是基本的關聯詞計數、分類與匯總,其工作量之大也超乎想象,不借用現代信息技術幾乎是不可能完成的。而事實上,有些統計測度的內容與方法本身也是以數據處理能力的提升為前提的。可以說,脫離現代信息技術,人們難以承受大數據的統計測度與分析任務;要把統計測度思想變為可實現的統計測度方法,必須借助現代信息技術。為此,要充分利用各種信息技術和手段,把統計測度與數據清洗相結合、與數據分析模型相結合、與計算方法相結合,努力建立融自動搜索統計測度、動態演化統計測度和自主優選統計測度為一體的大數據統計測度方法體系。

篇3

【論文摘要】所謂統計思想,就是在統計實際工作、統計學理論的應用研究中,必須遵循的基本理念和指導思想。統計思想主要包括均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等思想。文章通過對統計思想的闡釋,提出關于統計思想認識的三點思考。

一、關于統計學

統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。

二、統計學中的幾種統計思想

2.1統計思想的形成

統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。

2.2比較常用的幾種統計思想

所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:

2.2.1均值思想

均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。

2.2.2變異思想

統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。

2.2.3估計思想

估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。

2.2.4相關思想

事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。

2.2.5擬合思想

擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。

2.2.6檢驗思想

統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。

2.3統計思想的特點

作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。

三、對統計思想的一些思考

3.1要更正當前存在的一些不正確的思想認識

英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。

3.2要不斷拓展統計思維方式

統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。

3.3深化對數據分析的認識

任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。

參考文獻:

[1]陳福貴.統計思想雛議[J]北京統計,2004,(05).

[2]龐有貴.統計工作及統計思想[J]科技情報開發與經濟,2004,(03).

篇4

一、統計學中的幾種常見統計思想

統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等。統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點:

(1)統計思想強調方法性與應用性的統一;

(2)統計思想強調科學性與藝術性的統一;

(3)統計思想強調客觀性與主觀性的統一;

(4)統計思想強調定性分析與定量分析的統一。

1.均值思想。均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。

2.變異思想。統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。

3.估計思想。估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。

4.相關思想。事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。

5.擬合思想。擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。

6.檢驗思想。統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。

二、對統計思想的若干思考

1.要改變當前存在的一些不正確的思想認識。英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜,越科學。在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。

篇5

(池州學院數學系安徽池州247100)

摘要:隨著我國社會的不斷進步和科學技術的迅猛發展,數理統計也處于一種不斷完善和發展的過程中,在當前眾多領域得到了普遍的應用。因此,如何加大數理統計在大數據分析中的應用,保障統計工作高效的進行,是當前迫切需要解決的問題。本文研究探討信息時代背景下數理統計在大數據分析中的應用,首先從數理統計的研究內容分析出發,然后對數理統計的特點進行了簡要的闡述。最后對信息時代背景下數理統計在大數據分析中的具體應用進行了深入的分析。希望為今后數理統計在大數據分析中發揮出更大的應用作用,奠定一個具有參考價值的文獻基礎。

關鍵詞:信息時代;數理統計;大數據分析;應用研究

在進行科學研究的過程中,經常會遇到描述兩個及以上的隨機變量、描述隨機變量的分布特征、離散性質或變量大小等等相似的問題,如果不借助于數理統計,就不可能有效的解決這些問題。數理統計這一數學工具的出現,在我國社會的不斷進步和科學技術的迅猛發展的過程中處于一種不斷完善和發展的狀態之中,在當前眾多領域得到了普遍的應用。眾多學者開始考慮如何更加有效的應用數理統計方法去解決具體的數據分析問題,這成為了數據分析過程中非常關鍵的部分,也是當前針對數理統計研究最多的一類問題。

一、數理統計的研究內容分析

數理統計的研究內容,主要包括數理統計在數據分析及數據處理中的基本定義、概念,以數據分析中數理統計的廣泛應用為重點。此外,對數理統計的相關理論進行深化,總結數理統計及實踐操作的特點等等也是當前關于數理統計研究的重要方面。同時,如何有效的將數理統計應用于企事業單位當中以及數理統計對企事業范圍統計工作的價值也是一個重要的方面。

二、數理統計的特點

數理統計的特點主要是基于數據分析而言的,具體表現為通過參考數據資料,將對應的數學模型應用到隨機現象中,借助于有價值的數據,實現數據應用于數學模型的檢驗,從而對數據背后主體的規律、性質以及特點等等內容進行反饋。另外,數據分析以及數理統計二者之間有著非常大的關聯,不僅僅是一個簡單的、固定形態的統計來的一一對應關系。因此,由于數據分析的需要而逐漸演化出來的數理統計方法,實現了數據主體到數據分析、數據分析到數據主體的循環路徑,為最大程度的發揮出數據價值奠定了一個非常重要的基礎條件[4]。

三、信息時代背景下數理統計在大數據分析中的具體應用

數理統計對于大數據的處理主要可以通過數理統計方法實現。在當前,每一個學科對于數據的處理都有自己對應的數據分析方法,而數理統計方法就是眾多學科中交叉的方法,對研究社會活動的各個領域和不同學科之間的研究有著非常大的幫助[5]。因此,數理統計在數據分析中占據的重要的地位。隨著其不斷的發展,也慢慢形成了數理統計理論,并有效的應用于數據分析。通過大數定律,數理統計與數據分析之間產生了相互依賴的關系,總體的相對數及平均數等等相關性指標在數據分析中都可以發揮作用,同時也是建立在大量觀察的基礎之上實現的。

數理統計在數據分析的過程中發揮重要作用的同時,也會對數據分析產生一定的影響,主要體現在以下幾個方面。一是數理統計會對數據的總體分布形態、方差分析以及正交設計、相關分析等等產生顯著的影響,可能是正向的回歸效應,也可能是負面的偏離效應[6]。二是數理統計還可以通過其模型的構建去修正,對數據分析的均值以及方差等等統計學變量產生不同程度的影響。

四、結語

作為一項重要的工作,統計工作必須要依靠數理統計的方法和模式,才能夠充分發揮出應用價值。數理統計這一工具的出現,成為了解決數據分析中常見問題的有效手段。在我國社會的不斷進步和科學技術的迅猛發展,數理統計也處于一種不斷完善和發展的過程中,在當前眾多領域得到了普遍的應用。因此,如何加大數理統計在大數據分析中的應用,保障統計工作高效的進行,是當前迫切需要解決的問題。本文研究探討信息時代背景下數理統計在大數據分析中的應用,首先從數理統計的研究內容分析出發,然后對數理統計的特點進行了簡要的闡述。最后對信息時代背景下數理統計在大數據分析中的具體應用進行了深入的分析。希望為今后數理統計在大數據分析中發揮出更大的應用作用,奠定一個具有參考價值的文獻基礎。

參考文獻:

[1]胥洪燕,陳夢雨.數理統計在數據分析中的應用研究[J].現代商業,2014,05:126.

[2]陳建樺.用數理統計的方法對檢測中出現可疑數據的處理[J].家電科技,2008,01:62-64.

[3]顏鐘得.磨損試驗數據的數理統計處理方法[J].理化檢驗(物理分冊),1995,01:45-46.

[4]顏鐘得,謝致薇.靜態磨損試驗數據的數理統計分析[J].廣東工業大學學報,2007,01:50-52.

篇6

關鍵詞:統計學;教學改革;融合

1專業基礎課教學現狀分析

專業基礎課是高等院校設置的為專業課程學習奠定必要基礎的一類課程,它往往在一個專業的課程設置中起到承前啟后作用,是學生掌握專業知識和專業技能必須的重要課程,專業不同,將設置不同的專業基礎課。同一門課程也可能成為多個專業的專業基礎課。以統計學為例,它是一門關于數據的收集、整理、顯示和分析、解釋數據的方法論學科。對經濟管理類專業學生來說,在校學習和畢業后的工作中,都會涉及到很多社會經濟方面的數據,也會涉及到一些大數據分析。因此,統計學一直是經濟管理類本科專業的核心課程和必修的專業基礎課之一。通過統計課程的學習與培養,希望學生能掌握統計學科的基本思想,并將其用于不同學科背景下的數據分析,形成數據統計分析的思維方式,提高解決實際問題的綜合能力。現有教學模式基本解決了專業基礎課將理論課教師與實驗課教師分離的問題,這也在一定程度上解決了理論教學和實驗教學的分離問題。但這還未能實現理論教學與實驗教學的完整統一。以經濟管理類專業基礎課《統計學》為例,主要表現在:目前的統計學理論教學材料與實驗教學材料仍然相對獨立,缺乏統一的知識體系。然而,作為一門工具性和應用性極強的學科,統計理論與統計實驗二者本應該是屬于同一知識體系下的兩個不同教學環節,但因為歷史原因,統計理論的發展相對比較成熟,而統計實驗卻相對滯后,因此形成二者獨立存在。一個突出的特點是,理論課學習的知識和方法不能恰當地在實驗課中得以實施和訓練,實驗課的訓練未能與理論課同步進行。要想從根本上解決專業基礎課理論教學與實驗教學相統一的問題,還必須有能將理論課和實驗課統一一體的教學材料。因此本文探討專業基礎課理論教學與實驗教學材料融合模式的問題顯得尤為重要,并以統計學為例,提出總體的融合方案、融合模式,為其它專業基礎課教學改革提供參考。

2統計學理論教學與實驗教學材料融合方案設計

2.1整合統計學理論教學和實驗教學目標

統計學是處理數據的一門科學,通過收集數據、處理數據、分析數據、解釋數據并從數據中得出結論的科學。統計研究的是來自各個領域的數據,統計方法是適用于所有學科領域的通用數據分析方法,只要有數據的地方就會用到統計方法,比如政府部門、學術研究、日常生活、企業生產經營管理等。而今,人類已步入大數據時代,知識總量急劇增長。大數據給企業運營、政府管理和科學研究等都帶來了革命性變革。大數據對統計學教學也提出了更高的要求,為順應時展,統計學教學改革勢在必行。而在統計學教學改革中,首先要解決的就是現有教學目標的調整。在以往的教學中,通常把理論教學與實驗教學孤立開來,其教學目標也不統一。大數據時代使得統計學理論教學與實驗教學密不可分,因此,需要整合統計學理論教學和實驗教學的教學目標:通過統計學理論課和實驗課的教學,培養學生扎實的定量分析能力和理論聯系實際的能力,使學生掌握統計學的基本思想、基本理論、基本方法以及運用統計軟件處理數據的能力,為后續課程的學習準備必要的統計知識和統計技能。基本內容要求:描述統計重點培養學生統計資料收集、整理、綜合能力;推斷統計重點培養學生進行統計抽樣、運用樣本信息對總體進行參數估計、假設檢驗、方差分析以及統計回歸等能力。同時,強化學生的動手能力,掌握一至二種統計分析軟件,培養學生運用統計軟件處理數據、分析解決實際問題的能力。

2.2構建統計學理論教學與實驗教學知識體系融合架構

為解決現有統計學理論教學與實驗教學分離的問題,需要從教學資源的融合著手,目前在大部分院校的統計學教學中,理論課教學和實驗課教學由同一老師完成,這從一定程度上實現了二者的融合。但是,由于在教學中使用的理論教學材料和實驗教學材料相對獨立,老師很難將理論教學和實驗教學有機結合。從筆者多年統計學教學經驗看,要較好地解決二者的分離問題,得將統計學理論教學和實驗教學知識體系融為一體,各章內容構架設計:引導案例、基本理論和方法、軟件功能模塊、實驗案例、思考練習題、實務操作題。“引導案例”主要反映一些社會經濟熱點問題,其目的是引導學生認識本章將涉及到的統計知識;“基本理論和方法”主要介紹經典的統計理論和統計方法,也可以介紹一定的前沿理論和方法;其目的是讓學生掌握基本的統計知識,了解前沿統計理論方法;“軟件功能模塊”主要介紹本章實驗需要的軟件功能模塊,其目的讓學生熟悉軟件功能及基本操作;“實驗案例”主要是結合本章的理論方法給出一至二個案例,介紹如何進行數據處理和數據分析,其目的是讓學生能根據實際問題,運用相應的軟件模塊,進行數據處理和分析;“思考練習題”主要是體現統計基本理論和方法的練習題,其目的是讓學生通過練習掌握統計的基本知識;“實務操作題”主要是給出一兩個案例,要求學生課后運用軟件處理和分析這些實際問題,其目的是讓學生能根據實際問題選擇相應的軟件功能模塊進行數據處理和分析。

3結論與建議

篇7

一、大數據與統計學的區別

統計知識在大數據的利用研究中有多樣化的應用形式,主要是對“大數據”進行肢解,對爆炸增長的數據信息進行搜索、分類以及整合主要依賴于統計學。因此,大數據的相關研究在一定程度上運用了統計學的知識。但是,大數據的使用尚未被統計學這門學科充分利用,這主要是因為大數據的運用方式,使用模式和統計學之間存在著重要差異。統計學主要利用的是樣本統計資源,樣本主要在根據既定的概率標準從總體中抽樣調查,但是隨機抽樣調查是帶有成本屬性的,例如消耗時間、資本投入的成本等。在樣本數量逐漸增加的情況下,樣本估計的誤差范圍是伴隨著總體樣本數量的增大而逐漸增加的,這是樣本統計學不能忽視的缺點。大數據時代最具代表性的就是海量的信息數據化以及即時電子商務信息,大數據在整體上呈現出“總體樣本數據化”的趨勢,這樣的特征恰好可以補充樣本統計的弊端。大數據環境下的整體樣本統計即使可以囊括全部的樣本容量,但是因為很多情況下數據具有非結構性和半數據化的特征,而且大量的數據資源呈現的是重視尾部分布的狀態,方差、標準差等標準化的方法變得毫無意義,整體依靠性和不穩定性經常會超越經典時間內的時間序列的整體假設性,所以概率論的應用范圍呈現狹窄化的發展趨勢。因此,統計學在利用大數據進行樣本統計的過程中,可以對整體上的數據資源進行融合和選擇,這和樣本統計中的數據化處理技術存在異曲同工之妙。

二、大數據時代統計學教育的發展

1.全面培養人才素質

統計學專業的學生需要具備良好與人交往能力。統計學的學生很多都是理科出身的學生,不善于交際。但是在日常的工作中,有數據經驗的科學家應該經常和每個部門的工作人員交流,協同工作。怎么樣才能讓頗具專業性的數據分析結果讓普通的老百姓也可以讀懂,讓每個部門的工作人員都能無障礙地理解,這是不容易做到的。要訓練自己的交往能力和溝通技能,主動地參加演講活動是不錯的渠道,演講活動鍛煉了演講者的自信,在整個演講的過程中,能否清晰地表達自己的思想以及給人以信服力是至關重要的。需要培養數據常識,廣其見聞。數據科學家經常面對各種各樣的海量數據,并需要從這些數據中挖掘出有價值的信息,這就需要數據科學家具有強烈的數據敏感性。對數據的敏感程度的訓練不是一蹴而就的,要經過長時間的積累和數據分析工作的磨練,同時也可以根據閱讀數據分析材料積累閱歷,提升對數據資源的敏感程度。

2.培養應用型人才

大數據時代培養的數據科學家需要兩方面的基本素質,第一是概念性,也就前面所說的數據科學家需要掌握的基本素養和專業知識;第二是實踐性,也就是本文中我們提及的應用型人才,也就是實際操作中處理數據的能力。在高校開展大數據分析研究生學科,最大的問題是沒有可用的數據,這就需要高效與大數據企業合作,進行研究生的聯合培養,注重學生的實際操作能力,這里面涉及到我們的應用統計學專業碩士的雙導師培養制度,一名校內導師一名校外導師,校內導師注重學生的概念性,校外導師注重學生的實踐性,學生通過在校外導師單位的實習,從而熟悉并且掌握實際工作中所需要的技能。

3.促進統計與數學、計算機學科合作

“大數據”時代需要的海量數據分析資源僅僅憑借統計學科單一學科的發展是不能滿足發展需求的,大數據的數據結構性特征已經拋棄了傳統意義上的數據分析模式的非智能化框架,而且數據分析需要利用新型的數據運算方式以及計算機技能分析,這也是進行數據分析工作的攔路虎。所以,數據科學家的成長僅僅依靠單一的統計學科知識的學習是遠遠不夠的,其需要的是數學、計算機和統計學三門學科融合發展,緊密結合。三門學科之間交叉發展,融會貫通,這樣既可以發揮學科的優勢資源,同時也能彌補其他學科的弊端。

篇8

1.1計算機技術應用于統計學是信息化發展的必然要求

傳統的統計工作基本以統計人員的手工勞動為主,因此無論在信息量,還是統計數據的可靠性、準確性及時效性都已不能適應現代社會信息化發展的需要。而在信息化時代,從統計方法的選擇到統計工作過程,即統計設計、統計調查、統計整理和統計分析四個階段,在遵循客觀規律和實事求是原則基礎上,每個環節都需要滲透計算機技術,尤其是最后對海量數據分析階段,需揭示事物的本質和規律,需要對數據進行深度挖掘,得出有用的決策方案和評價結論。離不開計算機軟件處理,有的甚至需要編程尋求數據結果,數據結果的一般也是在通過該網絡平臺上進行的、所以,計算機技術應用于統計學是信息化發展的必然要求。

1.2計算機技術推動了統計學的發展

就統計數據本身而言,其不但滲透到社會生活的各個領域,而且數據量也快速增加,即所謂海量數據的處理,這就對統計學的發展和應用提出了更高的要求。例如在對一些理財產品的選擇和風險投資領域,對這些數據處理最重要的要求就是快而準,唯有如此才能抓住盈利的時機,而電腦和網絡技術的發展真正提供了這種可能性。計算機作為一種高速計算的電子計算機器,最重要的功能之一便是數據處理分析,不但能在時間復雜度上得到最大程度的優化,同時在完成基本數據運算之余,更能通過分析技術對數據做出合理分析,并在一定程度上通過對數據的整合完成對所關心對象未來發展的預測。所以,計算機技術不但能實現對數據的快速處理,而且在很大程度上推動了統計學的發展。

1.3統計學為計算機信息處理提供數據保證

在信息化時代,數據日新月異,層出不窮,計算機技術只是為信息時代的數據處理提供了高效手段,但只有信息是準確和可靠的,才能得出正確的處理結論,而這些數據是否真實、準確、可靠,完全依賴于統計學的調查方法和手段,依賴于統計學的不斷發展。只有統計學,才能為計算機技術進行準確和及時的數據處理提供保證,也才能更好地促進信息社會的發展。

2計算機技術在高校統計學教學中的應用

統計學,以“概率論與數理統計”為核心理論支撐,包括諸如隨機過程、抽樣推斷、時間序列、多元統計分析等各個細小分科,而作為與數據打交道的統計學,在通過數據挖掘來探求事物本質,發展狀況與走向時,對數據的依賴是不容忽視的,對于海量數據的處理需要計算機技術、統計分析方法和統計軟件。而在目前高校統計學教材和統計學學習中,學習的核心仍舊放在理論方面,在應用上投入時間少,尤其是對較為實用,較為前沿的技術介紹不夠。下面介紹幾種簡單的計算機處理技術如何在統計學中進行應用。

2.1EXCEL在統計學中的應用

EXCEL是WINDOWS的成員,學習起來非常方便,極易被人們所接受,因高校中開設計算機文化基礎課程,對此有所了解,因此尤其適合高校統計學中深入學習。EXCEL軟件是一種功能強大的數據分析與管理系統,它提供了大量的函數,比如統計學中經常涉及到的平均指標(算數平均數、中位數、眾數)、標志變異指標(標準差、方差、標志變異系數)、回歸系數(一元、多元)、極值計算(最大值、最小值、峰值)、抽樣推斷(樣本個數、置信區間)以及編制變量數列進行統計分組等等,都可以進行處理和計算,很直觀,也很適合統計人員使用。另外,還具有很強的制圖制表功能,同時可以對經濟預測提供相應的數學模型,是目前高校統計學習中的一種重要數據處理工具。

2.2SPSS在統計學中的應用

SPSS是StatisticalPackageForSocialSciences的縮寫,即社會科學統計軟件包,是目前國際上廣泛使用的統計軟件包之一,主要分布在保險、醫療、制造、銀行、證券、科研院所等各個領域。SPSS主要功能包括數據管理、數據分析、圖表分析和數據輸出等,集數據管理、分析與一體。主要內容包括均值比較、方差分析、主成分分析、回歸分析、時間序列分析、因子分析、聚類分析等等,每類中都有多個細小的專項統計方法。SPSS也有專門的繪圖系統,可以根據數據繪制各種圖形。具有操作簡便、編程方便、功能強大、全面的數據接口、靈活的功能模塊組合等優點,為統計人員處理數據提供方便。

2.3SAS軟件在統計學中的應用

SAS是StatisticalAnalysisSystem的縮寫,即統計分析系統,現已發展成為一個大型的模塊化集成軟件系統,融數據處理和統計分析于一體,具有數據倉庫管理、數據挖掘和集成數據訪問等功能,廣泛應用于醫藥、衛生、經濟學、政府、農業、教育部門等各行各業,幾乎滿足任何類型的數據和任何應用的需要。具有易學易用,操作簡便、完整可靠的特點。在統計學方面,可以進行一元線性回歸分析、相關分析、方差和協方差分析、時間序列分析、決策分析和經濟預測等等。SAS具有繪圖功能,能把存儲的數據以圖形的形式非常形象和直觀地顯示出來,不僅可以繪制直方圖、散點圖、扇形圖等,而且還能繪制地圖。另外,本身還有函數系統,用戶可以根據自己的需要選擇適合自己的模塊。SAS提供了幾乎所有最新的統計分析方法,其分析技術先進可靠,非常值得在統計學中學習和推廣。

3統計軟件運用過程中的相關建議

篇9

關鍵詞:數據挖掘能力;SPSS軟件;統計分析

中圖分類號:G647.38 文獻標志碼:A 文章編號:1673-291X(2013)05-0234-04

一、調查背景

隨著信息時代的迅猛發展,經濟研究對信息的需求與日劇增,面對海量數據,要從中提取出有用的信息,就需要人們掌握高級的數據挖掘方法與手段。這樣,就對高等教育的人才培養提出了更高的要求,需要培養以計算機為工具,利用各種數據分析方法去挖掘大量數據背后重要信息的能力,即數據挖掘能力。SPSS 軟件作為數據發掘的重要工具,在調查統計行業、市場研究行業、醫學統計行業、政府和企業數據分析應用中久享盛名,其提供了數據獲取、數據管理與準備、數據分析、結果報告這樣一個數據分析的完整過程,操作性強。因此,SPSS軟件課程的開設對于當今經濟管理類的大學生是非常有必要的。

本次調研通過對680名受訪者(湖南商學院學生)對SPSS軟件的認知程度、對SPSS課程相關要求和對學校硬件軟件支持的期望等方面的調查,了解大學生對SPSS軟件的認識程度,并為提高大學生數據挖掘能力和SPSS課程的推廣提供可行性建議。

二、調查對象

本次調查主要針對于湖南商學院在校大學生進行的調查,調查樣本屬自愿樣本。本次調查共發放680份問卷,回收有效問卷649份,有效回收率為95.44%。

有效問卷中從性別來看,男性占47.6%,女性占52.4%,比男性多了3.8個百分點,這符合商學院性別比例“女多男少”的現狀。從年級來看,受訪者主要集中在大四,大一最少,大二大三居中。大學生隨著學習的積累、生活的豐富,更加有意見發表,這讓本次的調研成果更加有信服力。從學院來看,受訪者來自12個學院,各學院人數從9人到319人不均勻分布。受訪者人數最多的前4個學院中,工商管理學院占53.3%,會計學院占13%,經貿學院占7%,財政金融學院占5.2%。這4個學院的學生人數在學校的占比都是很大的,因此,更有代表性。本次調查的受訪者來自33個專業,人數最多的為市場營銷專業,有174人,最少的是旅游管理專業,有9人。專業的廣泛性,使得本次調查更為全面。

三、調查方法

本次調查采用自填式調查問卷進行訪問,問卷由SPSS軟件認知、數據分析能力的自我認知、SPSS課程的認知及相關要求和個人基本信息四個部分共25個問題組成,調查報告運用SPSS19.0進行統計分析。

四、SPSS軟件對學生數據挖掘能力培養調查結果及分析

本次調查主要從SPSS軟件的認知情況、數據分析能力的自我認知、SPSS課程的認知及相關要求和職業意向四方面對受訪者進行調查,意在了解湖南商學院學生的數據挖掘能力現狀、對SPSS課程的期望度、對SPSS軟件的認知和SPSS軟件學習環境的要求與期望。

(一) 受訪者對SPSS的認知情況

在對湖南商學院學生對SPSS軟件認知的調查中,發現受訪者對SPSS的了解途徑以課程選擇和師友口碑為主,且大部分學生對SPSS軟件的認知度不高,對其功能了解不全面,對SPSS軟件的操作也不是很熟練。

1.受訪者對SPSS的了解程度不高

表 1 不同年級的受訪者對SPSS軟件的了解程度 單位:%

表1中數據顯示,40.4%的受訪者對SPSS軟件只有“一般”了解,23.5%的受訪者表示“不了解”,17.5%表示“很不了解”,對SPSS不了解的比例超過40%,可見該軟件沒有得到廣泛的推廣。另外有17.7%的受訪者表示“比較了解”,僅0.8%的受訪者表示“非常了解”。

從年級分布看,大一群體中近80%的人表示“不了解”;大二群體中“不了解”的比例將近65%,但有9%的人對該軟件比較熟悉;大三群體中,“不了解”的比例下降到45%,“了解”的比例達到15.9%;而大四群體中僅有27.3%表示不了解,而“了解”的比例擴大到24.7%。

隨著學習的深入,學生將有越來越多的機會接觸到SPSS軟件,并在不同程度上加以運用;另一方面也反映出了低年級階段對該軟件的運用度不夠,需要加大對這些群體的教育投入。

2.對SPSS的了解途徑以課程選擇和師友口碑為主

圖 1 受訪者了解SPSS軟件的主要途徑

圖1顯示,受訪者中對SPSS的了解有40.1%是通過“課程的選擇”,28.6%是在“學校老師同學的推薦”下了解到的,“做調查統計數據”了解的占21.8%,從“計算機相關書籍上”了解到的占6.4%,在“網絡上遇到”和“觀看別人演示”而了解的各占了1.4%。可見,“課程選擇”、“老師同學推薦”和“調查統計的需要”是受訪者了解SPSS的三大主要途徑,比重合計超過90%。

3.受訪者大部分使用過SPSS但不熟練

在訪問者中,63.0%的受訪者對SPSS軟件的接觸停留在“學過,實際上操作過但不熟練”這個層面;16.2%的受訪者表示“了解SPSS軟件,但沒接觸過”;還有15.6%的受訪者表示“上課學過,但沒用過”;僅有5.3%的大學生“操作SPSS軟件非常熟練”。可見,絕大部分的學生還處在對SPSS運用的表面階段,操作能力還需要進一步加強。

4.大部分同學認為SPSS軟件是專業數據統計分析軟件,且大部分同學對SPSS軟件的功能認識但不全面。

從圖2中可以看出,有81.5%的同學認為SPSS軟件是“專業的數據統計軟件”,77.9%的同學認為“能對數據進行分析的便利軟件”,41.2%的同學選擇“增強人數據分析能力的工具”,36.7%的同學認為SPSS軟件是“一門數據統計的課程”,選擇 “制作圖標的軟件”和“能保存很多數據的數據庫”分別占21.8%和21.6%。在第一印象中,認為SPSS是“數據統計和分析的軟件”,合計超過總數的80%,說明絕大部分的人對SPSS有一定的認知。

圖 2 受訪者對SPSS軟件的印象

對于SPSS的功能,同學們了解最多的是“數據輸入”和“數據整理”,占比分別為66.0%和53.4%;其次是“圖表制作”和“分析報告”,占比分別為27.8%和29.2%;了解“建立模型”、“相關性分析”、“探索分析”、“交叉分析”、“結果”和“預測分析”功能的分別為23.0%、20.5%、17.1%、16.9%、11.8%、10.7%;僅有5.3%的大學生“了解所列出的全部功能”。可見,學生對SPSS軟件功能的了解很局限,因此,SPSS教學應給予學生更多的操作機會,讓學生對SPSS了解更全面。

(二) 受訪者自身數據分析能力狀況

在數據分析能力自我認知調查中,大部分的受訪者對自身的數據挖掘能力不認可且具有學習SPSS課程的基礎,并期望能熟練或者獨立操作SPSS軟件,但受訪者大都不愿意主動接受SPSS課程。

1.大部分專業開設了與SPSS相關的課程

受訪者中70.9%學過《統計學》,32.1%學過《SPSS在經濟管理中的運用》,26.4%學過《市場調查與預測》,19.7%學過《計量經濟學》,有17.9%的受訪者沒有接觸過與SPSS相關的課程。

在受訪者認為學好SPSS需要提前了解的知識的調查中,超過65%的受訪者認為學好SPSS需要提前了解《統計學》,其次有近16%的受訪者認為要提前了解《市場調查與預測》,認為要提前了解《概率論》、《計量經濟學》、《高等數學》的受訪者分別只占7.2%、5.5%和4.5%。

可見大部分的學生有接受SPSS課程的基礎,且大部分同學認為提前掌握《統計學》和《市場調查與預測》的知識對于學習SPSS有幫助。

2.大部分學生認為自身數據分析能力差,而且大部分同學對自己的數據挖掘能力不認可

受訪者中48%認為自己“能力一般,會對數據進行一些簡單的分析”;認為自己“能力非常差,不會對數據進行分析”和“能力較差,分析數據時需要參照別人成果進行分析”分別占12.9%和20.8%;認為“能力較好,不僅能掌握數據的主要核心,還能根據已有數據進行擴展性分析”的占16.3%;只有1.8%的受訪者認為自己“能力非常好,數據概括能力強”。

圖 3 受訪者對自身數據分析能力的自我評價

在對自身數據分析能力滿意度調查中,受訪者對自身數據分析能力不滿意的將近40%,對自身數據分析能力滿意的只占13.1%,持一般態度的人群占據了總人數的一半左右。可見,大多數人對自身數據分析能力并不認可,顯然SPSS課程的開設是有必要的。

3.受訪者大都不愿意接受SPSS課程

圖4顯示,在是否愿意接受SPSS課程的調查中,受訪者選擇“不愿意”和“非常不愿意”的分別占44.2%和23.7%,合計67.8%; “非常愿意”和“愿意”的分別只占了4.5%和10.9%。

圖 4 受訪者是否愿意接受SPSS軟件

結合圖3來看會發現一個矛盾:雖然超過80%的人不認可自身數據分析能力,但愿意接受SPSS課程的只有15.4%,遠遠低于不愿意接受的人群。一方面學生對自身數據分析能力不認可,另一方面卻又不愿意主動接受SPSS課程。原因很多:首先,《SPSS課程》在學生群體中并沒有形成廣泛的影響力,還處在一種被接受的過程。其次,SPSS軟件操作不是十分深奧,但許多學生對統計軟件、統計分析望而卻步或者即便會用,也經常犯一些很基本的錯誤或者計算出來的結果不知道該如何解釋,甚至看不懂軟件結果。這就要求教師在教學過程中,還應告訴學生“為什么選用這種方法”。教師在教學過程中應該激發學生聯系自己的專業,認識到從實驗設計著手就需要“統計知識”的參與,為提高自己的分析能力奠定基礎。

4.學生更期望能熟練或者獨立操作SPSS

在對自身數據能力的期望上,受訪者中60.4%的期望“能熟練地操作SPSS軟件”;40.2%的期望“能獨立自主運用SPSS軟件完成報告”;39.2%的期望“達到未來工作崗位對數據分析能力的一般要求”;38.9%的期望“提高自身對數據提取概括的能力”;37.1%的期望“能對數據進行拓展相關性分析”;29.4%的期望“能運用多種分析方法,并熟練作圖”。受訪者期望在能熟練掌握數據分析的基礎上獨立撰寫報告并滿足將來職業發展的需要,SPSS課程教師應設計一套系統的教學方式來引導學生去學習SPSS。

(三) 受訪者對SPSS課程的認知及相關要求

在SPSS課程的認知及相關要求的調查中,受訪者最期待SPSS課程作為專業必修和專業選修,課程教學能理論與實際結合,考試能以實踐課程、小組合作和機試這些形式,且課時不少于32個;學生們期待在SPSS課程學習中能得到學校在學習設備、專門實驗室和雄厚的師資力量等方面的支持,并提供最新的SPSS軟件和實踐機會。

1.經管類學生認為學習SPSS的最佳時期是大二,最佳課時不少于32個

學習SPSS的最佳學期,受訪者中選擇“二年一期”的占28%,“三年一期”的占18.9%;,“二年二期”的占17.2%,“一年二期”的占16.2%;選擇“一年一期”、“三年二期”和“四年一期”的分別只占8.7%、7.8%和3.2%。

在最佳課時調查中,超過90%的人認為學習SPSS的課時至少需要32個課時,這說明受訪者愿意花時間來學習該課程來掌握數據分析的能力。可見,適宜的學習時期以及更多的課時是學生所期望的,這為學校設計SPSS課程提供了參考。

2.學生更期望SPSS課程作為專業必修和專業必選課程

圖 5 受訪者期望SPSS軟件的上課形式

受訪者期望SPSS課程作為專業必修課的占39.70%,期望作為專業任選課程的占26.50%,期望作為專業限選和人文選修的分別占22.30%和11.50%;期待SPSS課程作為專業必修和專業任選的合計達到66.2%。可見,受訪者對SPSS課程還是比較重視的。

3.SPSS課程以理論與實際相結合的教學方式,實踐課題、小組合作和機試的考試形式是最受學生歡迎的

受訪者中59.1%的期望SPSS課程是“理論講解與上機實踐結合”的形式,35.2%的期望采用“上機實踐”的形式,選擇“理論講解”和“研討會”兩種形式的分別只占3.7%和1.7%。理論與上機實踐結合形式是受訪者更愿意接受的,實際上這種形式能讓學生更好地理解和掌握該課程。

在期望的SPSS課程考試方式調查中,受訪者中選擇 “社會實踐做課題”近30%,“小組合作形式”和“上機考”分別占25.5%、25.9%,希望以“閉卷考試”、“開卷考試”和“論文”分別為2.7%、7.3%和8.7%。顯然“社會實踐做課題”、“小組合作形式”和“上機考”是學生最期望的,這也表明大部分受訪者認為這門課程應該更加注重實踐操作能力。

4.在SPSS教學過程中資歷豐富、結合案例教學的教師更被青睞

受訪者在對授課老師的第一要求中,55.1%的選擇了“資歷豐富”,10.2%選擇了“企業實戰背景,豐富的案例輔助”,9.7%選擇了“互動參與性強”,其他選項作為第一要求的受訪者相對而言較少。

受訪者中70.8%的認為SPSS課程的授課老師要“資歷豐富”,44.4%的期望授課老師有“企業實戰背景,豐富的案例輔助”,36.9%的選擇了“互動參與性強”;期望授課老師“理論性強,具有系統性及條理性”和“耐心解答學生問題”分別占29.6%和27.9%;期望老師“認真備課”、“有成功案例”和“激情澎湃,有感染力和號召力”的分別為18.6%、17.7%和12.4%。大部分的受訪者希望授課的老師資歷豐富,有實戰背景并且能與學生充分互動,相當一部分的受訪者希望老師授課有系統的理論知識,并且能夠耐心解答學生問題,在“認真備課”、“有成功案例”和“上課有激情”三個方面對授課老師也有一定的要求。可見,同學們對老師的上課風格很是在意,這可能直接影響到學生對課程的興趣。

5.學生期待有良好設備、專門的數據分析實驗室和雄厚的師資力量等硬件支持

受訪者中78.5%的認為要學好該課程學校應 “建立專門的數據分析實驗室”,78.3%認為要“更新或維護好電腦設備”,71.2%認為要“配備更多的優秀師資力量”,認為要“進行學生數據分析能力大賽”和“購買更多專業方面的書籍”分別為45.8%和25.8%。學生們認為學好SPSS這門課程學校應該支持“電腦設備”、“師資力量”和“數據分析實驗室”三個方面。當然學校能支持學生“進行數據能力分析大賽”和“提供更多的專業書籍”,可以更好地輔助SPSS的學習。

6.學生期望在SPSS學習過程中有最新SPSS軟件和實踐機會支持

受訪者中88.2%的認為要學好該課程要“購買或安裝SPSS最新軟件”,81.4%期望有“提供更多的實踐機會”,67.9%期望有“提供資金支持”,期望有“政策上給予關注”和“舉辦專場講座”分別為31.2%和30.8%。最新的SPSS軟件、更多的實習機會是學生最為期待的,因為軟件方面支持到位了對于SPSS課程的授業而言就相當于擁有良好的內部環境。也有相當一部分的受訪者希望學校能從“政策”和“專場講座”兩個方面給予支持,這幾點也值得重視。

五、建議

SPSS軟件和其他一些統計軟件一樣,不能夠對模型的適應性做出判斷,模型選擇的正確與否依賴于使用者對資料的了解程度與統計分析方法的掌握程度。主觀上,大部分同學希望提高自身的數據挖掘能力;客觀上,各行各業都要求人們掌握高級的數據挖掘方法與手段,可見SPSS課程的開設是有必要的,但調查發現多數同學不愿意接受SPSS課程的學習。因此,開設SPSS課程有利于培養學生的實踐能力,提高學生的職場競爭力。為此,筆者提出以下建議。

(一)加強SPSS軟件在商科院校學生中的宣傳推廣力度

通訊、醫療、財會、銀行、證券、保險、制造、商業、市場研究、科研教育等多個領域和行業都要求掌握一定的數據處理分析的能力,因此,學好SPSS軟件無疑對以后參加工作會起到錦上添花的效果。而要使學生接受SPSS軟件,首先得加大SPSS軟件在學生中的宣傳推廣。

筆者認為,可以鼓勵校園內SPSS軟件愛好者在SPSS課程相關老師的指導下,成立“SPSS數據處理社團”以進行全校性質的宣傳推廣;定期或不定期舉行與SPSS軟件相關的活動,如SPSS數據分析大賽等。

(二)結合學生需求,以適當的形式在各專業各年級開設SPSS軟件課程,以達到更好的教學效果

開設該課程前,先開設與SPSS課程的相關基礎課程,如統計學、市場調查與預測等,用以輔助SPSS軟件的學習;上課注重理論結合操作,以學生自主上機為主老師講解為輔,配以數據分析題,讓學生以小組課題形式完成對SPSS課程的學習。

(三)校方努力滿足SPSS軟件課程所需軟硬件設施,以輔助達到更好的開課效果

加強師資隊伍的建設,及時更新SPSS課程相關老師的知識儲備,以適應SPSS軟件不斷更新的需要;校方應投入一定資金,及時更新SPSS軟件;校方應及時更新校計算機系統、操作平臺等;再者,學校可以適時建立數據分析實驗室。

(四)處理好學生能力不足與教學要求之間的矛盾

對SPSS軟件各功能原理的學習,是讓很多學生特別是非統計學專業的學生頭痛,因此,教師應因材施教,在講授過程中簡要介紹各種分析方法的基本原理,重點介紹不同的分析方法的功能和目的,并通過實際案例讓同學們了解分析方法的實際應用,并學會解讀分析結果。在教學中采用與授課學生專業相近或者有較強現實意義的連貫性案例數據資料,這樣有助于學生把SPSS各個操作菜單聯系起來,使學生懂得每個操作選項背后的實際意義,增加數據挖掘的能力,培養學生以數據思維模式來解決實際研究問題。

(五)建立“以學生為主體”的教學和管理模式

在SPSS課程教學中引導學生融入課程學習,激發其學習的潛能,將學生作為教與學的主體,變被動為主動;在管理中激勵學生參加教學活動,盡量減少學校的強制行為,增加學生自制的范圍。學校在重視SPSS課程理論教育的同時,應該高度重視實踐應用尤其是加強動手能力的教育,在內容與方式上變畸重式教育為促進學生全面發展、健康的教育。

參考文獻:

[1] 陳曉毅.統計學教學與SPSS軟件結合的研究[J].廣西財經學院學報,2009,(10):179-181.

[2] 竇清.基于金融市場綜合實驗室的SPSS 實驗教學的思考[J].實驗室研究與探索,2007,(4):22-36.

[3] 高莉.SPSS軟件在統計學教學中的應用[J].校園心理,2010,(6):414-415.

[4] 韓勝娟.高校經濟管理類專業SPSS 軟件教學的探討[J].現代企業教學,2007,(16):178-179.

[5] 何琳.SPSS軟件在廣西教育科學研究領域的應用分析[J].廣西教育,2011,(27):99-101.

篇10

關鍵詞:統計學專業 專業素養 理論教學 綜合實踐教學 統計軟件

統計學是研究統計原理和方法的科學。具體地說,它是研究如何收集、整理、分析反映事物總體信息的數據資料,并以此為依據,對總體特征進行描述和推斷的原理和方法。其顯著特點是可以與整個自然科學、社會科學相結合,可以與計算機科學、信息科學相結合,處理各個領域的數據分析與統計推斷問題,是一門方法論學科。統計學專業主要包括理學類統計和經濟統計兩類專業方向,培養具有良好的數學或數學與經濟學素養,掌握統計學的基本理論和方法,能熟練地運用計算機分析數據,能在企業、事業單位和經濟、管理部門從事統計調查、統計信息管理、數量分析、市場研究、質量控制以及高新技術產品等開發、應用和管理工作,或在科研、教育部門從事研究和教學工作的高級專門人才。特別地,在大數據時代,把統計學人才培養成數據科學家是在新時代統計學發展的必然趨勢。

根據統計學的專業特點及人才培養目標,在統計學專業的人才培養方案中,專業類基礎課程包括數學分析、高等代數、解析幾何等數學類課程,這對剛步入大一的新生來說,無疑是一個前所未有的挑戰:一方面,這幾門數學類課程比高中數學的難度增加了幾個等級;另一方面,對數學基礎不好或厭倦學數學的同學來講,原以為經過高考后,不選擇數學專業就可以不再學習深奧的數學,可事與愿違,選擇統計學專業仍然離不開為數不少的數學類基礎課程。因此,結合統計學專業教育的實際情況,可能會出現這樣一些現狀:有些統計專業的大一新生以為學統計就是學數學,覺得太難,枯燥無味,就給統計貼上了數學的標簽,未經深思熟慮就想轉專業,漸漸失去學習的興趣和動力。由于大一時沒有打好數學基礎,有些大二以上的學生對待專業學習時態度消極,經常感覺很茫然,學無所獲、虛度光陰,專業課的學習入門難;由于缺乏對統計學專業的認識,有些畢業班的學生面臨就業時不想找與統計專業對口的工作,盲目擇業,既弱化了專業競爭力,又耽誤了未來的發展。這些現象可以認為是對統計專業認知不良的表現,反映了部分統計專業學生對自己所學的專業認識不深、動機不強、缺少認同。因此,在統計專業教育教學的各個環節,采取多種有效的措施增強統計專業學生專業素養的培養顯得尤為重要!下面結合重慶理工大學統計學系(理學類統計)多年來在培養統計學專業學生時,討論了從專業教育、理論教學、統計軟件教學、實踐教學、專家講座等方面專注培養學生的專業素養的探索與實踐。

一、對于新生的專業教育,可以以專業導學課的形式,第一時間給予學生專業引導,使學生對所學專業有一個清晰的、宏觀的認識

導學課的課時以16課時或一個學分為宜,內容上除了介紹統計學專業的人才培養目標、教學計劃、課程設置、實踐教學,還要系統地進行統計學專業的發展歷史和現狀、發展趨勢、前沿的專業技術、就業前景等內容的講解。特別地,由于在大數據時代,把統計學人才培養成數據科學家是在新時代統計學發展的必然趨勢,可以結合大數據時代對統計學人才培養提出的新要求,明確大學四年的學習任務的艱巨,讓他們做到心中有數。通過入學教育,盡早地讓學生接觸專業,了解專業,做到先入為主,讓學生樹立遠大的目標。

二、對于理論教學,要把握好一些關鍵的專業課程

統計學或描述性統計學課程,作為統計學專業的第一門專業基礎課程,應由教學經驗豐富、專業知識淵博、上課幽默風趣、深受學生喜愛的資深教師擔任。把這門課程上好了,能使學生了解統計學與數學的區別,從而消除學統計就是學數學的誤解;使學生了解統計學的歷史、現狀及發展前景,從而了解統計學專業學生具有極寬的就業面;結合對實例的講解,使學生感覺“統計是無所不能的”,從而對統計學產生較濃的興趣,愛上統計學。在教師講授核心課程,如《多元統計分析》《時間序列分析》《統計質量管理》《抽樣調查》《應用回歸分析》等課程時,要多搜集實際案例,采用案例驅動法教學,消除理論課程的枯燥、乏味,便于充分調動學生的學習積極性、投入到課程教學中來。教師要組織學生開動腦筋,運用課程知識解決與實際應用有關的一些統計問題。由于統計學的問題總是來自于學科外部,故要強調實踐,要求學生會利用統計軟件和相應的統計知識對實際數據做分析,并對結果給予合理的解釋以及說明應用價值。在教學中對這些課程把握好是培養學生專業素養的重要一環。

三、對于統計軟件的教學,如在SPSS、R、SAS等的教學過程中,讓學生真正掌握算法的原理以及軟件的操作,并深入思考算法的實現與相關理論的指導作用

“大數據”環境下,對統計人才的需求也發生了變化。這就要求在教學過程中,加強統計軟件的教學。在進行統計軟件課程的講授時,學生已具備一定的專業基礎知識,但知識體系偏理論,由于缺乏應用和分析工具,導致知識理解不深刻,專業知識零散,整體感弱。統計軟件是統計學專業學生學習和研究必不可少的工具。要求學生掌握一至兩門統計軟件,具備數據分析的操作能力。教師在講授該課程時,注意與其他課程理論講解的不同:模擬直觀,展示理論含義;逐步計算,展示理論過程。學生初學時,可能覺得使用統計軟件獲得一些分析結果非常容易,殊不知,要獲得正確的答案并不容易,教師應強調學生對相應的統計方法要有透徹的理解;統計軟件的輸出總有一系列的結果,要從中找到對問題分析有用的結果,并能結合實際對結果進行合理的解釋。從而通過系統學習統計軟件,使學生又一次加深對專業知識的理解,加強知識體系的整體感。由于統計軟件的學習沒有理論知識那么枯燥,學生更容易去上機實現,但又得避免學生一味地重視操作過程,而忽視正確的統計方法的選擇。甚至有學生大學四年下來就記住了怎么用軟件輸出結果,至于哪些結果有用,哪些沒用,分得并不清楚,只是將輸出結果全列出,看不懂輸出結果,更談不上是否選擇了正確的統計方法了,出現這樣的現象就在于學生將統計軟件等同于統計方法。因此,在教學過程中,應特別強調:統計軟件只是幫助進行統計計算的工具,能否恰當用好這個工具,在于你對統計方法掌握的程度。

四、對于綜合實踐教學,強調統計數據、計算機編程以及統計分析軟件的結合

在綜合實踐教學中,首先突出典型案例教學,由易到難,通過典型案例教學逐步讓學生掌握不同結構和數量的數據處理的基本技術,提高學生進行實際數據分析與處理的能力;當進入大四時,幾乎所有的專業核心課程都已經學習完畢,就可以逐步過渡到以數據驅動為主的教學模式,訓練學生在處理實際問題時選擇正確的統計方法的能力。尤其是在“大數據”時代背景下,目標是培養符合市場需求的專業統計分析人才(或稱為數據科學家),而合格的能進行統計分析的人才的培養必須經過一定量的統計實踐訓練。諸如統計數據平臺,金融數據庫,大數據展示平臺及大數據問卷調研系統等,教師可以根據需要用到課堂教學中。

校外專業實習是實踐教學中的重要一環。專業實習能起到從學校向社會過渡的橋梁作用。通過校外專業實習,可以讓同學們對自己、對工作有更具體的認識和客觀的評價;可以讓同學們明白許多書本上沒有的或原來理解不深刻的知識,感覺到實際工作與課本中學到的知識的差距,增強理論聯系實際的能力;可以帶動學生了解和掌握整個數據分析實踐的流程,激發學生學習的興趣,塑造更好的自我。

另外,可以積極鼓勵高年級學生參加統計建模競賽。通過競賽,激勵廣大學生學習統計、應用統計的積極性,提高運用統計方法、建立統計模型、利用計算機技術解決實際問題的能力,培養創新精神,提升統計專業學生的綜合素質。

五、對于擴大學生的專業知識面與就業面,可定期或不定期以專題講座或學術報告的形式體現

通過邀請國際國內統計學家來校講學,讓學生了解統計前沿及當今熱點問題,可為有志于進一步深造的優秀學生指明方向。由于統計學的應用滲透到各個領域,可邀請相關行業專家來校講座或聘請其為兼職導師,讓學生真正了解統計學在各行業的應用,進一步激化他們的學習興趣。

以上只是筆者結合重慶理工大學統計學系多年來在培養統計學專業學生專業素養的一些有益探索及實踐來進行總結,還有未盡之處,需要在實際中進一步地總結及摸索。尤其是在大數據背景下,對統計學教育提出了更高更實際的要求,人才的培養和供應方面如何與時俱進是當前面臨的典型問題,需要不斷地探索與實踐。

參考文獻:

[1]胡愛平,肖枝洪,蘇理云,伍度志,陳彩霞.從就業前景談統計學專業學生應具備的專業素質[J].中國校外教育,2013,(3):120-120.

[2]黃介武.淺析大數據環境下的統計學課程教學[J].課程教育研究,2014,(8):235-235.

[3]劉曉東,宗義湘,白麗.地方農業院校統計學專業實踐教學改革技術路線圖[J].河北農業大學學報(農林教育版),2012,(4):37-40.

[4]邱東.大數據時代對統計學的挑戰[J].統計研究,2014(1):16-22.

[5]李君.統計學專業就業前景以及課程介紹研究[J].科技與企業雜志,2012,(9):224-224.

[6]張海波,黃世祥.統計學專業學生大數據分析能力的培養方式選擇[J].統計與決策,2014,(24):66-68.

[7]徐秋艷.統計學專業校外實習基地的建設[J].實驗室研究與探索,2012,(4):152-154.

[8]王炯琦,吳翊,周海銀.美國一流統計學專業課程設置現狀研究[J].高等理科教育,2012,(3):61-64.

[9]蘇理云,高紅霞,胡愛平,陳彩霞.以數據分析為核心的應用統計學人才課程體系構建[J].教育教學論壇,2014,(12):248-249.

[10]蘇理云,葉志勇,劉仁彬,劉鋒,高紅霞,胡愛平.一般本科院校統計學本科實踐環節的系統設計與優化,中外教育研究,2011,453(4):20-21.

[11]蘇理云,葉志勇,李鳳蘭.案例驅動和課題帶動的統計學應用課程教學模式探索,中國科技縱橫,2010,90(6):121-121.

[12]蘇理云,葉志勇,李姣軍.案例教學在統計學專業課中的應用.重慶理工大學學報(自然科學版),2009,23(s2):131-132.