統(tǒng)計學(xué)樣本的概念范文
時間:2023-07-10 17:19:32
導(dǎo)語:如何才能寫好一篇統(tǒng)計學(xué)樣本的概念,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:大數(shù)據(jù);海量存儲;數(shù)據(jù)挖掘;標(biāo)本庫;醫(yī)學(xué)生物信息;數(shù)據(jù)挖掘
隨著信息技術(shù)在醫(yī)學(xué)臨床和科研中的應(yīng)用,臨床醫(yī)學(xué)、生物學(xué)、信息學(xué)發(fā)生了一次交叉融合, 這種以生物大數(shù)據(jù)信息是未來生物醫(yī)學(xué)研究發(fā)展的核心點。這種以海量、高維度、數(shù)據(jù)變量復(fù)雜、為特征的數(shù)據(jù)結(jié)構(gòu), 需要我們在傳統(tǒng)的醫(yī)學(xué)基礎(chǔ)之上集數(shù)學(xué)、統(tǒng)計學(xué)、工程學(xué)、計算機信息科學(xué)的交叉綜合、理論和實驗相結(jié)合,建立新的新方法和手段。使得我們的臨床醫(yī)學(xué)模式從經(jīng)驗醫(yī)學(xué)進一步向循證醫(yī)學(xué)轉(zhuǎn)變,無序醫(yī)療向著有序醫(yī)療發(fā)展,醫(yī)學(xué)研究也會進入從發(fā)現(xiàn)、研究、驗證、應(yīng)用到再發(fā)現(xiàn)、再研究、再驗證、再應(yīng)用的迭代式良性循環(huán)過程中。
1實現(xiàn)大數(shù)據(jù)的大價值是醫(yī)學(xué)信息建設(shè)的新目標(biāo)
信息化時代各行業(yè)信息數(shù)據(jù)量呈現(xiàn)指數(shù)上升,醫(yī)療行業(yè)的數(shù)據(jù)信息增長更快。經(jīng)研究表明,未來10年醫(yī)學(xué)數(shù)據(jù)將高爆式地增長,其增長來源于醫(yī)院醫(yī)療信息運行數(shù)據(jù)的積累、新的臨床信息系統(tǒng)的嵌入(如電子病例系統(tǒng))、新醫(yī)療診療設(shè)備接入等。隨著醫(yī)學(xué)的進步以生物芯片為代表的高通量生物技術(shù)的飛速發(fā)展,基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)的信息也會涌入醫(yī)學(xué)生物信息領(lǐng)域。這種大量高速增長的數(shù)據(jù)被稱之為海量數(shù)據(jù)或者大數(shù)據(jù)(big data)。大數(shù)據(jù)的特點是海量、高維度、數(shù)據(jù)變量復(fù)雜、分析處理復(fù)雜。
隨著信息技術(shù)在醫(yī)學(xué)臨床和科研中的應(yīng)用,臨床醫(yī)學(xué)、生物學(xué)、信息學(xué)發(fā)生了一次交叉融合,形成了生物醫(yī)學(xué)信息學(xué)(Biomedical Informatics)。這種以生物大數(shù)據(jù)信息是未來生物醫(yī)學(xué)研究發(fā)展的核心點。我們可以看到,生物醫(yī)學(xué)領(lǐng)域的大數(shù)據(jù)時代正在來臨,其發(fā)展將促使我們盡快構(gòu)建一個實時、便捷、全方位的醫(yī)學(xué)生物信息挖掘和應(yīng)用系統(tǒng)。在醫(yī)學(xué)信息研究方面,我國還主要處在對醫(yī)療流程的信息化管理、質(zhì)量控制等初級階段,尚未開展面對"大數(shù)據(jù)"挖掘的系統(tǒng)研究與應(yīng)用,但這種研究與挖掘應(yīng)用必將成為生物醫(yī)藥科學(xué)技術(shù)發(fā)展的趨勢。大數(shù)據(jù)時代的到來,既對臨床醫(yī)生、研究人員、醫(yī)院管理者、醫(yī)療監(jiān)管機構(gòu)等都提出了巨大的挑戰(zhàn),也為生物醫(yī)學(xué)研究帶來了前所未有的機遇。生物醫(yī)學(xué)領(lǐng)域里科學(xué)研究的一個重要發(fā)展趨勢就是數(shù)據(jù)驅(qū)動。以前進行實驗研究的目的是獲得結(jié)論或者是提出一種新的假設(shè),大數(shù)據(jù)技術(shù)通過對海量數(shù)據(jù)的研究來探索其中的規(guī)律,可以直接提出假設(shè)或得出可靠的結(jié)論。
當(dāng)前,以臨床醫(yī)療信息為基礎(chǔ)的計算機信息系統(tǒng)可擴展到多個相聯(lián)的信息系統(tǒng),包括:電子病例系統(tǒng)、隨訪信息管理系統(tǒng)、實驗室信息管理系統(tǒng)、生物信息分析系統(tǒng)、基因組學(xué)數(shù)據(jù)庫系統(tǒng)、藥物臨床試驗信息系統(tǒng)等,在醫(yī)學(xué)科研與臨床應(yīng)用之間架起了一道不可或缺的橋梁。收集大數(shù)據(jù)、整合大數(shù)據(jù)、處理和分析大數(shù)據(jù),形成價值密度高、利用價值高的數(shù)據(jù)資源體系,實現(xiàn)"大數(shù)據(jù)"的"大價值",是醫(yī)學(xué)信息建設(shè)的新目標(biāo)。
2大數(shù)據(jù)挖掘?qū)⒈P活醫(yī)學(xué)生物信息資產(chǎn)
醫(yī)學(xué)生物信息的大數(shù)據(jù)包括醫(yī)療對象以及與醫(yī)療對象相關(guān)的信息特征集合,生物標(biāo)本以及與生物標(biāo)本信息相關(guān)的特征集合,這些大數(shù)據(jù)集帶有自己的、潛在的、未被揭示的規(guī)律趨勢特征,這才是醫(yī)學(xué)生物信息價值的核心所在。這些醫(yī)學(xué)生物信息是我們進行用于人類健康研究價值的資產(chǎn),研究、分析、挖掘海量醫(yī)學(xué)生物信息就是盤活人類健康研究的資產(chǎn)。數(shù)據(jù)挖掘,也稱知識發(fā)現(xiàn),是盤活這些寶貴的醫(yī)學(xué)生物信息資產(chǎn)的有力工具。
大數(shù)據(jù)的挖掘和應(yīng)用不同于傳統(tǒng)的采樣分析法,它有自身的一些獨特特點,如:①大數(shù)據(jù)挖掘分析與事物相關(guān)的所有數(shù)據(jù),而非少量數(shù)據(jù)樣本,研究的樣本數(shù)量趨近于總體數(shù)量;②大數(shù)據(jù)挖掘追求的是效率和趨勢,而非絕對的準確性;③大數(shù)據(jù)挖掘更多關(guān)注事物的相關(guān)關(guān)系而非因果關(guān)系,這種信息與信息之間的相關(guān)關(guān)系會提醒我們某件事情正在發(fā)生。
同時,從數(shù)據(jù)中發(fā)現(xiàn)價值的實踐也由來已久。橫跨數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)和機器學(xué)習(xí)等交叉學(xué)科和技術(shù)的數(shù)據(jù)挖掘是大數(shù)據(jù)分析的基礎(chǔ),傳統(tǒng)的數(shù)據(jù)分析實踐是無法適應(yīng)大數(shù)據(jù)的發(fā)展的。
近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注。其主要原因是,由業(yè)務(wù)系統(tǒng)產(chǎn)生的大量數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,并廣泛使用于業(yè)務(wù)中。獲取的信息和知識可以廣泛用于各種實踐應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等領(lǐng)域。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想和方法:統(tǒng)計學(xué)、人工智能、模式識別、機器學(xué)習(xí)等。數(shù)據(jù)挖掘的很多算法都采用了以上領(lǐng)域中的理論算法、建模技術(shù)和學(xué)習(xí)理論等。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化技術(shù)、進化計算、信息論、信號處理、可視化和信息檢索技術(shù)等。數(shù)據(jù)挖掘也需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理得支持。源于高性能并行計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是也重要的。分布式計算技術(shù)也能有效地幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要的[2]。
醫(yī)學(xué)生物信息的數(shù)據(jù)挖掘應(yīng)用比較廣泛,醫(yī)學(xué)樣本庫領(lǐng)域的應(yīng)用就是其中的一個實例。通過建立臨床醫(yī)學(xué)樣本信息篩選和偵測交互信息平臺來建立協(xié)作樣本庫和虛擬樣本庫。建立樣本庫協(xié)作單位的協(xié)作機制、嚴格的樣本篩選策略(根據(jù)研究項目協(xié)議和國家地方相關(guān)標(biāo)準診斷、歸轉(zhuǎn)標(biāo)準[5-7])、應(yīng)答式的標(biāo)本收集機制、樣本區(qū)域內(nèi)(研究機構(gòu)、轉(zhuǎn)化中心、醫(yī)院)權(quán)利共享機制,以建立全新模式、響應(yīng)一致、反應(yīng)迅速、整齊劃一的樣本收集研究管理的體系。建設(shè)樣本從標(biāo)篩選、采集、管理策略運轉(zhuǎn)的實例,是以一個研究中心結(jié)合4~5個醫(yī)院以及4~5個樣本篩選醫(yī)院,建立研究臨床醫(yī)學(xué)轉(zhuǎn)化知識發(fā)現(xiàn)和研究驗證系統(tǒng)信息平臺和建立臨床醫(yī)學(xué)樣本信息篩選和偵測交互信息平臺的基礎(chǔ)。
醫(yī)學(xué)生物信息的數(shù)據(jù)挖掘應(yīng)用的另一個實例是醫(yī)學(xué)科研。生物醫(yī)藥領(lǐng)域里科學(xué)研究的一個重要發(fā)展趨勢就是數(shù)據(jù)驅(qū)動。以前進行實驗研究的目的是獲得結(jié)論或者是提出一種新的假設(shè),而現(xiàn)在通過對海量數(shù)據(jù)的研究來探索其中的規(guī)律,可以直接提出假設(shè)或得出可靠的結(jié)論[8]。另一方面,必須清楚的是,大數(shù)據(jù)作用與價值的重點在于能夠引導(dǎo)和啟發(fā)科研者的創(chuàng)新思維、并輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數(shù)據(jù)能夠提供若干種參考方法,將解決問題的思路拓寬、拓廣、拓深。當(dāng)然我們需要在學(xué)科知識的結(jié)合上下內(nèi)功,不能單純依靠智能挖掘技術(shù)及工具就能解決大數(shù)據(jù)的應(yīng)用問題,實際上我們還要有熟悉掌握和運用智能挖掘技術(shù)及工具的業(yè)務(wù)技術(shù)人才,才能在浩瀚的信息資源中遨游,才能真正利用好醫(yī)學(xué)信息這個巨大的資產(chǎn)。
3挖掘和利用醫(yī)學(xué)生物信息的技術(shù)方法
醫(yī)學(xué)科學(xué)的第三次革命需要在傳統(tǒng)的醫(yī)學(xué)基礎(chǔ)之上集數(shù)學(xué)、統(tǒng)計學(xué)、工程學(xué)、計算機信息科學(xué)的交叉綜合、理論和實驗相結(jié)合,建立新的新方法和手段。目前,我國醫(yī)院信息系統(tǒng)存在著許多問題,集中體現(xiàn)在:醫(yī)學(xué)生物信息內(nèi)容缺失、信息標(biāo)準化程度低以及發(fā)展目標(biāo)不明確等問題上。我們建設(shè)目的①堅持醫(yī)療一線的工作需要,②堅守醫(yī)學(xué)大數(shù)據(jù)信息資源的理念,③做好大數(shù)據(jù)收儲分析的準備工作。 大數(shù)據(jù)時代醫(yī)院該如何挖掘和利用醫(yī)學(xué)生物信息?我們通過與國內(nèi)外有關(guān)數(shù)據(jù)挖掘的技術(shù)專家的合作,總結(jié)了醫(yī)學(xué)生物信息的挖掘和利用的一些方法。
3.1數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起) 把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為醫(yī)院和研究機構(gòu)提供局部的或全面的數(shù)據(jù)共享。
3.2數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù)) 根據(jù)確定的數(shù)據(jù)分析對象,抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫。對于海量數(shù)據(jù),選擇一個合適的數(shù)據(jù)存儲和管理的數(shù)據(jù)倉庫是至關(guān)重要的。
3.3數(shù)據(jù)規(guī)約 數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大,在大量數(shù)據(jù)上進行挖掘分析需要很長的時間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多但仍然接近于保持原數(shù)據(jù)的完整性,數(shù)據(jù)挖掘的結(jié)果與歸約前結(jié)果相同或幾乎相同。
3.4數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù)) 在數(shù)據(jù)庫中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值)、含噪聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)庫中,否則會影響數(shù)據(jù)挖掘的結(jié)果。
3.5數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式;如,通過匯總或聚集操作等) 通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對于有些實數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來轉(zhuǎn)換數(shù)據(jù)也是重要的一步。
3.6模型運算(使用智能化的算法提取數(shù)據(jù)模式) 根據(jù)數(shù)據(jù)庫中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計方法、事例推理、決策樹、規(guī)則推理、模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法處理信息,得出有用的分析信息。通過對數(shù)據(jù)的挖掘,①可以發(fā)現(xiàn)數(shù)據(jù)的歷史規(guī)律,對過去進行總結(jié);②可以根據(jù)數(shù)據(jù)對未來進行預(yù)測,研究者可以根據(jù)預(yù)測對未來行情趨勢做出預(yù)判,并作出相關(guān)決策。
3.7模型評估 根據(jù)某種興趣度度量,識別提供知識的真正有趣的模式。
3.8知識表示。(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識) 將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識存放在知識庫中,供其他應(yīng)用程序使用。使用各種圖表、三維地圖、動態(tài)模擬以及相關(guān)的動畫技術(shù)使原本枯燥乏味的數(shù)據(jù)變得生動起來。數(shù)據(jù)可視化把數(shù)據(jù)以更加直觀的形態(tài)展現(xiàn)出來,使人們對相關(guān)數(shù)據(jù)做到一目了然。經(jīng)過上面幾步我們就把原先認為毫無價值的數(shù)據(jù)變成了信息,最后演變?yōu)橛袃r值的知識。
對于醫(yī)學(xué)生物信息挖掘系統(tǒng)的建設(shè)者(這里包括醫(yī)院科研部門和信息部門)來說,數(shù)據(jù)挖掘項目不因該是一個普通的IT項目,不能依照原來信息項目模式建設(shè),更不能理解成為是個管理工具,在項目各個階段,數(shù)據(jù)信息每一次挖掘、演繹、分析是建設(shè)者和研究者全程參與的藝術(shù)性結(jié)合。目前對于各行業(yè)、各類典型問題的數(shù)據(jù)挖掘應(yīng)用,還缺乏標(biāo)桿模式作為參考。數(shù)據(jù)挖掘工作更像一個年輕醫(yī)師,需要通過不斷嘗試來積累經(jīng)驗,面對如潮水般涌來的海量數(shù)據(jù),她必將成為了生物醫(yī)學(xué)研究的支柱技術(shù)之一。
綜上所述,在今后的發(fā)展中計算機硬件性能的巨幅提升和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,使得企業(yè)級大數(shù)據(jù)量的計算成為現(xiàn)實,數(shù)據(jù)挖掘涉及的數(shù)據(jù)量會更大。數(shù)據(jù)挖掘工具也將越來越強大,匯合的挖掘算法越來越多,并將逐步實現(xiàn)算法的自動選擇和參數(shù)自動調(diào)優(yōu),數(shù)據(jù)挖掘各類算法的巨大潛力將得到充分發(fā)揮。
我們設(shè)想在不久的將來,生物信息大數(shù)據(jù)的應(yīng)用將會改變著醫(yī)學(xué)臨床實踐。臨床醫(yī)學(xué)模式從經(jīng)驗醫(yī)學(xué)進一步向循證醫(yī)學(xué)轉(zhuǎn)變,無序醫(yī)療向著有序醫(yī)療進一步發(fā)展,醫(yī)學(xué)研究也會進入從發(fā)現(xiàn)、研究、驗證、應(yīng)用到再發(fā)現(xiàn)、再研究、再驗證、再應(yīng)用的迭代式良性循環(huán)過程中。古老的醫(yī)學(xué)走到了今天,已經(jīng)發(fā)展成為多學(xué)科、多領(lǐng)域結(jié)合交匯的領(lǐng)域,生物信息科學(xué)、計算機科學(xué)和計算應(yīng)用數(shù)學(xué)的介入為大數(shù)據(jù)信息時代開創(chuàng)了新的前景,未來數(shù)據(jù)資源將會成為極具研究價值的醫(yī)學(xué)資產(chǎn),而且我國又是一個醫(yī)學(xué)研究資源豐富的大國,我們有理由相信,我們的醫(yī)學(xué)研究者會通過醫(yī)學(xué)生物信息的挖掘和利用,在醫(yī)學(xué)的研究和發(fā)展中為廣大人民的健康事業(yè)做出更多貢獻。
參考文獻:
[1]中國醫(yī)藥生物技術(shù)協(xié)會生物樣本庫標(biāo)準(試行)[J].中國醫(yī)藥生物技術(shù),2011, 6(1):71-79.
[2]朱凌云,吳寶明.醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)方法及應(yīng)用[J].生物醫(yī)學(xué)工程學(xué)雜志,2003;20(3):559-562.
[3]衛(wèi)生信息數(shù)據(jù)元.中華人民共和國衛(wèi)生行業(yè)標(biāo)準[S].VS 363.3-2011.
[4]科學(xué)技術(shù)部.十二五"生物技術(shù)發(fā)展規(guī)劃[S].2011;11.
[5]劉淑珍,駱巖林,黃永峰.基于XML的電子病歷存儲管理系統(tǒng)的實現(xiàn)[J].醫(yī)院數(shù)字化,2007,22(7):24-26.
[6]孫榮國,賈曉蓉.對我國臨床標(biāo)本庫建設(shè)的建議[J].衛(wèi)生軟科學(xué),2012,26(9):772.
熱門標(biāo)簽
統(tǒng)計學(xué)論文 統(tǒng)計論文 統(tǒng)計分析論文 統(tǒng)計學(xué)畢業(yè)論文 統(tǒng)計交流材料 統(tǒng)計實訓(xùn)報告 統(tǒng)計專業(yè)論文 統(tǒng)計工作意見 統(tǒng)計工作論文 統(tǒng)計調(diào)研報告 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
1建筑業(yè)統(tǒng)計數(shù)據(jù)質(zhì)量探討
2基層農(nóng)業(yè)統(tǒng)計工作對農(nóng)村經(jīng)濟的作用
4經(jīng)濟建設(shè)在經(jīng)濟統(tǒng)計的應(yīng)用