語音識別研究論文
時間:2022-09-21 04:53:00
導語:語音識別研究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:語音識別技術是一門涉及面很廣的交叉學科。隨著新理論的提出和應用,語音識別技術取得了很大的進步,許多產品已經得以實際的應用,但在其進一步的發展進程中,還有許多棘手的問題有待解決。
關鍵詞:語音識別;動態時間規整算法;人工神經元網絡
1背景介紹
語言是人類特有的功能,是人們思維最重要的寄托體,是人類交流最主要的途徑。語音是語言的聲學表現,是人類交流信息最自然、最有效、最方便的手段。語言和語音與人類社會科學文化發展緊密相連。
語音識別技術是讓機器接收,識別和理解語音信號,并將其轉換成相應的數字信號的技術。它是一門交叉學科,涉及到語音語言學、數理統計、計算機、信號處理等一系列學科。
2發展歷史
1952年貝爾實驗室的Davis等人研制成功了能識別十個英文數字發音的Audry系統,標志著語音識別技術研究工作開始。20世紀60年代計提出了動態規劃(Dynamicprogramming)和線性預測分析技術(LinerPredictive)等重要成果。20世紀70年代,語音識別領域取得了突破。實現了基于線性預測倒譜和DTW技術的特定人孤立語音識別系統。20世紀80年代語音識別研究進一步走向深入,基于特定人孤立語音技術的系統研制成功,隱馬爾可夫模型和人工神經元網絡(ArtificialNeuralNetwork)在語音識別中的成功應用。進入20世紀90年代后語音識別系統開始從實驗室走向實用。我國對語音識別的研究開始于20世紀80年代,近年來發展迅速,并取得了一系列的成果。
3具體應用
隨著計算機技術、模式識別等技術的發展,適應不同場合的語音識別系統相繼被開發出來,語音識別及處理技術已經越來越突現出其強大的技術優勢。近三十年來,語音識別在計算機、信息處理、通信與電子系統、自動控制等領域的應用越來越廣泛。
在許多政府部門、商業機構,語音識別技術的應用,可免除大量操作人員的重復勞動,既經濟又方便。如:語音郵件、IP電話和IP傳真、電子商務、自動語音應答系統、自動語音信箱、基于IP的語音、數據、視頻的CTI系統、綜合語音、數據服務系統、自然語音識別系統、專家咨詢信息服務系統、尋呼服務、故障服務、秘書服務、多媒體綜合信息服務、專業特別服務號(168自動信息服務系統,112、114、119等信息查詢系統)等。許多特定環境下,如工業控制方面,在一些工作環境惡劣、對人身有傷害的地方(如地下、深水及輻射、高溫等)或手工難以操作的地方,均可通過語音發出相應的控制命令,讓設備完成各種工作。
當今,語音識別產品不僅在人機交互中,占到的市場比例越來越大,而且在許多領域都有了廣闊的應用前景,在人們的社會生活中起著舉足輕重的作用。
4語音識別系統原理
語音識別一般分為兩個步驟:學習階段和識別階段。學習階段的任務是建立識別基本單元的聲學模型以及語言模型。識別階段是將輸入的目標語音的特征參數和模型進行比較,得到識別結果。
語音識別過程如圖所示。下面對該流程作簡單介紹:
(1)語音采集設備如話筒、電話等將語音轉換成模擬信號。
(2)數字化一般包括預濾波、采樣和A/D變換。該過程將模擬信號轉變成計算機能處理的數字信號。
(3)預處理一般包括預加重、加窗分幀。經預處理后的信號被轉換成了幀序列的加窗的短時信號。
(4)參數分析是對短時信號進行分析,提取語音特征參數的過程,如時域、頻域分析,矢量量化等。
(5)語音識別是目標語音根據特征參數與模型庫中的參數進行匹配,產生識別結果的過程。一般有模板匹配法、隨機模型法和神經網絡等。
(6)應用程序根據識別結果產程預定動作。
(7)該過程是語音模型的學習過程。5現有算法介紹
語音識別常用的方法有:模板匹配法、人工神經網絡法。
(1)模板匹配法是語音識別中常用的一種相似度計算方法。模板匹配法一般將語音或單詞作為識別單元,一般適用于詞匯表較小的場合。在訓練階段,對用戶語音進行特征提取和特征維數的壓縮,這個過程常用的方法是采用矢量量化(VQ)技術。然后采用聚類方法或其他方法,針對每個模式類各產生一個或幾個模板。識別階段將待識別的語音模式的特征參數與各模板進行相似度的計算,將最高相似者作為識別結果。但由于用戶在不同時刻發同一個音的時間長度有較大隨意性,所以識別時必須對語音時間進行伸縮處理。研究表明,簡單的線性伸縮是不能滿足要求的。由日本學者板倉在70年代提出的動態時間伸縮算法(DTW)很好的解決了這一問題。DTW算法能夠較好地解決小詞匯量、孤立詞識別時說話速度不均勻的難題。DTW算法示意圖如圖所示。
設測試的語音參數共有M幀矢量,而參考模板有N幀矢量,且M≠N,則DTW就是尋找一個時間歸整函數tn=f(tm),它將測試矢量的時間軸tm非線性地映射到模板的時間軸tn上,并使該函數滿足第k幀(k=1,2,…M)測試矢量I和第f(k)幀(f(k)=1,2…N)模板矢量J之間的距離測度之和最小:
另外,在實際識別系統中,語音的起點或終點由摩擦音構成,環境噪聲也比較大,語音的端點檢測會存在較大的誤差。DTW算法起點點可以固定在(tm,tn)=(1,1),稱為固定起點;也可以選擇在(1,2)、(2,1)等點,稱為松馳起點。同樣,中止點可以選擇在(M,N)點,稱為固定終點;也可以選擇在(N一1,M)、(N,M一1)等點,稱為松弛終點。松弛的DTW算法的起始點從(1,1)、(1,2)、(2,1)等點中選擇一最小值,終止點從(M,N)、(M,N-1)、(M-1,N)等點中選擇一最小值,兩語音樣本之間的相互距離在相應的點放松后選擇一最小距離。松弛DTW可以克服由于端點檢測不精確引起的誤差,但運算量加大。
(2)人工神經網絡法。現實世界的語音信號會隨著許多特征如:說話人語速、語調以及環境的變化而動態變化的,想要用傳統的基于模板的方法建立一個適應動態變化的語音識別系統是非常困難的。因此需要設計一個帶有自學習能力的自適應識別系統,以便可以適應語音的動態變化。
人工神經網絡由神經元、網絡拓樸和學習方法構成。人工神經網絡拓樸結構可分為反饋型和非反饋型(前饋型)。學習方法可分為監督型和非監督型。各種人工神經網絡模型中應用得最典型的是采用反向傳播(BackPropagation)學習算法的多層前饋網絡。多層前饋型網絡如圖所示。
除上述介紹的幾種常用的方法外,還有許多其它的識別方法以及改進算法。
6尚未解決的問題及值得研究的方向
(1)就算法模型方面而言,需要有進一步的突破。聲學模型和語言模型是聽寫識別的基礎。目前使用的語言模型只是一種概率模型,還沒有用到以語言學為基礎的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展。
(2)語音識別的自適應性也有待進一步改進。同一個音節或單詞的語音不僅對隨著的講話者的不同而變化,而且對同一個講話者在不同場合,不同上下文環境中也會發生變化。這意味著對語言模型的進一步改進。
(3)語音識別技術還需要能排除各種環境因素的影響。目前,對語音識別效果影響最大的就是環境雜音或噪音。要在嘈雜環境中使用語音識別技術必須有特殊的抗噪麥克風才能進行,這對多數用戶來說是不現實的。在公共場合中,如何讓語音識別技術能有摒棄環境嗓音并從中獲取所需要的特定聲音是一個艱巨的任務。
雖然在短期內還不可能造出具有和人相比擬的語音識別系統,但在未來幾年內,語音識別系統的應用將更加廣泛,各種語音識別系統產品將陸續進入我們的生活。語音識別各個方面的技術正在不斷地進步,一步步朝著更加智能化的方向發展。
參考文獻
[1]楊尚國,楊金龍.語音識別技術概述[J].福建電腦,2006,(8).
[2]孫寧,孫勁光,孫宇.基于神經網絡的語音識別技術研究[J].計算機與數字工程,2006.
[3]PhilWoodland.SpeechRecognition.SpeechandLanguageEngineering-StateoftheArt(Ref.No.1998/499).
[4]Morgan,N..Bourlard,H.A.Neuralnetworksforstatisticalrecognitionofcontinuousspeech.ProceedingsoftheIEEEVolume83,Issue5,May1995Page(s):742-772.
- 上一篇:國慶60周年演講材料
- 下一篇:工商干部紀念建國六十周年演講稿