語(yǔ)音識(shí)別技術(shù)范文

時(shí)間:2023-04-04 17:21:53

導(dǎo)語(yǔ):如何才能寫好一篇語(yǔ)音識(shí)別技術(shù),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

語(yǔ)音識(shí)別技術(shù)

篇1

關(guān)鍵詞:語(yǔ)音識(shí)別 應(yīng)用領(lǐng)域 熱點(diǎn) 難點(diǎn)

中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-3973 (2010) 03-062-02

1應(yīng)用領(lǐng)域

如今,一些語(yǔ)音識(shí)別的應(yīng)用已經(jīng)應(yīng)用到實(shí)際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語(yǔ)音撥號(hào)系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽(tīng)寫機(jī)、計(jì)算機(jī)控制、工業(yè)控制、語(yǔ)音通信系統(tǒng)等。預(yù)計(jì)在不遠(yuǎn)的將來(lái),語(yǔ)音識(shí)別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個(gè)領(lǐng)域深刻改變?nèi)祟惉F(xiàn)有的日常生活方式。語(yǔ)音識(shí)別聽(tīng)寫機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。

2發(fā)展歷史

語(yǔ)音識(shí)別的研究工作開(kāi)始于50年代,Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)―Audry系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開(kāi)展研究則是在60年代末70年代初。60年代,提出了動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,極大地促進(jìn)了語(yǔ)音識(shí)別的發(fā)展。70年代,動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)解決了語(yǔ)音特征不等長(zhǎng)匹配問(wèn)題,對(duì)特定人孤立詞語(yǔ)音識(shí)別十分有效,在語(yǔ)音識(shí)別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代語(yǔ)音識(shí)別研究進(jìn)一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)。人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,并以此確定了統(tǒng)計(jì)方法和模型在語(yǔ)音識(shí)別和語(yǔ)言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語(yǔ)音模型自身的特點(diǎn),高效、快捷的算法使得建立實(shí)時(shí)的連續(xù)語(yǔ)音識(shí)別系統(tǒng)成為可能。

90年代,人們開(kāi)始進(jìn)一步研究語(yǔ)音識(shí)別與自然語(yǔ)言處理的結(jié)合,逐步發(fā)展到基于自然口語(yǔ)識(shí)別和理解的人機(jī)對(duì)話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開(kāi)始應(yīng)用于語(yǔ)音識(shí)別,它和HMM模型建立的語(yǔ)音識(shí)別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識(shí)別率及系統(tǒng)的魯棒性。小波分析也開(kāi)始用于特征提取,但目前性能不理想,其研究還在進(jìn)一步深入中。

現(xiàn)在語(yǔ)音識(shí)別系統(tǒng)已經(jīng)開(kāi)始從實(shí)驗(yàn)室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場(chǎng)的產(chǎn)品。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、Microsoft、AT&T等著名公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開(kāi)發(fā)研究投以巨資。

3研究的熱點(diǎn)與難點(diǎn)

目前語(yǔ)音識(shí)別領(lǐng)域的研究熱點(diǎn)包括:穩(wěn)健語(yǔ)音識(shí)別(識(shí)別的魯棒性)、語(yǔ)音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說(shuō)話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識(shí)別、高效的識(shí)別(搜索)算法研究 、可信度評(píng)測(cè)算法研究、ANN的應(yīng)用、語(yǔ)言模型及深層次的自然語(yǔ)言理解。

目前研究的難點(diǎn)主要表現(xiàn)在:(1)語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng)。(2)高噪聲環(huán)境下語(yǔ)音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語(yǔ)速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號(hào)分析處理方法。(3)如何把語(yǔ)言學(xué)、生理學(xué)、心理學(xué)方面知識(shí)量化、建模并有效用于語(yǔ)音識(shí)別,目前也是一個(gè)難點(diǎn)。(4)由于我們對(duì)人類的聽(tīng)覺(jué)理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識(shí)還很不清楚,這必將阻礙語(yǔ)音識(shí)別的進(jìn)一步發(fā)展。

4語(yǔ)音識(shí)別系統(tǒng)

一個(gè)典型的語(yǔ)音識(shí)別系統(tǒng)如圖所示:

輸入的語(yǔ)言信號(hào)首先要進(jìn)行反混疊濾波、采樣、A/D轉(zhuǎn)換等過(guò)程進(jìn)行數(shù)字化,之后要進(jìn)行預(yù)處理,包括預(yù)加重、加窗和分幀、端點(diǎn)檢測(cè)等。我們稱之為對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。

語(yǔ)音信號(hào)的特征參數(shù)主要有:短時(shí)能量En,反映語(yǔ)音振幅或能量隨著時(shí)間緩慢變化的規(guī)律;短時(shí)平均過(guò)零率Zn,對(duì)于離散信號(hào)來(lái)講,簡(jiǎn)單的說(shuō)就是樣本改變符號(hào)的次數(shù),可以粗略分辨清音和濁音;短時(shí)自相關(guān)函數(shù);經(jīng)過(guò)FFT或LPC運(yùn)算得到的功率譜,再經(jīng)過(guò)對(duì)數(shù)運(yùn)算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽(tīng)覺(jué)特性變換的美爾(MEL);線性預(yù)測(cè)系數(shù)等。通常識(shí)別參數(shù)可選擇上面的某一種或幾種的組合。

語(yǔ)音識(shí)別是語(yǔ)音識(shí)別系統(tǒng)最核心的部分。包括語(yǔ)音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識(shí)別算法)以及相應(yīng)的語(yǔ)言模型與語(yǔ)言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語(yǔ)音特征參數(shù)表征的大量已知模式中通過(guò)學(xué)習(xí)算法來(lái)獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識(shí)別(模式匹配)時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進(jìn)行匹配與比較,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配以得到最佳的識(shí)別結(jié)果。語(yǔ)言模型一般指在匹配搜索時(shí)用于字詞和路徑約束的語(yǔ)言規(guī)則,它包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理則可以進(jìn)行語(yǔ)法、語(yǔ)義分析。

聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識(shí)別模型包括動(dòng)態(tài)時(shí)間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。

DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個(gè)單詞作為識(shí)別單元,在訓(xùn)練階段將詞匯表中每個(gè)詞的特征矢量序列作為模板存入模板庫(kù),在識(shí)別階段將待識(shí)別語(yǔ)音的特征矢量序列依次與庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。DTW應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在小詞匯量、孤立詞語(yǔ)音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已逐漸被HMM和ANN模型替代。

HMM模型是語(yǔ)音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過(guò)程(可觀測(cè)的)。HMM很好的模擬了人得語(yǔ)言過(guò)程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個(gè)狀態(tài)可以觀察到的符號(hào)數(shù)M(符號(hào)集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù),包括觀察符號(hào)的概率分布B和初始狀態(tài)概率分布 ,因此一個(gè)HMM模型可以由{N,M,A,B, }來(lái)確定,對(duì)詞匯表中的每一個(gè)詞都要建立相應(yīng)的HMM模型。

模型參數(shù)得到后可以用Viterbi算法來(lái)確定與觀察序列對(duì)應(yīng)的最佳的狀態(tài)序列。建好模型后,在識(shí)別階段就是要計(jì)算每個(gè)模型產(chǎn)生觀察符號(hào)序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識(shí)別結(jié)果。這個(gè)過(guò)程計(jì)算量很大,有人提出了前向-后向算法,大大減少了計(jì)算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進(jìn)方法也被大量提出。

ANN在語(yǔ)音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),是由結(jié)點(diǎn)互連組成的計(jì)算網(wǎng)絡(luò),模擬了人類大腦神經(jīng)元活動(dòng)的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實(shí)現(xiàn)的特點(diǎn),同時(shí)還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識(shí)不清楚,推理規(guī)則不明確的問(wèn)題,允許樣品有較大的缺損、畸變,因此對(duì)于噪聲環(huán)境下非特定人的語(yǔ)音識(shí)別問(wèn)題來(lái)說(shuō)是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識(shí)別效果。

將ANN與HMM結(jié)合分別利用各自優(yōu)點(diǎn)進(jìn)行識(shí)別將是今后的一條研究途徑。二者結(jié)合的混合語(yǔ)音識(shí)別方法的研究開(kāi)始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進(jìn)行計(jì)算和學(xué)習(xí)概率參數(shù)。

語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料庫(kù)中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5總結(jié)

盡管語(yǔ)音識(shí)別技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,而語(yǔ)音識(shí)別系統(tǒng)也層出不窮,不斷的改變?nèi)祟惉F(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語(yǔ)音學(xué)到語(yǔ)言學(xué)的知識(shí)為基礎(chǔ)、以信息論、模式識(shí)別數(shù)理統(tǒng)計(jì)和人工智能為主要實(shí)現(xiàn)手段的語(yǔ)音處理機(jī)制,把整個(gè)語(yǔ)音識(shí)別過(guò)程從系統(tǒng)工程的高度進(jìn)行分析構(gòu)建,才有可能獲得能與人類相比的高性能的、完整的計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。

參考文獻(xiàn):

[1]易克初,田斌.付強(qiáng).語(yǔ)音信號(hào)處理[M].國(guó)防工業(yè)出版社,2000.

[2]胡航.語(yǔ)音信號(hào)處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.

[3]趙力.語(yǔ)音信號(hào)處理[M].機(jī)械工業(yè)出版社,2003.

篇2

語(yǔ)音識(shí)別算法雖然還有很多問(wèn)題沒(méi)有解決,但語(yǔ)音識(shí)別技術(shù)已經(jīng)開(kāi)始逐步進(jìn)入實(shí)用階段。在發(fā)達(dá)國(guó)家語(yǔ)音識(shí)別技術(shù)已經(jīng)用于信息服務(wù)系統(tǒng)和查詢系統(tǒng),人們可以通過(guò)電話網(wǎng)絡(luò)查詢有關(guān)的信息,并且取得很好的結(jié)果。用戶交換機(jī)、電話機(jī)、手機(jī)也包含了語(yǔ)音識(shí)別撥號(hào)功能。調(diào)查統(tǒng)計(jì)表明多達(dá)80%以上的人對(duì)這些服務(wù)表示滿意。中小詞匯量的語(yǔ)音識(shí)別系統(tǒng)(

語(yǔ)音芯片的應(yīng)用

近年來(lái)語(yǔ)音芯片應(yīng)用越來(lái)越廣泛,主要包括:

1.電話通信中的語(yǔ)音撥號(hào)。特別是在中、高檔移動(dòng)電話上,現(xiàn)已普遍具有語(yǔ)音撥號(hào)的功能。隨著語(yǔ)音識(shí)別芯片的價(jià)格降低,普通電話上也將具備語(yǔ)音撥號(hào)的功能。

2. 汽車的語(yǔ)音控制。由于在汽車的行駛過(guò)程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語(yǔ)音撥號(hào)功能的免提電話通信方式。此外,對(duì)汽車的門、窗、空調(diào)、照明以及音響等設(shè)備,同樣也可以由語(yǔ)音來(lái)方便地進(jìn)行控制。

3. 工業(yè)控制及醫(yī)療領(lǐng)域。當(dāng)操作人員的眼或手已經(jīng)被占用的情況下,在增加控制操作時(shí),最好的辦法就是增加人與機(jī)器的語(yǔ)音交互界面。由語(yǔ)音對(duì)機(jī)器發(fā)出命令,機(jī)器用語(yǔ)音做出應(yīng)答。

4. 個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)的語(yǔ)音交互界面。PDA的體積很小,人機(jī)界面一直是其應(yīng)用和技術(shù)的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現(xiàn)多采用手寫體識(shí)別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現(xiàn)在業(yè)界一致認(rèn)為,PDA的最佳人機(jī)交互界面是以語(yǔ)音作為傳輸介質(zhì)的交互方法,并且已有少量應(yīng)用。隨著語(yǔ)音識(shí)別技術(shù)的提高,可以預(yù)見(jiàn),在不久的將來(lái),語(yǔ)音將成為PDA主要的人機(jī)交互界面。

5. 智能玩具。通過(guò)語(yǔ)音識(shí)別技術(shù),我們可以與智能娃娃對(duì)話,可以用語(yǔ)音對(duì)玩具發(fā)出命令,讓其完成一些簡(jiǎn)單的任務(wù),甚至可以制造具有語(yǔ)音鎖功能的電子看門狗。智能玩具有很大的市場(chǎng)潛力,而其關(guān)鍵在于語(yǔ)音芯片價(jià)格的降低。

6. 家電遙控。用語(yǔ)音可以控制電視機(jī)、VCD、空調(diào)、電扇、窗簾的操作,而且一個(gè)遙控器就可以把家中的電器皆用語(yǔ)音控制起來(lái),這樣,可以讓令人頭疼的各種電器的操作變得簡(jiǎn)單易行。

語(yǔ)音識(shí)別專用芯片系統(tǒng)有如下幾個(gè)特點(diǎn): 1. 多為中、小詞匯量的語(yǔ)音識(shí)別系統(tǒng),即只能夠識(shí)別10~100詞條。只有近一兩年來(lái),才有連續(xù)數(shù)碼或連續(xù)字母語(yǔ)音識(shí)別專用芯片實(shí)現(xiàn)。2. 一般僅限于特定人語(yǔ)音識(shí)別的實(shí)現(xiàn),即需要讓使用者對(duì)所識(shí)別的詞條先進(jìn)行學(xué)習(xí)或訓(xùn)練,這一類識(shí)別功能對(duì)語(yǔ)種、方言和詞條沒(méi)有限制。有的芯片也能夠?qū)崿F(xiàn)非特定人語(yǔ)音識(shí)別,即預(yù)先將所要識(shí)別的語(yǔ)句碼本訓(xùn)練好而裝入芯片,用戶使用時(shí)不需要再進(jìn)行學(xué)習(xí)就可直接應(yīng)用。但這一類識(shí)別功能只適用于規(guī)定的語(yǔ)種和方言,而且所識(shí)別的語(yǔ)句只限于預(yù)先已訓(xùn)練好的語(yǔ)句。3. 由此芯片組成一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)。因此,除了語(yǔ)音識(shí)別功能以外,為了有一個(gè)好的人機(jī)界面和識(shí)別正確與否的驗(yàn)證,該系統(tǒng)還必須具備語(yǔ)音提示(語(yǔ)音合成)及語(yǔ)音回放(語(yǔ)音編解碼記錄)功能。4. 多為實(shí)時(shí)系統(tǒng),即當(dāng)用戶說(shuō)完待識(shí)別的詞條后,系統(tǒng)立即完成識(shí)別功能并有所回應(yīng),這就對(duì)電路的運(yùn)算速度有較高的要求。5. 除了要求有盡可能好的識(shí)別性能外,還要求體積盡可能小、可靠性高、耗電省、價(jià)錢低等特點(diǎn)。

語(yǔ)音識(shí)別技術(shù)發(fā)展

在發(fā)達(dá)國(guó)家各種各樣基于語(yǔ)音識(shí)別技術(shù)的產(chǎn)品已經(jīng)可以買到,如具有聲控?fù)芴?hào)電話,語(yǔ)音記事本等等。語(yǔ)音電話服務(wù)、數(shù)據(jù)查詢服務(wù)也已經(jīng)部分實(shí)現(xiàn)。基于特定任務(wù)和環(huán)境的聽(tīng)寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用前景。

說(shuō)話者自適應(yīng)技術(shù)近年在語(yǔ)音識(shí)別系統(tǒng)的研究中也備受重視,這是由于與人有關(guān)的語(yǔ)音識(shí)別系統(tǒng)比與人無(wú)關(guān)的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率要高很多。通過(guò)有效的自適應(yīng)手段可以很快地提高系統(tǒng)的識(shí)別能力。實(shí)際上說(shuō)話人自適應(yīng)技術(shù)和穩(wěn)健語(yǔ)音自適應(yīng)技術(shù)是相通的。由于不同的說(shuō)話人在聲道長(zhǎng)度,說(shuō)話口音方式都很不一樣。說(shuō)話者自適應(yīng)技術(shù)也主要是從以下兩方面著手。

靜態(tài)處理方法。從特征提取或訓(xùn)練階段就盡可能減少來(lái)自說(shuō)話人的變化因素對(duì)模型的貢獻(xiàn)。可以進(jìn)行聲道參數(shù)的歸一化處理或?qū)φf(shuō)話人進(jìn)行分類處理,如分男女聲的識(shí)別系統(tǒng)就是其中的一個(gè)典型,但實(shí)際上僅僅從男女聲上對(duì)模型分類還是太粗,可以通過(guò)有效的聚類方法進(jìn)行分類。這類方法統(tǒng)稱為聲學(xué)歸一化處理方法。

動(dòng)態(tài)處理方法。對(duì)預(yù)先訓(xùn)練好的與人無(wú)關(guān)識(shí)別系統(tǒng),通過(guò)臨時(shí)得到的特定人語(yǔ)音數(shù)據(jù)對(duì)系統(tǒng)的模板或特征參數(shù)進(jìn)行自適應(yīng)修正,從而在原有系統(tǒng)基礎(chǔ)上建立一個(gè)用于特定任務(wù)、特定環(huán)境或特定說(shuō)話人的系統(tǒng),這類方法統(tǒng)稱為自適應(yīng)方法。自適應(yīng)方法可分為: 批模式、累進(jìn)模式、即時(shí)模式; 按自適應(yīng)學(xué)習(xí)策略又分為無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。從用戶使用的方便程度來(lái)看是由難到易,而算法實(shí)現(xiàn)則是由易到難。采用何種策略取決于應(yīng)用背景,對(duì)識(shí)別率的要求等因素。對(duì)于聽(tīng)寫機(jī)等應(yīng)用來(lái)說(shuō),最具吸引力的是累進(jìn)、無(wú)監(jiān)督的自適應(yīng)方式,也稱在線自適應(yīng)。

語(yǔ)言模型也是目前研究的一個(gè)重要方面。目前的語(yǔ)言模型是與任務(wù)有關(guān)的,典型的統(tǒng)計(jì)語(yǔ)言模型是通過(guò)大量任務(wù)特定的語(yǔ)料訓(xùn)練出來(lái)的。通過(guò)新聞?wù)Z料訓(xùn)練出來(lái)的模型不能很好地工作于法律方面的文件語(yǔ)音識(shí)別。有幾種方法用于解決這些問(wèn)題。一種是使用自適應(yīng)語(yǔ)言模型。在靜態(tài)語(yǔ)言模型的基礎(chǔ)上,通過(guò)一個(gè)高速緩沖存儲(chǔ)器對(duì)語(yǔ)言模型進(jìn)行動(dòng)態(tài)的修正; 另一種是先訓(xùn)練多領(lǐng)域語(yǔ)言模型,然后通過(guò)混合高斯模型將這些模型結(jié)合在一起; 還有一種比較好的辦法是使用大顆粒的語(yǔ)言模型,如基于類的語(yǔ)言模型,而不是基于詞的語(yǔ)言模型,類可以是詞性類,詞義類,以及由一定的數(shù)據(jù)驅(qū)動(dòng)的聚類算法產(chǎn)生的各種類。

由于不同詞可以屬于同一類,這樣類比較大,構(gòu)成的語(yǔ)言模型就比較穩(wěn)健。其關(guān)鍵的問(wèn)題是如何決定詞的分類,由于詞的分類比較復(fù)雜,同一詞可能屬于不同的類,特別是解決如何通過(guò)計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)分類的算法,即使用數(shù)據(jù)驅(qū)動(dòng)算法也還沒(méi)有很好地解決。基于統(tǒng)計(jì)技術(shù)的計(jì)算語(yǔ)言學(xué)已經(jīng)越來(lái)越受到重視,它解決了單獨(dú)規(guī)則語(yǔ)言模型不能解決的一些問(wèn)題。當(dāng)然統(tǒng)計(jì)語(yǔ)言模型也不能解決全部問(wèn)題,因此如何把統(tǒng)計(jì)語(yǔ)言模型和基于規(guī)則的語(yǔ)言模型結(jié)合也是語(yǔ)言模型研究的重點(diǎn)之一。

目前不同快速語(yǔ)音識(shí)別算法都在開(kāi)發(fā)中。其中包括對(duì)HMM狀態(tài)輸出的概率分布進(jìn)行矢量量化,縮小搜索空間算法,減少計(jì)算機(jī)的內(nèi)存需求方法,以及結(jié)合計(jì)算機(jī)結(jié)構(gòu)特點(diǎn)的編程技術(shù)的應(yīng)用。

鏈接:穩(wěn)健語(yǔ)音識(shí)別技術(shù)

篇3

關(guān)鍵詞 機(jī)器人 語(yǔ)音識(shí)別 聲學(xué)模型 語(yǔ)音特征參數(shù)

中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A

1語(yǔ)音識(shí)別技術(shù)的研究意義

人們使用的聲音語(yǔ)言是一種人在特定高度思維和意識(shí)活動(dòng)下的產(chǎn)品。語(yǔ)言是人類最直接以及最理想的交流方式,也是人機(jī)通信是最方便的方式。在機(jī)器人發(fā)展的高級(jí)發(fā)展階段中,機(jī)器人的智能語(yǔ)音識(shí)別與人類的活動(dòng)是密切相關(guān)的,有聲語(yǔ)言的人機(jī)交互信息成為重要的手段。例如,語(yǔ)音識(shí)別獲取外界信息很自然,沒(méi)有特殊的訓(xùn)練方法,隨著機(jī)器人技術(shù)的發(fā)展和廣泛應(yīng)用,有越來(lái)越多的機(jī)會(huì)來(lái)接觸人類和機(jī)器人,所以人們希望通過(guò)語(yǔ)音識(shí)別和機(jī)器人去處理,不管誰(shuí)能能準(zhǔn)確安全,方便地操縱機(jī)器人。機(jī)器人和人類之間的信息交互,表現(xiàn)在兩個(gè)方面,一是對(duì)更高層次的機(jī)器人操作,方便軟件的設(shè)計(jì)開(kāi)發(fā),這種多為教學(xué)機(jī)器人,另一種是在實(shí)際操作的要求下完成信息交互任務(wù)的機(jī)器人。智能機(jī)器人作為機(jī)器人技術(shù)發(fā)展的高級(jí)階段,其發(fā)展趨勢(shì)是:不僅要求機(jī)器人具有高度的自治能力,還要使機(jī)器人和人類之間的協(xié)調(diào)也具有一定的智能性。這就要求機(jī)器人具有不同的高性能主動(dòng)做事能力,而不是被動(dòng)地接受任務(wù),為了實(shí)現(xiàn)這一目標(biāo),自然語(yǔ)言作為人機(jī)信息交換將發(fā)揮越來(lái)越重要的作用。目前,智能機(jī)器人已成為機(jī)器人研究領(lǐng)域的一個(gè)熱點(diǎn)。工業(yè)機(jī)器人是智能機(jī)器人的一個(gè)重要研究領(lǐng)域。當(dāng)今,工業(yè)機(jī)器人的發(fā)展方興未艾,巨大的市場(chǎng)潛力,使真正的工業(yè)機(jī)器人的已經(jīng)在市場(chǎng)上嶄露頭角,以滿足人們?nèi)找嬖鲩L(zhǎng)的需求,我們不能沒(méi)有一個(gè)高性能的語(yǔ)音識(shí)別系統(tǒng)。由于工業(yè)機(jī)器人是面向生產(chǎn)實(shí)際的需要,最好的工作方式是讓機(jī)器人能顧聽(tīng)懂最常見(jiàn)的人類語(yǔ)言,完成指定的工作,并能與人交流。機(jī)器人語(yǔ)音識(shí)別是機(jī)器人研究領(lǐng)域中的語(yǔ)音識(shí)別應(yīng)用,最終的目標(biāo)是讓機(jī)器人了解人們的口頭語(yǔ)言,然后按照人們的命令來(lái)行動(dòng)或反應(yīng),從而形成一個(gè)良好的人機(jī)對(duì)話系統(tǒng)。為了能夠進(jìn)一步推動(dòng)智能機(jī)器人的開(kāi)發(fā)應(yīng)用,因此,在語(yǔ)音識(shí)別機(jī)器人的研究領(lǐng)域中,機(jī)器人語(yǔ)音識(shí)別系統(tǒng)是工業(yè)機(jī)器人的實(shí)際推廣應(yīng)用,具有重要的意義。

語(yǔ)音識(shí)別技術(shù)在智能機(jī)器人中的應(yīng)用已經(jīng)有很多年的歷史,作為智能機(jī)器人的一個(gè)分支,工業(yè)機(jī)器人得到了迅速發(fā)展,工業(yè)機(jī)器人通過(guò)語(yǔ)音識(shí)別從工業(yè)噪聲中提取有效的語(yǔ)音命令。為了實(shí)現(xiàn)機(jī)器人在一些特殊工業(yè)環(huán)境中工作的目的,機(jī)器人要能夠識(shí)別命令意圖。語(yǔ)音識(shí)別技術(shù),可以實(shí)現(xiàn)人機(jī)對(duì)話,從而讓機(jī)器能模仿人類完成所有工作的分配,使其在各行各業(yè)中能夠得以應(yīng)用。目前所面臨的實(shí)際問(wèn)題是:噪聲和干擾環(huán)境下對(duì)大型工業(yè)機(jī)器人的語(yǔ)音識(shí)別有嚴(yán)重的影響。在機(jī)器人識(shí)別領(lǐng)域,工業(yè)環(huán)境中的實(shí)時(shí)性是一個(gè)非常重要的任務(wù)。機(jī)器人在工業(yè)環(huán)境下應(yīng)用的聽(tīng)覺(jué)識(shí)別是使智能機(jī)器人發(fā)展速率低的瓶頸。

2語(yǔ)音識(shí)別系統(tǒng)的發(fā)展

2.1語(yǔ)音識(shí)別系統(tǒng)的發(fā)展方向

語(yǔ)音識(shí)別系統(tǒng)是基于一套應(yīng)用軟件系統(tǒng)的硬件平臺(tái)和操作系統(tǒng)的一些。語(yǔ)音識(shí)別一般分為兩個(gè)步驟。第一步是學(xué)習(xí)或培訓(xùn)。這一階段的任務(wù)是建立基本單元的聲學(xué)模型來(lái)進(jìn)行識(shí)別和模型的語(yǔ)音語(yǔ)法分析等。第二步是識(shí)別或測(cè)試。根據(jù)識(shí)別系統(tǒng)的類型可以滿足一個(gè)識(shí)別方法的要求,使用語(yǔ)音分析的方法來(lái)分析語(yǔ)音特征參數(shù),并建立了比較和測(cè)量系統(tǒng)模型,根據(jù)一定的標(biāo)準(zhǔn),鑒定結(jié)果。

語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用可分為兩個(gè)發(fā)展方向,其中一個(gè)是大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽(tīng)寫機(jī),以及結(jié)合電話網(wǎng)或互聯(lián)網(wǎng)的語(yǔ)音信息服務(wù)系統(tǒng),這些系統(tǒng)是在計(jì)算機(jī)平臺(tái)上的一個(gè)重要發(fā)展方向。其次是應(yīng)用的小型化,便攜式音頻產(chǎn)品,如無(wú)線移動(dòng)電話的撥號(hào),語(yǔ)音控制車載設(shè)備,智能玩具,家用電器和其他方面的應(yīng)用的遠(yuǎn)程控制,這些應(yīng)用系統(tǒng)大多采用特殊的硬件系統(tǒng)來(lái)實(shí)現(xiàn),特別是語(yǔ)音信號(hào)處理芯片和語(yǔ)音識(shí)別芯片,最近幾年快速發(fā)展,為其廣泛應(yīng)用創(chuàng)造了極為有利的條件。

2.2語(yǔ)音識(shí)別系統(tǒng)的模型與模式

語(yǔ)音識(shí)別系統(tǒng)的核心是聲學(xué)模型和模式分類。首先通過(guò)學(xué)習(xí)算法,訓(xùn)練語(yǔ)音聲學(xué)模型的特點(diǎn)是通過(guò)學(xué)習(xí)過(guò)程來(lái)生成聲學(xué)模型,這是識(shí)別潛在的模型的前提,是最關(guān)鍵的語(yǔ)音識(shí)別系統(tǒng)的一部分。聲學(xué)模型的目的是提供一種有效的方法來(lái)計(jì)算特征向量的聲音序列和每個(gè)發(fā)音模板之間的距離。人的發(fā)音在每一刻發(fā)音之前和之后都會(huì)受到影響。

為了模仿自然連續(xù)的協(xié)同發(fā)音和識(shí)別不同的發(fā)音,通常需要使用復(fù)雜的聲學(xué)模型。聲學(xué)模型和語(yǔ)言的發(fā)音特點(diǎn)的設(shè)計(jì)是密切相關(guān)的。聲學(xué)模型單元大小與單詞發(fā)音,音節(jié)模式和音位語(yǔ)音訓(xùn)練數(shù)據(jù)大小有關(guān),故要求其系統(tǒng)識(shí)別具有很大的靈活性。大詞匯量語(yǔ)音識(shí)別系統(tǒng),通常采用較小的單元和少量的計(jì)算,該模型只有較小的存儲(chǔ)容量,減少訓(xùn)練數(shù)據(jù)的數(shù)量,但相應(yīng)的聲音定位和分割問(wèn)題就顯得更加困難,規(guī)則識(shí)別模型變得越來(lái)越復(fù)雜。通常大型模型中識(shí)別單元包括協(xié)同發(fā)音,這有利于提高系統(tǒng)的識(shí)別率,但訓(xùn)練數(shù)據(jù)也相對(duì)增加。必須根據(jù)不同語(yǔ)言的特點(diǎn)來(lái)識(shí)別詞匯,詞匯量大小決定單位大小。

參考文獻(xiàn)

篇4

關(guān)鍵詞:語(yǔ)音識(shí)別技術(shù);計(jì)算機(jī)輔助語(yǔ)言;應(yīng)用;綜述

中圖分類號(hào):TP391.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2014) 12-0000-02

隨著全球化的發(fā)展,越來(lái)越多的人想掌握一門外語(yǔ),而傳統(tǒng)的語(yǔ)言教學(xué)已不能滿足人們的這一需求。計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(Computer Assisted Language Learning,縮寫CALL)伴隨著這一時(shí)代背景應(yīng)運(yùn)而生。CALL是在一定的語(yǔ)言學(xué)和心理學(xué)的理論基礎(chǔ)之上,利用計(jì)算機(jī)技術(shù)和信息技術(shù)輔助、推進(jìn)語(yǔ)言學(xué)習(xí)。目前,許多CALL學(xué)習(xí)軟件大多是把各類資料集成在一起,基本上不能對(duì)學(xué)習(xí)者給出有效的反饋信息。語(yǔ)音識(shí)別技術(shù)的應(yīng)用使得CALL系統(tǒng)可以具有發(fā)音評(píng)測(cè)的功能,能夠幫助學(xué)習(xí)者及時(shí)發(fā)現(xiàn)和糾正錯(cuò)誤發(fā)音,避免重復(fù)錯(cuò)誤發(fā)音形成習(xí)慣,從而極大提高了學(xué)習(xí)者的學(xué)習(xí)效率。

一、計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(CALL)及其特點(diǎn)

(一)計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(CALL)簡(jiǎn)介

語(yǔ)言作為我們的日常交流工具,在經(jīng)濟(jì)全球化發(fā)展的今天,它的社會(huì)功能也越來(lái)越凸顯。隨著國(guó)際交流的日益頻繁,越來(lái)越多的人想掌握一門第二語(yǔ)言,語(yǔ)言學(xué)習(xí)也成為了教育領(lǐng)域的一大熱點(diǎn)。

語(yǔ)言學(xué)習(xí)的直接目的就是提高學(xué)生的交際能力,而這一能力最直接的體現(xiàn)就是口語(yǔ)表達(dá)。傳統(tǒng)的師生教學(xué)是語(yǔ)言學(xué)習(xí)的主要方式,在這種教學(xué)方式下口語(yǔ)的教學(xué)主要是采用教師講解發(fā)音方式和發(fā)音演示,學(xué)生跟讀訓(xùn)練的方法。可以說(shuō)這樣的學(xué)習(xí)方式在口語(yǔ)學(xué)習(xí)中是至關(guān)重要且卓有成效的,但卻是不夠的。隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的迅猛發(fā)展,CALL已成為當(dāng)今外語(yǔ)教學(xué)發(fā)展的一個(gè)新趨勢(shì)。作為一種新的學(xué)習(xí)方式,它主要是在一定的語(yǔ)言學(xué)和心理學(xué)的理論基礎(chǔ)之上,利用計(jì)算機(jī)和信息技術(shù)輔助和推進(jìn)外語(yǔ)的教學(xué)。

CALL是外語(yǔ)學(xué)習(xí)的新趨勢(shì),它在中國(guó)的應(yīng)用已經(jīng)有近20年的歷史,但直到多媒體技術(shù)的出現(xiàn),它才真正進(jìn)入外語(yǔ)教學(xué)的課堂。可以預(yù)見(jiàn)CALL作為一種教育技術(shù)在教學(xué)中的運(yùn)用是外語(yǔ)學(xué)習(xí)發(fā)展的必然趨勢(shì)。

(二)計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(CALL)的應(yīng)用及其特點(diǎn)

CALL始于二十世紀(jì)五十年代的美國(guó),在語(yǔ)言教學(xué)中的應(yīng)用始于二十世紀(jì)六十年代。其發(fā)展大致經(jīng)歷了行為主義階段、交際法階段、綜合法階段[1]。

1.行為主義階段(Behavioristic CALL)

60年代,當(dāng)時(shí)的應(yīng)用主要為CAI(Computer-Aided Instruction)課件(courseware)的開(kāi)發(fā)與利用,課件以行為主義(behaviorism)為理論基礎(chǔ)。按照該理論,斯金納設(shè)計(jì)了便于及時(shí)強(qiáng)化的程序教學(xué)機(jī)器和便于進(jìn)行程序教學(xué)的程序[2]。程序教學(xué)主張把教學(xué)目標(biāo)和內(nèi)容分解成很小的單元,按照嚴(yán)格的邏輯順序編制程序,將教學(xué)信息轉(zhuǎn)換成一系列問(wèn)題與答案,電腦呈現(xiàn)一個(gè)問(wèn)題(S),學(xué)生提供一個(gè)答案(R),答對(duì)給予獎(jiǎng)勵(lì),答錯(cuò)給予懲罰,獎(jiǎng)勵(lì)或懲罰緊隨反應(yīng)之后,這樣通過(guò)一步步地強(qiáng)化使學(xué)生掌握教學(xué)內(nèi)容,最終達(dá)到預(yù)期的目標(biāo)。

這時(shí)CALL軟件的特點(diǎn)是:計(jì)算機(jī)僅作為提供素材和指令的工具,將各知識(shí)點(diǎn)以固定方式組織起來(lái);允許學(xué)生根據(jù)自己的步調(diào)自定學(xué)習(xí)進(jìn)度和速度,但學(xué)習(xí)過(guò)程完全由計(jì)算機(jī)程序控制;計(jì)算機(jī)向?qū)W生提供大量的練習(xí),練習(xí)的答案往往是唯一的,學(xué)生的回答沒(méi)有自主性和靈活性。

2.交際法階段(Communicative CALL)

20世紀(jì)80年代,計(jì)算機(jī)的功能大大加強(qiáng),微機(jī)(microcomputer,或稱個(gè)人電腦 personal computer)開(kāi)始應(yīng)用于教育。CAI課件的設(shè)計(jì)原則轉(zhuǎn)向以認(rèn)知心理學(xué)為主導(dǎo),強(qiáng)調(diào)學(xué)習(xí)者的心理特征和認(rèn)知規(guī)律,遵循認(rèn)知的信息加工理論,把學(xué)習(xí)看作是學(xué)習(xí)者根據(jù)自己的態(tài)度、興趣、愛(ài)好和需要,利用原有的認(rèn)知結(jié)構(gòu),對(duì)當(dāng)前外部刺激所提供的信息做出主動(dòng)、有選擇的信息加工。這一時(shí)期CALL軟件的代表是著名學(xué)者安德遜(Aderson)根據(jù)認(rèn)知學(xué)習(xí)理論,研制出的”高中幾何智能輔助教學(xué)系統(tǒng)”,它實(shí)現(xiàn)了對(duì)學(xué)生求解幾何問(wèn)題思維過(guò)程的自動(dòng)跟蹤和控制。

這一時(shí)期CALL軟件的特點(diǎn)是:計(jì)算機(jī)能夠根據(jù)學(xué)習(xí)者的需求和特點(diǎn)進(jìn)行個(gè)別教學(xué),但由于心理學(xué)對(duì)人類學(xué)習(xí)規(guī)律認(rèn)識(shí)不全面和人工智能技術(shù)的發(fā)展不成熟,CALL軟件離個(gè)別化教學(xué)還有一段距離。

3.綜合法階段(Integrative CALL)

80年代后期并持續(xù)至今,多媒體技術(shù)與網(wǎng)絡(luò)技術(shù)取得突破性發(fā)展,尤其是因特網(wǎng)的出現(xiàn)及其迅猛發(fā)展不僅改變了傳統(tǒng)的生產(chǎn)方式、生活方式和思維方式,也改變了人們的教育觀念和學(xué)習(xí)方式,引起了一場(chǎng)教育革命。

同時(shí)期崛起的建構(gòu)主義(constructivism)學(xué)習(xí)理論成為這場(chǎng)教育革命中革新傳統(tǒng)教學(xué)的理論基礎(chǔ)。建構(gòu)主義學(xué)習(xí)理論與認(rèn)知語(yǔ)言學(xué)、社會(huì)語(yǔ)言學(xué)、第二語(yǔ)言習(xí)得的理論等構(gòu)成綜合法的理論基礎(chǔ)。其中社會(huì)語(yǔ)言學(xué)的影響尤為明顯,它強(qiáng)調(diào)在語(yǔ)言學(xué)習(xí)中要為學(xué)生提供真實(shí)的社會(huì)交際,使他們能夠掌握社會(huì)所需要的語(yǔ)言技能(Warshauer&Meskill,1998)。而實(shí)現(xiàn)這一目的的最好方法是使學(xué)生參與有意義的任務(wù)型學(xué)習(xí)(task-based learning)。通過(guò)專題學(xué)習(xí)(thematic learning)、項(xiàng)目型學(xué)習(xí)(project-based learning)、協(xié)作式學(xué)習(xí)(collaborative learning)、跨文化學(xué)習(xí)(cross-cultural learning)等多種方法,在兼學(xué)知識(shí)、文化的同時(shí)學(xué)習(xí)語(yǔ)言。

這一時(shí)期CALL軟件的特點(diǎn)是:(1)計(jì)算機(jī)作為認(rèn)知工具、情感交流及協(xié)作學(xué)習(xí)工具,起到導(dǎo)師、伙伴的作用;(2)提倡為外語(yǔ)學(xué)習(xí)創(chuàng)造真實(shí)的情境,開(kāi)展有意義的、有創(chuàng)造性的語(yǔ)言交際活動(dòng);(3)提倡將語(yǔ)言的學(xué)習(xí)與計(jì)算機(jī)技能的學(xué)習(xí)及使用結(jié)合起來(lái),培養(yǎng)學(xué)生具有21世紀(jì)網(wǎng)絡(luò)時(shí)代所需要的外語(yǔ)交際能力(Warshauer,1996;Warshauer,Shetzer,&Meloni,2000)。

由此可以看出,CALL經(jīng)歷的三個(gè)階段伴隨著教育學(xué)、心理學(xué)、計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展而發(fā)展,CALL系統(tǒng)的設(shè)計(jì)也向著交互性、個(gè)性化、針對(duì)性和創(chuàng)造性的方向發(fā)展。

二、語(yǔ)音識(shí)別技術(shù)在CALL系統(tǒng)的應(yīng)用

(一)語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介

語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別技術(shù)(Automatic Speech Recognition,ASR),其目標(biāo)是讓機(jī)器也能夠像人一樣具有聽(tīng)覺(jué)功能,直接接受人的語(yǔ)言,能理解人的意圖,并做出相應(yīng)的反應(yīng)。

最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是50年代由AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字[3];60和70年代,線性預(yù)測(cè)編碼(Linear Predictive Coding LPC)及動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warp DTW)技術(shù)的提出有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)的匹配問(wèn)題[4],實(shí)現(xiàn)了特定人孤立詞語(yǔ)音識(shí)別系統(tǒng);80年代和90年代,隱馬爾科夫(HMM)模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語(yǔ)音識(shí)別系統(tǒng)的性能比以往更優(yōu)異,實(shí)現(xiàn)了大詞匯量、連續(xù)語(yǔ)音和非特定人的語(yǔ)音識(shí)別。隨著多媒體時(shí)代的到來(lái),語(yǔ)音識(shí)別技術(shù)逐漸從實(shí)驗(yàn)室走向應(yīng)用,其代表有:Via Voice、Whisper、Voice Tone、Voice Action、Siri等。

21世紀(jì),互聯(lián)網(wǎng)和移動(dòng)通信技術(shù)的發(fā)展給語(yǔ)音識(shí)別帶來(lái)了新的契機(jī),語(yǔ)音識(shí)別應(yīng)用已經(jīng)延伸到各個(gè)方面,如通訊領(lǐng)域、計(jì)算機(jī)語(yǔ)音檢索系統(tǒng)、自動(dòng)化控制等。語(yǔ)音識(shí)別技術(shù)已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè),是一門既有理論價(jià)值又有實(shí)際意義的重要學(xué)科。

(二)語(yǔ)音識(shí)別技術(shù)的基本原理

從技術(shù)上看,語(yǔ)音識(shí)別屬于模式識(shí)別的范疇,其系統(tǒng)結(jié)構(gòu)與模式識(shí)別具有相似之處。不同的語(yǔ)音識(shí)別系統(tǒng)在具體實(shí)現(xiàn)細(xì)節(jié)上有所不同,但所采用的原理基本是相似的。首先要對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,并抽取所需的語(yǔ)音特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的語(yǔ)音模板。在識(shí)別過(guò)程中,將輸入的語(yǔ)音信號(hào)的特征與己存在的語(yǔ)音模板進(jìn)行比較,并根據(jù)一定的搜索,找出最優(yōu)的與輸入的語(yǔ)音相匹配的模板。最后,給出計(jì)算機(jī)的識(shí)別結(jié)果。其識(shí)別過(guò)程如圖1:

圖1

(三)語(yǔ)音識(shí)別技術(shù)在CALL中的應(yīng)用

隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,CALL已成為現(xiàn)代教育技術(shù)在教育領(lǐng)域一個(gè)重要應(yīng)用。但最初的CALL主要應(yīng)用在文字閱讀和語(yǔ)言理解能力的訓(xùn)練,現(xiàn)存的CALL系統(tǒng)也大多側(cè)重單詞、語(yǔ)法的學(xué)習(xí)[5],很少關(guān)注語(yǔ)言發(fā)音訓(xùn)練。語(yǔ)音技術(shù)的不斷發(fā)展和成熟為學(xué)習(xí)者發(fā)音練習(xí)提供了可能,它在CALL中最直接的應(yīng)用就是幫助用戶更好地練習(xí)語(yǔ)言發(fā)音。

CALL中引入語(yǔ)音識(shí)別技術(shù),改變了傳統(tǒng)的語(yǔ)言學(xué)習(xí)方式,使得學(xué)習(xí)者能夠?qū)ψ约旱陌l(fā)音做出客觀的評(píng)價(jià)。基于語(yǔ)音識(shí)別技術(shù)的CALL已成為計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)研究的熱點(diǎn),不少公司和科研機(jī)構(gòu)也投入了大量的人力、物力、財(cái)力在研究開(kāi)發(fā)相關(guān)的發(fā)音學(xué)習(xí)系統(tǒng),并且出現(xiàn)了一些較為成熟的產(chǎn)品。如“Pronunciation”、“Tell Me More”等,這些系統(tǒng)采用提供語(yǔ)音信號(hào)波形圖的方式讓學(xué)習(xí)者進(jìn)行模仿,這種方式只是給學(xué)習(xí)者技術(shù)上的沖擊感,對(duì)改善他們的發(fā)音并沒(méi)有實(shí)際的幫助。國(guó)內(nèi)許多英語(yǔ)學(xué)習(xí)軟件都是把各類英語(yǔ)資料(文本、圖片、音頻、視頻)累積在一起,基本上不能對(duì)學(xué)習(xí)者給出有效的反饋信息,即便加入了語(yǔ)音識(shí)別功能,其功能類似于復(fù)讀機(jī),即只能給學(xué)習(xí)者提供發(fā)音演示、錄音跟讀的功能,如“說(shuō)寶堂”、“e百分”等產(chǎn)品。由于很少有軟件會(huì)對(duì)學(xué)習(xí)者的發(fā)音做出一個(gè)整體的評(píng)分,也不能準(zhǔn)確定位和檢測(cè)學(xué)習(xí)者的發(fā)音錯(cuò)誤,更沒(méi)有對(duì)學(xué)習(xí)者的錯(cuò)誤發(fā)音做出一個(gè)反饋和矯正,加之學(xué)習(xí)者因?yàn)樽陨硭较拗疲茈y完全發(fā)現(xiàn)錯(cuò)誤、糾正不正確的發(fā)音。故此,軟件發(fā)音錯(cuò)誤矯正的功能顯得尤為重要。基于語(yǔ)音識(shí)別技術(shù)的CALL系統(tǒng)對(duì)于語(yǔ)言學(xué)習(xí)者來(lái)說(shuō)是一個(gè)有效的輔助語(yǔ)言學(xué)習(xí)的平臺(tái),為了有效的促進(jìn)語(yǔ)言學(xué)習(xí),它應(yīng)該具備如圖2所示的功能。

圖2

通過(guò)分析我們可以發(fā)現(xiàn),目前語(yǔ)音識(shí)別技術(shù)在CALL中的應(yīng)用取得了一些進(jìn)展,但是仍然有一些問(wèn)題等待解決和克服。目前的一些困難和問(wèn)題主要集中在產(chǎn)品設(shè)計(jì)理念和技術(shù)實(shí)現(xiàn)上兩個(gè)方面。

在產(chǎn)品設(shè)計(jì)理念上我們需要考慮以下幾個(gè)問(wèn)題:(1)教育軟件的設(shè)計(jì)和開(kāi)發(fā)應(yīng)該應(yīng)考慮學(xué)習(xí)者的需求,以學(xué)習(xí)者為中心;(2)教育軟件的設(shè)計(jì)應(yīng)該考慮教育學(xué)和教育心理學(xué)的相關(guān)理論,避免書(shū)本知識(shí)的搬家;(3)考慮學(xué)習(xí)者認(rèn)知的個(gè)體差異性,為學(xué)生提供多元化學(xué)習(xí)的認(rèn)知工具。

在技術(shù)實(shí)現(xiàn)上我們需要考慮以下幾個(gè)問(wèn)題:(1)選擇合適的識(shí)別基元以提高識(shí)別率;(2)對(duì)語(yǔ)音信號(hào)的端點(diǎn)更加精確的檢測(cè),即判斷語(yǔ)音信號(hào)的開(kāi)始和結(jié)尾以提高識(shí)別的準(zhǔn)確率;(3)對(duì)給定的發(fā)音進(jìn)行錯(cuò)誤檢測(cè)和糾正,尋找合理的評(píng)分機(jī)制,并對(duì)學(xué)習(xí)者的發(fā)音進(jìn)行及時(shí)、客觀的反饋;(4)提高預(yù)處理階段語(yǔ)音信號(hào)的信噪比;(5)選擇高效的識(shí)別算法以減少識(shí)別時(shí)的搜索范圍,提高識(shí)別速度。

四、結(jié)束語(yǔ)

本文分別介紹了語(yǔ)音識(shí)別技術(shù)和CALL,然后對(duì)語(yǔ)音識(shí)別技術(shù)在CALL中的應(yīng)用進(jìn)行了綜述,并探討了設(shè)計(jì)基于語(yǔ)音識(shí)別技術(shù)的CALL系統(tǒng)時(shí)需要考慮的問(wèn)題。語(yǔ)音識(shí)別技術(shù)作為一種逐漸成熟的技術(shù),它是基于語(yǔ)音識(shí)別技術(shù)的CALL系統(tǒng)的基礎(chǔ)與核心。基于語(yǔ)音識(shí)別技術(shù)的CALL是一種新的、有效的學(xué)習(xí)方式,它能夠有效的促進(jìn)學(xué)習(xí)者口語(yǔ)水平的提高,也是CALL系統(tǒng)的一個(gè)重要發(fā)展方向。

參考文獻(xiàn):

[1]楊芳,曹揚(yáng)波.計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)的發(fā)展與前景[J].中國(guó)科技信息,2011(02).

[2]何克抗,李文光.教育技術(shù)學(xué)[M].北京:北京師范大學(xué)出版社,2009.

[3]詹新明,黃南山,楊燦.語(yǔ)音識(shí)別技術(shù)研究進(jìn)展[J].現(xiàn)代計(jì)算機(jī),2008(09).

[4]馬莉,黨幼云.特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)的仿真與分析[J].西安工程科技學(xué)院學(xué)報(bào),2007(06).

篇5

關(guān)鍵字:形象識(shí)別;VI設(shè)計(jì);餐飲服務(wù);整合藝術(shù)

中圖分類號(hào): S611 文獻(xiàn)標(biāo)識(shí)碼: A

企業(yè)形象識(shí)別(CIS),是企業(yè)通過(guò)策劃和形象識(shí)別,讓被策劃的某品牌從大眾品牌中識(shí)別的技巧與理論統(tǒng)稱。它包括理念、行為與視覺(jué)識(shí)別三個(gè)部分,并且這三個(gè)部分相互作用、聯(lián)系、配合。根據(jù)服務(wù)的易逝性、無(wú)形性、異質(zhì)性以及和消費(fèi)、生產(chǎn)的同時(shí)性等特征影響,產(chǎn)品實(shí)物和服務(wù)生產(chǎn)表現(xiàn)出完全不同的特征,同時(shí),統(tǒng)一、嚴(yán)謹(jǐn)?shù)姆?wù)理論很大程度上也制約了它的發(fā)展。自上個(gè)世紀(jì)八十年代,顧客與服務(wù)提供者的服務(wù)接觸開(kāi)始成為服務(wù)和管理的關(guān)鍵環(huán)節(jié)以來(lái),餐飲服務(wù)藝術(shù)與形象識(shí)別理論越來(lái)越被重視。

一、VI在餐飲空間的整合傳播

(一)VI在餐飲空間的特點(diǎn)

VI是在企業(yè)經(jīng)營(yíng)理念下,通過(guò)平面設(shè)計(jì)將企業(yè)的市場(chǎng)定位和內(nèi)在氣質(zhì)形象化、視覺(jué)化的結(jié)果;同時(shí)它也是獨(dú)立法人和周邊經(jīng)營(yíng)、社會(huì)環(huán)境溝通、聯(lián)系、區(qū)別最常用、直接的平臺(tái)。在大力發(fā)展?fàn)I銷的當(dāng)下,如果企業(yè)沒(méi)有VI,不僅會(huì)影響視覺(jué)形象的清晰度,還會(huì)影響企業(yè)規(guī)模和文化。優(yōu)秀的VI是和普通企業(yè)形成差異的主要因素,并且保障企業(yè)活動(dòng)中的不可替代性和獨(dú)立性,幫助企業(yè)明確定位,所以說(shuō)它屬于無(wú)形資產(chǎn)的關(guān)鍵元素。在傳達(dá)企業(yè)文化與經(jīng)營(yíng)理念的過(guò)程中,用生動(dòng)的視覺(jué)效果進(jìn)行企業(yè)文化宣傳,用自身的視覺(jué)系統(tǒng)吸引公眾,讓消費(fèi)者對(duì)企業(yè)產(chǎn)品與服務(wù)形成忠誠(chéng)度。

另外,它還能幫助企業(yè)提升認(rèn)同感。基礎(chǔ)部分能廣泛應(yīng)用到交通設(shè)備、員工服裝、櫥窗設(shè)計(jì)、建筑系統(tǒng)、外觀指示、戶外用品、辦公招牌、用品包裝、產(chǎn)品廣告、陳列宣傳、公務(wù)環(huán)境、企業(yè)禮品以及印刷等,具體到餐廳logo、環(huán)境、外觀、員工服飾、廣告用品等一系列和餐廳相關(guān)的設(shè)計(jì)因素,形象的VI設(shè)計(jì),能讓餐廳空間具有空間感,并且和其他店面區(qū)別開(kāi)來(lái)。

(二)VI在空間的文化與地域整合

從室內(nèi)設(shè)計(jì)的特征來(lái)看,它是從空間色彩、形態(tài)、材料、陳設(shè)、肌理、裝飾和整體性空間意境表現(xiàn)的結(jié)果。地域形式主要由風(fēng)俗人情、文化禮儀、生活形式、自然風(fēng)情、歷史文化、自然環(huán)境以及本地用材等因素構(gòu)成。利用VI進(jìn)行餐廳形象設(shè)計(jì)、整體規(guī)劃、陳設(shè)布置,能幫助其擁有良好的品牌形象。主要表現(xiàn)在以下幾個(gè)方面:

1、空間形態(tài)

在空間形態(tài)上,通過(guò)改造與重現(xiàn)空間形式,給消費(fèi)者特別的感受。例如:蒙古大營(yíng)就可以利用本地的文化風(fēng)俗,進(jìn)行現(xiàn)代化設(shè)計(jì),在彩繪、穹頂以及柱廊雕刻中,展現(xiàn)現(xiàn)代化的蒙古包特性。

2、色彩設(shè)計(jì)

在平面設(shè)計(jì)中,審美設(shè)計(jì)是在各種地理、政治、民族、習(xí)俗、宗教的發(fā)展中生成的,所以引發(fā)的色彩寓意和喜好也有很大差異。

3、設(shè)計(jì)陳設(shè)

在設(shè)計(jì)中,陳設(shè)又分成裝飾性與功能性陳設(shè)兩種。它的范圍包括墻壁懸掛的各種圖片、藝術(shù)、壁掛等,具體如:供奉的佛像、懸掛的樣品、各式器具等都能烘托餐飲空間和整體性主題。

4、視聽(tīng)

在餐飲平面設(shè)計(jì)中,提升顧客體驗(yàn)元素的形式主要表現(xiàn)在:體驗(yàn)情境、觸動(dòng)、回味和視聽(tīng)上。可以圍繞當(dāng)?shù)氐哪硞€(gè)元素以及餐廳發(fā)展過(guò)程,將某個(gè)主題作為中心,進(jìn)行材質(zhì)、形態(tài)、聲響、色彩、觸感、裝飾等全方位的設(shè)計(jì),從而達(dá)到深化用餐感受的效果。

二、形象識(shí)別在餐飲服務(wù)藝術(shù)中的應(yīng)用

(一)VI在餐飲空間的應(yīng)用

Logo不僅是某個(gè)企業(yè)文字與圖像的組合,同時(shí)也是以企業(yè)構(gòu)造、類別、經(jīng)營(yíng)方式為理念,在接觸外部環(huán)境與對(duì)象的過(guò)程中,為其制定新型的視覺(jué)符號(hào)。它作為標(biāo)志性符號(hào),經(jīng)常作為裝飾元素進(jìn)行應(yīng)用,印在菜牌、餐具、餐巾紙上。從整體來(lái)看,餐飲空間的內(nèi)部裝潢、名字顏色、字體、桌椅風(fēng)格以及大廳擺設(shè)等;從細(xì)節(jié)來(lái)看,餐廳服務(wù)員的菜單、服裝、桌牌、餐具、訂餐卡、員工名片等都在VI系統(tǒng),過(guò)程就是導(dǎo)入過(guò)程。

在設(shè)計(jì)中,墻面、地面、隔斷、前臺(tái)、雅間、洗手間、大廳等,不管是什么形態(tài)、顏色都必須采用統(tǒng)一的設(shè)計(jì)方式進(jìn)行,幫助企業(yè)塑造形象和品牌凝聚力。在VI設(shè)計(jì)中,不僅要體現(xiàn)在空間領(lǐng)域,還要整合環(huán)境色彩、材質(zhì)、燈光配置、綠色植被、空間設(shè)置等,并且讓空間和VI有著緊密的搭配。

(二)企業(yè)形象識(shí)別系統(tǒng)優(yōu)勢(shì)

在餐飲服務(wù)設(shè)計(jì)中,企業(yè)形象很注重個(gè)別系統(tǒng)的統(tǒng)一性與一體化,形象識(shí)別系統(tǒng)作為服務(wù)活動(dòng)、經(jīng)營(yíng)活動(dòng)、銷售等一系列行為構(gòu)成的系統(tǒng),它具有一體化特征,從企業(yè)思想、行為識(shí)別到視覺(jué)形象,形象識(shí)別都能展現(xiàn)行動(dòng)、思想、視覺(jué)上的共同特征。同時(shí)這也是企業(yè)統(tǒng)一性、已提醒管理與經(jīng)營(yíng)必不可少的部分。例如:傳統(tǒng)餐飲管理主要從業(yè)務(wù)特征上進(jìn)行考察,然后再設(shè)定各種規(guī)章、準(zhǔn)則,這樣就會(huì)讓其缺乏精神與物質(zhì)上的聯(lián)系。企業(yè)形象識(shí)別不只是管理手段,更是新型的文化體系。所以講企業(yè)形象引用到現(xiàn)代餐飲管理中,能拉近經(jīng)營(yíng)思想和企業(yè)管理之間的聯(lián)系,讓員工行為更具有凝聚力和統(tǒng)攝力。

企業(yè)形象識(shí)別作為整合性系統(tǒng),它能充分發(fā)揮各個(gè)系統(tǒng)功能。當(dāng)其作為整體系統(tǒng)發(fā)揮作用時(shí),它具有單獨(dú)、孤立作用下沒(méi)有的特性,也就是整體大于部分之和。例如:在廣告中,將企業(yè)形象應(yīng)用在餐飲廣告中,必然會(huì)涉及形象識(shí)別,所以,在廣告出現(xiàn)時(shí),餐飲企業(yè)的服務(wù)質(zhì)量、促銷配合、識(shí)別宣傳就能提高,通過(guò)為其鋪路、搭臺(tái)、烘托氛圍,逐步提高廣告效應(yīng),反之廣告活動(dòng)也為餐飲公關(guān)、促銷、理念進(jìn)行了宣傳。

(三)企業(yè)形象識(shí)別存在問(wèn)題

從目前的餐飲業(yè)應(yīng)用形象識(shí)別理論進(jìn)程來(lái)看:企業(yè)形象識(shí)別還處于理論較松散、偏實(shí)踐的狀態(tài)。如:企業(yè)形象識(shí)別在美國(guó)是一種思想,在日本則是提高內(nèi)部凝聚力的重要方法。從當(dāng)前的企業(yè)形象識(shí)別體系來(lái)看,企業(yè)形象依然缺乏有效的信息反饋方式,這是企業(yè)形象識(shí)別需要考慮的問(wèn)題,也是實(shí)踐探究必須正視的元素。因此,在現(xiàn)代餐飲形象識(shí)別中,必須注重自身不足,并且做好修正、彌補(bǔ)工作。

另外,企業(yè)形象識(shí)別也需要一定的實(shí)施條件。它的高起點(diǎn)策略,主要體現(xiàn)在市場(chǎng)發(fā)展和內(nèi)部需求上,很多中高檔企業(yè)由于服務(wù)質(zhì)量、企業(yè)管理起步相對(duì)較早,在經(jīng)驗(yàn)、資金、員工素質(zhì)達(dá)標(biāo)的情況,擁有實(shí)施形象識(shí)別的條件;而國(guó)內(nèi)目前的餐飲企業(yè),很多都不具有完備的條件,服務(wù)質(zhì)量、組織結(jié)構(gòu)都有待提高。

(四)企業(yè)形象識(shí)別應(yīng)用必要性和方法

從餐飲業(yè)發(fā)展來(lái)看,為了適應(yīng)市場(chǎng)需求,將企業(yè)形象應(yīng)用到餐飲行業(yè)是時(shí)代的需要。隨著人口增加,第三產(chǎn)業(yè)比重上升,餐飲業(yè)將呈現(xiàn)出良好的發(fā)展空間和激烈的競(jìng)爭(zhēng)形勢(shì)。在餐飲行業(yè)國(guó)際化的大趨勢(shì)下,國(guó)內(nèi)餐飲業(yè)面臨著國(guó)外市場(chǎng),所以必須快速和國(guó)際市場(chǎng)接軌。但是,我們也應(yīng)該看到:國(guó)內(nèi)餐飲業(yè)和國(guó)際還存在很大差距,不僅表現(xiàn)在監(jiān)督、服務(wù)和投資上,還必須及時(shí)做好導(dǎo)入和設(shè)計(jì)工作,提高服務(wù)觀念,快速解決各種問(wèn)題。因此,在實(shí)際工作中,餐飲企業(yè)必須正視餐飲識(shí)別系統(tǒng),把握導(dǎo)入時(shí)機(jī),在導(dǎo)入時(shí),根據(jù)VI設(shè)計(jì)要求,強(qiáng)化工作進(jìn)程。

結(jié)束語(yǔ):

餐飲服務(wù)藝術(shù)作為一項(xiàng)系統(tǒng)、復(fù)雜的工作,將形象識(shí)別理論應(yīng)用在餐飲業(yè)中,對(duì)提高服務(wù)質(zhì)量與工作效益具有很大作用。因此,在實(shí)際工作中,必須把握VI設(shè)計(jì)特點(diǎn)以及實(shí)際情況,從各方面完善餐飲服務(wù)質(zhì)量,促進(jìn)餐飲企業(yè)發(fā)展。

參考文獻(xiàn):

[1] 徐冉,陸曉云.基于形象識(shí)別理論的餐飲服務(wù)藝術(shù)淺析[J].黑龍江科技信息,2014,(19):287-287.

[2] 鮑堯.基于服務(wù)接觸視角的服務(wù)品牌權(quán)益影響因素研究[D].東南大學(xué),2010.

[3] 嚴(yán)海岸.CIS中VI設(shè)計(jì)的數(shù)字化技術(shù)與應(yīng)用[D].山東大學(xué),2011.

篇6

關(guān)鍵詞:PCA變換;k近鄰法;數(shù)字識(shí)別

中圖分類號(hào):TP391

1PCA的基本思想

PCA是采取一種數(shù)學(xué)降維的方法,找出幾個(gè)綜合變量來(lái)代替原來(lái)眾多的變量,使這些綜合變量能盡可能地代表原來(lái)變量的信息量,而且彼此之間互不相關(guān)。這種將把多個(gè)變量化為少數(shù)幾個(gè)互相無(wú)關(guān)的綜合變量的統(tǒng)計(jì)分析方法就叫做主成分分析或主分量分析。

PCA所要做的就是設(shè)法將原來(lái)眾多具有一定相關(guān)性的變量,重新組合為一組新的相互無(wú)關(guān)的綜合變量來(lái)代替原來(lái)變量。通常,數(shù)學(xué)上的處理方法就是將原來(lái)的變量做線性組合,作為新的綜合變量,但是這種組合如果不加以限制,則可以有很多,應(yīng)該如何選擇呢?如果將選取的第一個(gè)線性組合即第一個(gè)綜合變量記為F1,自然希望它盡可能多地反映原來(lái)變量的信息,這里“信息”用方差來(lái)測(cè)量,即希望Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中所選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)p個(gè)變量的信息,再考慮選取F2即第二個(gè)線性組合,為了有效地反映原來(lái)信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,通過(guò)數(shù)學(xué)表達(dá)就是要求Cov(F1,F(xiàn)2)=0,稱F2為第二主成分,依此構(gòu)造出第三、四……第p個(gè)主成分。

2k近鄰法

2.1模式識(shí)別方法

模式識(shí)別是指對(duì)事物、現(xiàn)象的相關(guān)信息進(jìn)行分析、處理從而進(jìn)行有效的辨認(rèn)、描述的過(guò)程,首先,選擇一定的樣本,結(jié)合樣本間的相似度設(shè)計(jì)對(duì)識(shí)別樣本進(jìn)行分類決策的分類器。由預(yù)處理、模式特征或基元選擇、識(shí)別組成,系統(tǒng)的簡(jiǎn)單框圖如下圖所示:

模式識(shí)別簡(jiǎn)單框圖

2.2K-近鄰法決策

一般意義上講,在知道系統(tǒng)分布密度的條件下,Bayes理論所設(shè)計(jì)的分類器性能最越優(yōu),然而,在實(shí)際應(yīng)用過(guò)程中,繁瑣的系統(tǒng)分部密度求取經(jīng)常給人們帶來(lái)很多的不方便,且很多時(shí)候,參數(shù)或概率密度函數(shù)未知,所以,Bayes方法沒(méi)能廣泛應(yīng)用,非參數(shù)模式識(shí)別分類方法一般能更好的解決模式識(shí)別分類問(wèn)題,實(shí)際應(yīng)用廣泛。

k近鄰法是非數(shù)模式識(shí)別決策分類方法中最重要的方法之一,它無(wú)須估計(jì)概率、概密度函數(shù)而結(jié)合樣本特征信息進(jìn)行決策的模式識(shí)別分類方法,如果準(zhǔn)備了訓(xùn)練樣本,該分類技術(shù)根據(jù)最近距離給識(shí)別模式給予分類,而不進(jìn)行訓(xùn)練,具有直觀、簡(jiǎn)單、高效等諸多特點(diǎn)。

設(shè):c個(gè)類別ω1,ω2,…ωc的模式識(shí)別問(wèn)題,ωi類中有Ni個(gè)樣本向量xj(i),(i=1,2,…,c;j=1,2…,Ni),訓(xùn)練樣本(所有類別)的總數(shù): 。

在定義模式相似性測(cè)度后才能劃分模式的類別,并通過(guò)劃分模式類別來(lái)表征模式間的相似度。x、y之間的向量差可以度量模式特征向量x、y的相似度,記錄該向量差為距離d的歐式范數(shù),即歐式距離:d(x,y)=||x-y||2=||x-y||。該距離具有平移不變性、旋轉(zhuǎn)不變性。

最近鄰法之模式識(shí)別分類思想為:待識(shí)別模式向量假設(shè)為x,計(jì)算x與各已知類別的樣本模式向量xj(i)的距離,把它判決為最短距離的樣本所屬類別。

由最近鄰法的分類思想給出定義ωi類的判斷識(shí)別函數(shù)為:

(1)

判別決策的規(guī)定原則為:如 ,則,把它判決為x∈ωm類。此方法研究距離x最近的訓(xùn)練樣本的類別來(lái)判決x的類別,所以,定義此方法為最近鄰法。

如果就單個(gè)樣本,難免會(huì)有偶然性效應(yīng),為此,實(shí)際操作過(guò)程中,可以觀察待識(shí)別模式向量的k個(gè)臨近樣本,從而總結(jié)得出在這k個(gè)臨近樣本中所屬樣本最多的類別來(lái)決策類別,以增加分類的可靠性。設(shè)k1,k2,……,kc為x的最近鄰的k個(gè)樣本分別屬于ω1,ω2,…ωc類的樣本數(shù),即 ;在ωi類中具備Ni個(gè)樣本訓(xùn)練模式向量xj(i),(i=1,2,…,c;j=1,2…,Ni),訓(xùn)練樣本(所有類別)的總數(shù)為 。

ωi類的判斷識(shí)別函數(shù)定義為gi(x)=ki,i=1,2,…,;判別決策的規(guī)定原則為:如 ,則,把它判決為x∈ωm類。此方法一般稱其為k-近鄰法。

k-近鄰法統(tǒng)計(jì)意義上的解釋由Cover和Hart給出,研究結(jié)果證明:當(dāng)待識(shí)別模式向量x的最近鄰k和訓(xùn)練樣本總數(shù)N和∞,且k/N0時(shí),k-近鄰法的分類誤識(shí)別率與Bayes決策的分類誤識(shí)別率相等,當(dāng)樣本數(shù)量N∞時(shí),k-近鄰法性能表現(xiàn)。

當(dāng)k值小于各類樣本的最小值時(shí),k值與算法的穩(wěn)健性成正比,即k值越大,算法越穩(wěn)健,如果不具備k值小于各類樣本的最小值,近鄰就不是樣本的局部近鄰,有研究指出k取值為 或 。k-近鄰法以k值為數(shù),像票決一樣,盡可能避免票數(shù)相等,難以決策。在N趨于無(wú)窮大時(shí),k-近鄰法的準(zhǔn)確率要明顯高于最近鄰法。

3基于PCA變換和k近鄰法的印刷體識(shí)別算法設(shè)計(jì)

主元個(gè)數(shù) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

識(shí)別率 32% 78 86 90 88 86 90 88 86 86 88 90 88 92 92 92

4實(shí)驗(yàn)結(jié)果及分析

通過(guò)PCA變換和k近鄰法的印刷體識(shí)別算法實(shí)驗(yàn)可知,在主元個(gè)數(shù)在1-4時(shí),識(shí)別率成明顯上升趨勢(shì),主元個(gè)數(shù)在5-13時(shí),識(shí)別率有上下波動(dòng)的趨勢(shì),主元個(gè)數(shù)大于14后,識(shí)別率趨于穩(wěn)定,且識(shí)別率達(dá)到92%。

參考文獻(xiàn):

[1]章慎鋒,楊淑瑩,王厚雪.基于Bayes決策的手寫體數(shù)字識(shí)別[J].天津理工大學(xué)學(xué)報(bào),2006.

[2]胡合興.經(jīng)驗(yàn)?zāi)P头纸庠谑謱戵w數(shù)字識(shí)別中的應(yīng)用[J].湖南文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2005.

[3]唐,劉波,蔡自興,謝斌.基于二維主成分分析的交通標(biāo)志牌識(shí)別[J].計(jì)算機(jī)科學(xué),2010.

篇7

關(guān)鍵詞:Speech SDK;語(yǔ)音識(shí)別;Voyager-IIA旅行家二號(hào);教學(xué)平臺(tái)

中圖分類號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2013)005-0096-02

0、引言

教學(xué)技術(shù)的進(jìn)步關(guān)鍵在于構(gòu)建一個(gè)良好的輔助教學(xué)支撐平臺(tái),通過(guò)該平臺(tái)教師可以方便地展示教學(xué)課程信息,學(xué)生利用該教學(xué)平臺(tái)可以進(jìn)行科學(xué)實(shí)驗(yàn)和工程實(shí)踐,以獲取真實(shí)的實(shí)驗(yàn)數(shù)據(jù)。

機(jī)器人學(xué)作為一門綜合了機(jī)械、電子、計(jì)算機(jī)及人工智能、仿生等諸多專業(yè)的新興學(xué)科,在工程研究和應(yīng)用領(lǐng)域得到了越來(lái)越廣泛的重視。我國(guó)各大高等院校也紛紛開(kāi)設(shè)與機(jī)器人相關(guān)的課程,這對(duì)普及機(jī)器人知識(shí)和加強(qiáng)其產(chǎn)業(yè)化進(jìn)程無(wú)疑會(huì)起到重要的作用。

基于這種理念,設(shè)計(jì)了基于ARM11的智能語(yǔ)音識(shí)別機(jī)器人教學(xué)平臺(tái)。

1、語(yǔ)音識(shí)別機(jī)器人教學(xué)平臺(tái)現(xiàn)狀

教學(xué)技術(shù)平臺(tái)是開(kāi)展各科教學(xué)的必要條件,是現(xiàn)代教育教學(xué)開(kāi)展的基礎(chǔ)。從近年發(fā)展的情況看,各種教學(xué)平臺(tái)的設(shè)計(jì)與運(yùn)用在教學(xué)過(guò)程中起著越來(lái)越重要的作用。如何設(shè)計(jì)滿足現(xiàn)代學(xué)習(xí)者需要的教學(xué)平臺(tái)?如何將計(jì)算機(jī)技術(shù)、通信技術(shù)、機(jī)器人技術(shù)發(fā)展優(yōu)勢(shì)同現(xiàn)代教學(xué)的需求結(jié)合起來(lái)?這是現(xiàn)在教學(xué)平臺(tái)發(fā)展至關(guān)重要的方面。現(xiàn)代教學(xué)平臺(tái)在技術(shù)發(fā)展驅(qū)動(dòng)和現(xiàn)代教育應(yīng)用形態(tài)發(fā)展需求下,出現(xiàn)了許多不同的個(gè)性化教學(xué)技術(shù)平臺(tái)。

隨著人們對(duì)現(xiàn)代教育認(rèn)識(shí)的加深和對(duì)傳統(tǒng)教育的反思,人們的知識(shí)觀和教育觀發(fā)生了很大變化。高校課程改革大舉推進(jìn),高等教育更要突出實(shí)踐、突出創(chuàng)新。高校課程要突出沉浸感、交互性、自主性等特征。教學(xué)平臺(tái)本身將從以教學(xué)機(jī)構(gòu)為中心逐步走向以學(xué)生為中心,教學(xué)平臺(tái)從提供教學(xué)內(nèi)容、教學(xué)產(chǎn)品轉(zhuǎn)向?yàn)閷W(xué)習(xí)服務(wù)的功能。

國(guó)內(nèi)外許多高等院校都已開(kāi)展了機(jī)器人教學(xué)工作。麻省理工學(xué)院開(kāi)設(shè)了認(rèn)知機(jī)器人學(xué)、機(jī)器人學(xué)導(dǎo)論、自控機(jī)器人設(shè)計(jì)競(jìng)賽和機(jī)器人編程競(jìng)賽等課程,分別在航空航天學(xué)、機(jī)械工程學(xué)和電氣工程與計(jì)算機(jī)科學(xué)專業(yè)中開(kāi)設(shè);北京郵電大學(xué)為本科生開(kāi)設(shè)了工業(yè)機(jī)器人技術(shù),相應(yīng)的實(shí)驗(yàn)課為機(jī)器人系統(tǒng)綜合性試驗(yàn);浙江大學(xué)自動(dòng)控制系為本科生開(kāi)設(shè)了機(jī)器人學(xué),在校內(nèi)組織了多種形式的機(jī)器人競(jìng)賽活動(dòng),包括FIRA小型足球機(jī)器人競(jìng)賽、開(kāi)放性公共目標(biāo)機(jī)器人競(jìng)賽等。總之,國(guó)內(nèi)外高校廣泛開(kāi)展了以機(jī)器人為對(duì)象的教學(xué)平臺(tái)建設(shè),開(kāi)設(shè)機(jī)器人技術(shù)課程、開(kāi)展本科畢業(yè)設(shè)計(jì)的機(jī)器人實(shí)踐活動(dòng)以及多層次機(jī)器人競(jìng)賽活動(dòng)。

2、語(yǔ)音識(shí)別技術(shù)基本方法

語(yǔ)音識(shí)別技術(shù)目前的主流算法,主要有傳統(tǒng)的基于動(dòng)態(tài)時(shí)間規(guī)整(DynamicTimeWarping,簡(jiǎn)稱DTW)算法、基于非參數(shù)模型的矢量量化(Vector Quantization,簡(jiǎn)稱VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(Hidden Markov Mod—els,簡(jiǎn)稱HMM)方法和基于人工神經(jīng)網(wǎng)絡(luò)(Artificial NeuralNetwork,簡(jiǎn)稱ANN)等語(yǔ)音識(shí)別方法。

3、語(yǔ)音識(shí)別機(jī)器人教學(xué)平臺(tái)研究與設(shè)計(jì)

3.1 設(shè)計(jì)思路

語(yǔ)音識(shí)別機(jī)器人教學(xué)平臺(tái),將Windows CE6.O系統(tǒng)定制和移植到以ARM11為處理器的核心板上,并且在Windows CE6.O系統(tǒng)上實(shí)現(xiàn)對(duì)機(jī)器人的語(yǔ)音控制,從而擺脫基于PC機(jī)控制的不便。在實(shí)現(xiàn)過(guò)程中,將應(yīng)用微軟公司開(kāi)發(fā)的Speech SDK5.1為平臺(tái),通過(guò)調(diào)用微軟的SpeechSDK語(yǔ)音識(shí)別引擎,使用開(kāi)發(fā)板串口連接并驅(qū)動(dòng)機(jī)器人執(zhí)行一些簡(jiǎn)單的行為動(dòng)作。

3.2 語(yǔ)音識(shí)別機(jī)器人教學(xué)平臺(tái)系統(tǒng)架構(gòu)

本教學(xué)系統(tǒng)采用的$3C6410是一款基于ARM11內(nèi)核的微控制器,其主頻達(dá)667MHz,并具有豐富的接口。本控制器(如圖1)的硬件主要包括采用ARM11內(nèi)核的$3C6410微處理器、機(jī)器人驅(qū)動(dòng)器、電源、串口、麥克風(fēng)、揚(yáng)聲器等。

本語(yǔ)音識(shí)別機(jī)器人,主要由開(kāi)發(fā)板的麥克風(fēng)接口進(jìn)行語(yǔ)音信號(hào)的采集,通過(guò)控制器擴(kuò)展板進(jìn)行語(yǔ)音信號(hào)的處理,處理時(shí)調(diào)用微軟的語(yǔ)音識(shí)別引擎進(jìn)行語(yǔ)音信號(hào)的識(shí)別與合成,然后通過(guò)內(nèi)部編程由擴(kuò)展板的串口向機(jī)器人發(fā)送相關(guān)的指令來(lái)驅(qū)動(dòng)電機(jī)的轉(zhuǎn)動(dòng),從而實(shí)現(xiàn)機(jī)器人的左轉(zhuǎn)、右轉(zhuǎn)、前進(jìn)、后退、停止等語(yǔ)音控制。

3.3 教學(xué)平臺(tái)系統(tǒng)移植模型

系統(tǒng)移植模型(如圖2)協(xié)助WindowsCE實(shí)現(xiàn)廣泛的硬件支持,同樣使用了工具和軟件接口技術(shù)整合的形式。這一層的可移植性主要在3個(gè)層面:CSP支持不同的處理器系統(tǒng)結(jié)構(gòu);BSP支持不同的硬件主機(jī)板(I/0、總線等等);驅(qū)動(dòng)程序支持不同的。從工具的角度看,開(kāi)發(fā)工具主要是以指導(dǎo)手冊(cè)的形式協(xié)助開(kāi)發(fā)者配置修改一個(gè)具體的OAL。驅(qū)動(dòng)模型被包括在Windows CE的類別驅(qū)動(dòng)程序中,這些類別驅(qū)動(dòng)程序一般由Windows CE操作系統(tǒng)提供。

3.4 語(yǔ)音識(shí)別類封裝及算法實(shí)現(xiàn)流程

語(yǔ)音識(shí)別過(guò)程是將自然語(yǔ)言轉(zhuǎn)換為數(shù)據(jù)信息的過(guò)程,語(yǔ)音識(shí)別技術(shù)也可以簡(jiǎn)單描述成Speech-to-Text的識(shí)別。該語(yǔ)音識(shí)別系統(tǒng)的處理過(guò)程是:學(xué)習(xí)者通過(guò)語(yǔ)音輸入設(shè)備輸入語(yǔ)音信號(hào),然后通過(guò)語(yǔ)音接收器接收語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為數(shù)字信號(hào),傳入語(yǔ)音識(shí)別引擎進(jìn)行處理,語(yǔ)音識(shí)別引擎處理完成后傳遞給相關(guān)語(yǔ)音識(shí)別程序去處理相關(guān)應(yīng)用,從而達(dá)到利用語(yǔ)音來(lái)實(shí)現(xiàn)某種控制的效果。本系統(tǒng)的語(yǔ)音識(shí)別類封裝和語(yǔ)音識(shí)別算法實(shí)現(xiàn)流程如圖3所示。

篇8

14年前,志在語(yǔ)音識(shí)別的科大訊飛在合肥悄然成立,當(dāng)時(shí)還被外界譏笑為“草臺(tái)班子”的這家本土創(chuàng)業(yè)公司,如今已經(jīng)發(fā)展成為亞太地區(qū)最大的語(yǔ)音上市公司。作為中國(guó)語(yǔ)音識(shí)別的“領(lǐng)頭羊”,科大訊飛的這個(gè)標(biāo)簽還能貼多久?在科大訊飛副總裁兼創(chuàng)始人之一江濤看來(lái),科大訊飛的突破點(diǎn)在于,提供語(yǔ)音識(shí)別的技術(shù)和服務(wù),解放人們的雙手。

“草臺(tái)班子”的摸索

創(chuàng)業(yè)之初,科大訊飛希望改變?nèi)祟愂褂秒娔X的方式。但事實(shí)證明,時(shí)候未到。

上世紀(jì)90年代末,語(yǔ)音識(shí)別技術(shù)已經(jīng)在全球范圍內(nèi)掀起了一波熱潮,科大訊飛也是順著這股熱潮成立的。“彼時(shí),IBM、英特爾等幾大主流科技公司也早已開(kāi)始語(yǔ)音識(shí)別技術(shù)的研發(fā)和商業(yè)探索。”江濤告訴《二十一世紀(jì)商業(yè)評(píng)論》(以下簡(jiǎn)稱《21CBR》)。1998年IBM了第一個(gè)基于語(yǔ)音識(shí)別技術(shù)的產(chǎn)品。第二年全球科技十件大事之一便是IBM的語(yǔ)音識(shí)別技術(shù),計(jì)算機(jī)第一次能夠進(jìn)行語(yǔ)音輸入。除了IBM,英特爾、摩托羅拉、松下等很多國(guó)外巨頭也都開(kāi)始在國(guó)內(nèi)設(shè)立語(yǔ)音研發(fā)中心,希望在人機(jī)交互和信息錄入領(lǐng)域搶占先機(jī)。

“但是在后來(lái)證明,這個(gè)技術(shù)和產(chǎn)品在當(dāng)時(shí)的條件下是不成熟的。”江濤認(rèn)為有兩個(gè)方面原因:一個(gè)是當(dāng)時(shí)的語(yǔ)音針對(duì)PC,而PC相對(duì)于鍵盤和鼠標(biāo)這些交互設(shè)備比較成熟,語(yǔ)音的需求并不夠迫切。另外,“當(dāng)時(shí)整個(gè)云計(jì)算、移動(dòng)互聯(lián)網(wǎng)的環(huán)境和體系還沒(méi)有形成。全是單機(jī),在一臺(tái)機(jī)器上安裝一個(gè)語(yǔ)音識(shí)別系統(tǒng)需要鍛煉很久,使用成本太高。”

即便如此,直到2000年前后,中國(guó)的語(yǔ)音技術(shù)基本都掌握在IBM等大公司手中。而像科大訊飛這樣的本土創(chuàng)業(yè)公司,空有實(shí)驗(yàn)室技術(shù),在當(dāng)時(shí)的環(huán)境下不知道該如何面向市場(chǎng),面向用戶。“我們一直到2004年才盈虧平衡,在這個(gè)過(guò)程中我們沒(méi)有錢,也不知道該怎么開(kāi)拓市場(chǎng),所有人都是技術(shù)出身,都沒(méi)有產(chǎn)業(yè)經(jīng)驗(yàn)。”江濤說(shuō)。

創(chuàng)業(yè)之初,科大訊飛希望改變?nèi)祟愂褂秒娔X的方式。“我們當(dāng)時(shí)做了一個(gè)叫做‘暢言2000’的產(chǎn)品。口號(hào)是把鍵盤輸入的準(zhǔn)確性、語(yǔ)音輸入的方便性、手寫輸入的隨意性融合在一起,它可以打開(kāi)瀏覽器,打開(kāi)Word,然后配合手寫板輸入內(nèi)容。”這是科大訊飛的第一個(gè)產(chǎn)品,一套軟件當(dāng)時(shí)的定價(jià)是1000多元人民幣。“但是去哪里推廣,怎么做推廣,我們完全不知道。”

隨著“暢言2000”以失敗告終,苦于推廣無(wú)門的科大訊飛第一次參加了當(dāng)年的高交會(huì)。“當(dāng)時(shí)華為等一些做電信設(shè)備的廠商公司發(fā)現(xiàn)了我們,在他們的呼叫中心智能網(wǎng)中間有需要使用語(yǔ)音的地方,比如說(shuō)語(yǔ)音合成,呼叫中心的語(yǔ)音播報(bào),智能網(wǎng)中間的信息播報(bào)等。”很快,迅飛便跟華為、中興等一些大的廠商對(duì)接上,成為它們的語(yǔ)音技術(shù)提供商。

“我們后來(lái)一想也是這樣,一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)沒(méi)有市場(chǎng)經(jīng)驗(yàn),也沒(méi)有市場(chǎng)能力,沒(méi)有資金,不可能去做‘2C’的市場(chǎng),那個(gè)時(shí)候的條件也不具備。做‘2B’的市場(chǎng),做自己擅長(zhǎng)的部分,把技術(shù)提供給合作伙伴,然后合作伙伴去做對(duì)應(yīng)的應(yīng)用更可行。”江濤說(shuō)。這是科大迅飛的第一桶金,也是第一個(gè)商業(yè)模式。“依靠這個(gè)模式,我們實(shí)現(xiàn)了盈虧平衡。到2004年,我們已經(jīng)是中國(guó)最大的語(yǔ)音技術(shù)提供商。”

在嘗到了做“技術(shù)提供商”的甜頭后,2004年,手機(jī)彩鈴被引進(jìn)中國(guó),“在沒(méi)有智能手機(jī)的時(shí)代,面對(duì)幾十萬(wàn)首歌,用戶在電話里怎么選?”江濤說(shuō),為此,迅飛開(kāi)發(fā)了針對(duì)音樂(lè)的語(yǔ)音搜索,“想下載誰(shuí)的彩鈴,聽(tīng)誰(shuí)的歌,直接在電話里面語(yǔ)音搜索。”在這個(gè)基礎(chǔ)上,迅飛進(jìn)一步把技術(shù)應(yīng)用到跟音樂(lè)、彩鈴下載和搜索相關(guān)的其他領(lǐng)域。“現(xiàn)在聯(lián)通、電信,還有移動(dòng),相關(guān)于音樂(lè)的語(yǔ)音搜索技術(shù)全部由訊飛提供。”江濤說(shuō)。

基于同樣的思路,迅飛開(kāi)始把語(yǔ)音識(shí)別技術(shù)擴(kuò)展到教育領(lǐng)域。“從技術(shù)上看,針對(duì)這兩個(gè)領(lǐng)域,迅飛所做的事情主要是語(yǔ)音合成,把語(yǔ)音轉(zhuǎn)換成文字。”江濤告訴《21CBR》,雖然在當(dāng)時(shí)這個(gè)技術(shù)事實(shí)上已經(jīng)沒(méi)有門檻,但迅飛的優(yōu)勢(shì)在于做“技術(shù)提供商”的商業(yè)模式和針對(duì)細(xì)分領(lǐng)域提供的服務(wù)。目前,針對(duì)音樂(lè)和教育領(lǐng)域的收入依然是迅飛營(yíng)收的主要來(lái)源之一。“現(xiàn)在音樂(lè)領(lǐng)域每年的收入大概在一個(gè)億左右。”

從技術(shù)到服務(wù)

語(yǔ)音識(shí)別不是完全靠算法能解決的,時(shí)間和數(shù)據(jù)積累才是最大的壁壘。

2008年前后,中國(guó)開(kāi)始發(fā)放3G牌照,以蘋果、安卓為代表的智能機(jī)逐步興起。“我們覺(jué)得這個(gè)時(shí)候語(yǔ)音技術(shù)真正的機(jī)會(huì)才出現(xiàn),因?yàn)橹悄苁謾C(jī)相對(duì)于PC來(lái)說(shuō),屏幕更小,輸入更不方便,語(yǔ)音在人機(jī)交互過(guò)程中顯得更有價(jià)值。”江濤說(shuō)。目前,訊飛所開(kāi)發(fā)的手機(jī)應(yīng)用訊飛語(yǔ)音已擁有超過(guò)2億用戶。

“我們現(xiàn)在最大的挑戰(zhàn)還是用戶的習(xí)慣,尤其是中國(guó)人覺(jué)得對(duì)著手機(jī)說(shuō)話太傻了。”江濤說(shuō)。好在隨著蘋果、谷歌加上騰訊的微信正在不斷地教育用戶的使用習(xí)慣,越來(lái)越多的人開(kāi)始適應(yīng)這種跟機(jī)器的交流方式。

科大訊飛在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域的另一個(gè)產(chǎn)品是訊飛輸入法。“我們從2011年開(kāi)始做這個(gè)產(chǎn)品,當(dāng)時(shí)訊飛沒(méi)有任何知名度,沒(méi)有品牌,完全靠用戶口碑來(lái)推廣。”江濤說(shuō)。目前,訊飛輸入法的用戶超過(guò)8000萬(wàn)。

盡管移動(dòng)互聯(lián)網(wǎng)來(lái)勢(shì)洶洶,江濤和他的團(tuán)隊(duì)還是希望把自己定位為“語(yǔ)音服務(wù)提供商”。“我們一方面還會(huì)持續(xù)面向電視機(jī)、汽車、地圖等合作伙伴提供語(yǔ)音技術(shù),另外一方面也會(huì)以輸入法這些產(chǎn)品為代表,面向用戶提供直接的交互服務(wù)和終端產(chǎn)品。”江濤告訴《21CBR》記者。目前,康佳、海爾、創(chuàng)維、海信等電視廠商都采用了迅飛語(yǔ)音識(shí)別技術(shù)和開(kāi)發(fā)平臺(tái)。訊飛也與國(guó)內(nèi)主要汽車電子廠商及車廠等建立了合作,包括奇瑞、江淮、上汽、奧迪、德?tīng)柛!⒋箨戨娮印⒐龋@一領(lǐng)域?qū)緺I(yíng)收的貢獻(xiàn)微乎其微。

從技術(shù)的角度來(lái)看,語(yǔ)音識(shí)別在過(guò)去20年的發(fā)展和進(jìn)化過(guò)程中早已不再擁有高門檻。在外界看來(lái),科大訊飛缺乏足夠?qū)拸V的護(hù)城河——掌握互聯(lián)網(wǎng)入口的企業(yè)百度、騰訊等巨頭,都在覬覦語(yǔ)音識(shí)別領(lǐng)域。而隨著3G網(wǎng)絡(luò)和智能終端的普及,這些條件又為語(yǔ)音識(shí)別打開(kāi)了一扇新的大門。江濤也認(rèn)為:“目前,就技術(shù)上的發(fā)展來(lái)講,語(yǔ)音識(shí)別的門檻的確不高,大數(shù)據(jù)云計(jì)算帶來(lái)了更加開(kāi)闊的技術(shù)可能性和便利。”

篇9

上面這段并非筆者杜撰,而是著名的語(yǔ)音和圖像解決方案提供商N(yùn)uance公司研發(fā)工程總監(jiān)張亞昕為大家描述的語(yǔ)音識(shí)別技術(shù)在車載系統(tǒng)中的應(yīng)用情景。

其實(shí),語(yǔ)音識(shí)別技術(shù)早已有之,1998年,飛利浦和摩托羅拉就將語(yǔ)音識(shí)別技術(shù)引入手機(jī),但并沒(méi)有引起人們的關(guān)注,直到去年蘋果iphone 4里的Siri出現(xiàn),才讓人們真正開(kāi)始關(guān)注語(yǔ)音識(shí)別。張亞昕認(rèn)為,這主要是因?yàn)橐郧暗募夹g(shù)只能進(jìn)行特定詞匯的語(yǔ)音識(shí)別,而如今的語(yǔ)音識(shí)別技術(shù)可以識(shí)別自然語(yǔ)言,真正讓用戶體會(huì)到了流暢自然的人機(jī)交互體驗(yàn)。

也許是因?yàn)槠噧?nèi)安全駕駛的重要性吧,語(yǔ)音識(shí)別技術(shù)特別受到了汽車市場(chǎng)的青睞。越來(lái)越多的汽車制造商開(kāi)始在汽車中裝入語(yǔ)音識(shí)別接口,用于管理移動(dòng)連接;同時(shí)提高駕駛安全系數(shù)。Strategy Analytics的統(tǒng)計(jì)表明,到2012年,中國(guó)原始設(shè)備制造商(OEM)所提供的具備語(yǔ)音人機(jī)接口的信息娛樂(lè)和車載信息通信系統(tǒng)(telematics)的出貨量將達(dá)到300萬(wàn)臺(tái),并預(yù)期在2018年達(dá)到20009萬(wàn)臺(tái)。

但是,語(yǔ)音識(shí)別是非常耗費(fèi)資源的一項(xiàng)工作,在目前的應(yīng)用中,用戶接口依賴于通用型硬件和軟件,一般采用通用的應(yīng)用處理器,語(yǔ)音識(shí)別只是眾多應(yīng)用中的一個(gè)程序,系統(tǒng)硬件無(wú)法為語(yǔ)音處理做出優(yōu)化,限制了處理速度和處理精度。例如,在車載GPS應(yīng)用中,地圖軟件的運(yùn)行就會(huì)占據(jù)處理器很多資源,這種情況下,啟用語(yǔ)音識(shí)別將會(huì)給CPU帶來(lái)很大負(fù)擔(dān),處理能力上的不足會(huì)影響語(yǔ)音識(shí)別的速度和準(zhǔn)確度,讓用戶體驗(yàn)大打折扣。

篇10

關(guān)鍵詞:計(jì)算機(jī)仿真;語(yǔ)音識(shí)別;算法

引言

當(dāng)下對(duì)于語(yǔ)音識(shí)別技術(shù)的研究處于初期階段,但現(xiàn)在市面上出現(xiàn)的大量語(yǔ)音識(shí)別的產(chǎn)品例如DragonDictation,Siri等表明語(yǔ)音識(shí)別技術(shù)還擁有巨大的發(fā)展與應(yīng)用空間。

1提出背景

目前大多數(shù)的語(yǔ)音識(shí)別設(shè)備在算法上都是基于傳統(tǒng)的GMM方式,傳統(tǒng)的GMM方式的核心思想是利用多個(gè)高斯分布的概率密度函數(shù)組合來(lái)描述特征矢量在概率空間的分布狀況。傳統(tǒng)的GMM方法需要先計(jì)算所有說(shuō)話人模型的識(shí)別概率p,然后取識(shí)別概率最大的說(shuō)話人模型作為識(shí)別結(jié)果。而人類在進(jìn)行說(shuō)話人識(shí)別時(shí),是一邊聽(tīng)取語(yǔ)音,一邊做出判斷,同時(shí)排除掉絕對(duì)不可能的說(shuō)話人,在若干相似說(shuō)話人之間選擇,當(dāng)有很大的把握性時(shí),做出最終判定。這不同于目前的機(jī)器識(shí)別方法,總是取固定時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù),且對(duì)所有的說(shuō)話人均同等對(duì)待。傳統(tǒng)的GMM模型在說(shuō)話人集合很大時(shí)需要大量的數(shù)據(jù)收集和較長(zhǎng)的處理時(shí)間,會(huì)影響到分辨說(shuō)話人身份的準(zhǔn)確性。所以我們需要一種更加高效,高可靠性的方式來(lái)改進(jìn)當(dāng)前主流的語(yǔ)音識(shí)別算法,更好的服務(wù)于當(dāng)前信息化社會(huì)。

2自適應(yīng)模型

自適應(yīng)[1]是指處理和分析過(guò)程中,根據(jù)處理數(shù)據(jù)的數(shù)據(jù)特征自動(dòng)調(diào)整處理方法、處理順序、處理參數(shù)、邊界條件或約束條件,使其與所處理數(shù)據(jù)的統(tǒng)計(jì)分布特征、結(jié)構(gòu)特征相適應(yīng),以取得最佳的處理效果。在特征提取階段,根據(jù)不同的說(shuō)話人,選取不同長(zhǎng)度的語(yǔ)音提取特征,對(duì)于易于區(qū)分的說(shuō)話人,只選取少量語(yǔ)音就可以正確識(shí)別,對(duì)于難于區(qū)分的說(shuō)話人,提取大量語(yǔ)音進(jìn)行識(shí)別,從而在整體上減少了提取特征的時(shí)間;在識(shí)別階段,只選取少量語(yǔ)音進(jìn)行總體說(shuō)話人識(shí)別模型的識(shí)別概率計(jì)算,而選取較多的語(yǔ)音,對(duì)前期選取的識(shí)別概率較高的說(shuō)話人模型計(jì)算識(shí)別概率,從而一方面保證不降低識(shí)別率,一方面大幅度減少識(shí)別時(shí)間。

3研究目標(biāo)及主要內(nèi)容

3.1研究目標(biāo)。我們研究的主要目標(biāo)是通過(guò)MATLAB模型仿真功能,實(shí)現(xiàn)基于自適應(yīng)的語(yǔ)音識(shí)別技術(shù)來(lái)確定說(shuō)話人身份。在收集到語(yǔ)音信號(hào)的后,完成對(duì)信號(hào)的處理,主要是基于MFCC的特征提取實(shí)現(xiàn)語(yǔ)音庫(kù)的搭建,之后使用自適應(yīng)的語(yǔ)音識(shí)別技術(shù),將原先采集到的信息和后續(xù)說(shuō)話人所說(shuō)的語(yǔ)音在自適應(yīng)的模型下進(jìn)行比對(duì),來(lái)確定說(shuō)話人是否為本人,并且借助設(shè)別對(duì)結(jié)果進(jìn)行顯示,最終實(shí)現(xiàn)一個(gè)輸入-處理--輸出的語(yǔ)音識(shí)別平臺(tái)搭建。

3.2研究?jī)?nèi)容。以MATLAB軟件為主要工具,配合所搭建的輸入設(shè)備,顯示設(shè)備完成一個(gè)可以應(yīng)用的說(shuō)話人身份識(shí)別系統(tǒng)的搭建。(1)深入研究語(yǔ)音信號(hào)的采集方式,能夠?qū)⑼ㄟ^(guò)設(shè)備將采集到的語(yǔ)音信號(hào)進(jìn)行處理,并在MATLAB中實(shí)現(xiàn)編程,為后續(xù)的語(yǔ)音識(shí)別提供素材。(2)通過(guò)研究自適應(yīng)模型的原理,設(shè)計(jì)基于其原理的算法,將(1)中經(jīng)過(guò)處理后的語(yǔ)音信號(hào)與應(yīng)用時(shí)輸入的語(yǔ)音信號(hào)進(jìn)行識(shí)別,通過(guò)MATLAB完成計(jì)算,這一步是整個(gè)研究中最重要的部分,運(yùn)算完成將給出處理結(jié)果。(3)搭建顯示設(shè)備,我們將MATLAB和單片機(jī)進(jìn)行通信,MATLAB將識(shí)別結(jié)果傳輸給單片機(jī),我們通過(guò)單片機(jī)來(lái)提供一個(gè)顯示說(shuō)話人身份識(shí)別信息并與用戶交互的平臺(tái)。

4技術(shù)路線

4.1語(yǔ)音數(shù)據(jù)采集模塊。目前所有的語(yǔ)音識(shí)別方式都需要一個(gè)語(yǔ)音庫(kù)來(lái)進(jìn)行匹配。基于自適應(yīng)的語(yǔ)音識(shí)別也要在語(yǔ)音庫(kù)的搭建上進(jìn)行如下操作。4.1.1采集說(shuō)話人語(yǔ)音。使用錄音筆在消音室中采集到說(shuō)話人的聲音,我們會(huì)將模擬信號(hào)轉(zhuǎn)成數(shù)字信號(hào),并且進(jìn)行處理。為了得到高質(zhì)量的聲音信號(hào),確保語(yǔ)音庫(kù)的精確性,我們選擇在消音室完成聲音采集工作。4.1.2特征提取及語(yǔ)音庫(kù)搭建。模擬信號(hào)進(jìn)行A/D轉(zhuǎn)換后,我們要對(duì)數(shù)字信號(hào)進(jìn)行處理,這里我們使用MFCC這種主流的語(yǔ)音信號(hào)特征提取方式來(lái)進(jìn)行提取。MFCC[2]是基于了Mel頻率的倒譜系數(shù),我們輸入樣本音頻,對(duì)樣本音頻預(yù)加重,分幀,加窗,再做傅里葉變換,進(jìn)行Mel頻率濾波,進(jìn)行Log對(duì)數(shù)能量提取等操作從而完成采集的語(yǔ)音的特征提取。這一步的核心還是將采集到的模擬信號(hào)按照A/D轉(zhuǎn)換使其成為可以通過(guò)MATLAB調(diào)用的數(shù)據(jù)。

4.2基于自適應(yīng)模型的語(yǔ)音識(shí)別模塊設(shè)計(jì)。這個(gè)模塊是我們的研究最核心的部分,我們基于這個(gè)模型來(lái)實(shí)現(xiàn)主要功能。4.2.1當(dāng)說(shuō)話人為陌生人,先排除。傳統(tǒng)的語(yǔ)音識(shí)別主要是將采集到的信號(hào)和原來(lái)收集的所有信號(hào)進(jìn)行比對(duì)從而確定說(shuō)話人身份,但這樣做有時(shí)會(huì)浪費(fèi)時(shí)間,也可能出現(xiàn)誤差。而自適應(yīng)模型首先去做的就是特征抽取,將已經(jīng)采集到的語(yǔ)音數(shù)據(jù)進(jìn)行處理,尋找到他們的共同特征,當(dāng)需要識(shí)別的信號(hào)不符合這種特性的時(shí)候,我們首先要將其排除,這樣,在排除陌生人說(shuō)話時(shí)會(huì)更加簡(jiǎn)便。在我們對(duì)說(shuō)話人識(shí)別前先把陌生人給排除,在說(shuō)話者不是陌生人的情況下,我們會(huì)減少很多干擾因素,能夠節(jié)約識(shí)別時(shí)間,提高識(shí)別精度。4.2.2當(dāng)說(shuō)話人已經(jīng)在語(yǔ)音庫(kù)中,確定其身份。我們的算法主要是研究的對(duì)象是已經(jīng)將語(yǔ)音信息導(dǎo)入到語(yǔ)音庫(kù)中的人群,這里我們要用到SVM[3]技術(shù),SVM是一個(gè)可以把低維下線性不可分的問(wèn)題變成一個(gè)高維線性可分問(wèn)題的技術(shù)。在我們自適應(yīng)語(yǔ)音識(shí)別說(shuō)話人身份時(shí),我們需要對(duì)收集到的語(yǔ)音數(shù)據(jù)進(jìn)行分類。例如我們收集到1000組語(yǔ)音,按照收集到的語(yǔ)音特征分成250組,每組4個(gè)人。當(dāng)說(shuō)話人開(kāi)始識(shí)別,我們先去找到這個(gè)說(shuō)話人屬于哪個(gè)組,然后在這個(gè)4人小組里面在進(jìn)行區(qū)分,這樣,我們把原先需要一一匹配的說(shuō)話人識(shí)別僅僅需要幾步就可以實(shí)現(xiàn)。

4.3體現(xiàn)應(yīng)用的結(jié)果顯示模塊。使用一塊單片機(jī)與一塊顯示屏,通過(guò)Matlab中的設(shè)備控制箱將識(shí)別結(jié)果傳送到單片機(jī),單片機(jī)依據(jù)識(shí)別結(jié)果在顯示屏進(jìn)行顯示。

5結(jié)語(yǔ)

和當(dāng)前主流的傳統(tǒng)高斯混合模型相比,我們?cè)O(shè)計(jì)出的基于自適應(yīng)的模型結(jié)構(gòu),可以很大程度上減少在聲音識(shí)別前所需要收集的數(shù)據(jù)量,節(jié)約空間,同時(shí)由于自適應(yīng)算法的優(yōu)越性我們也能夠在提高語(yǔ)音識(shí)別的可靠性,很大程度上減少在識(shí)別過(guò)程中由于外部因素所造成的誤差。

引用:

[1]丁博,王懷民,史殿習(xí).構(gòu)造具備自適應(yīng)能力的軟件[J].軟件學(xué)報(bào).2013(07)

[2]李澤,崔宣,馬雨廷等.MFCC和LPCC特征參數(shù)在說(shuō)話人識(shí)別中的研究[J].河南工程學(xué)院學(xué)報(bào).2010(06).