音頻內(nèi)容綜合處理技術(shù)在廣播監(jiān)測網(wǎng)的測試

時(shí)間:2022-01-29 10:28:31

導(dǎo)語:音頻內(nèi)容綜合處理技術(shù)在廣播監(jiān)測網(wǎng)的測試一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

音頻內(nèi)容綜合處理技術(shù)在廣播監(jiān)測網(wǎng)的測試

摘要:目前開展的電視廣播信號(hào)內(nèi)容監(jiān)測業(yè)務(wù)主要由人工完成,隨著監(jiān)測業(yè)務(wù)的不斷擴(kuò)展,面對(duì)海量的數(shù)據(jù),實(shí)現(xiàn)對(duì)電視廣播信號(hào)內(nèi)容自動(dòng)監(jiān)測的迫切性日益增加,需要全面提高現(xiàn)有監(jiān)測系統(tǒng)的智能化水平。本文主要就音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測中的測試展開敘述。

關(guān)鍵詞:廣播電視;語音監(jiān)測;海外廣播網(wǎng);測試

近年來,我國的廣播電視監(jiān)測事業(yè)發(fā)展迅猛,廣播電視監(jiān)測工作已經(jīng)進(jìn)入到了一個(gè)新的時(shí)代。廣播電視監(jiān)測工作已由過去被動(dòng)的事后服務(wù)轉(zhuǎn)變?yōu)榉e極主動(dòng)的過程服務(wù),由過去靠人工的、傳統(tǒng)落后的手段變?yōu)閿?shù)字化、網(wǎng)絡(luò)化、自動(dòng)化的方式,由過去單一的無線廣播監(jiān)測向廣播電視全面、全方位監(jiān)測發(fā)展。2002年,廣電總局實(shí)施“走出去”工程,以加強(qiáng)我國對(duì)外廣播電視宣傳,同時(shí),在海外建立了環(huán)球廣播監(jiān)測網(wǎng),加強(qiáng)對(duì)中國國際廣播電臺(tái)對(duì)外廣播效果和租機(jī)/互轉(zhuǎn)的電臺(tái)播出的監(jiān)督、檢查,提高對(duì)外廣播效果。我國在各國的駐外大使館都有相應(yīng)的信號(hào)采集設(shè)備,收集當(dāng)?shù)氐膶?duì)華廣播落地信號(hào),然后對(duì)信號(hào)進(jìn)行壓縮,通過互聯(lián)網(wǎng)傳回到國內(nèi)的監(jiān)測中心,進(jìn)行內(nèi)容監(jiān)測,從而發(fā)現(xiàn)對(duì)我國社會(huì)、經(jīng)濟(jì)、外交等有用的重要信息。截至目前,海外監(jiān)測網(wǎng)已經(jīng)在50個(gè)國家相繼建立了54個(gè)無人值守遙控監(jiān)測站點(diǎn),每日可監(jiān)測中國國際廣播電臺(tái)對(duì)外播出的32種語言、383個(gè)頻率的廣播效果。將音頻識(shí)別、文本檢索、圖像處理等新技術(shù)實(shí)際應(yīng)用于目前主要靠人工完成廣播信號(hào)內(nèi)容監(jiān)測業(yè)務(wù),充分利用計(jì)算機(jī)對(duì)于海量節(jié)目內(nèi)容自動(dòng)處理具有的速度快、效率高、可以控制漏檢率等特點(diǎn),將眾多的先進(jìn)技術(shù)服務(wù)與廣電監(jiān)測行業(yè)相結(jié)合。

一、音頻內(nèi)容綜合處理技術(shù)

(一)廣播音頻信號(hào)介紹

真實(shí)應(yīng)用環(huán)境下的語音現(xiàn)象非常豐富,以海外監(jiān)測機(jī)房短波音質(zhì)廣播語音為例(如圖1)。圖1海外監(jiān)測機(jī)房典型語音廣播音頻信號(hào)具有以下特點(diǎn):1.信號(hào)在傳送過程中,由于干擾使得包含的噪聲很不穩(wěn)定,主要表現(xiàn)在兩方面:一是同一個(gè)音頻片段里的噪聲變化不均勻,時(shí)大時(shí)小;二是不同的音頻片段的信噪比差別較大。這就使得有的音頻片斷的信號(hào)質(zhì)量好一些,而有的音頻片斷的信號(hào)質(zhì)量卻很差。2.由于是電臺(tái)節(jié)目信號(hào),所以包含了各種各樣的音頻類型,既有純凈的語音,也有帶音樂或噪聲背景的語音,既有音樂歌曲,也有強(qiáng)噪聲或者如鼓聲之類的環(huán)境音,可以說是一種語音、音樂和噪聲的混合音頻信號(hào)。3.信號(hào)中含有大量的片頭曲,這些片頭曲多是一些具有音樂背景的報(bào)臺(tái)信號(hào),或者是不同節(jié)目的報(bào)幕信號(hào)。由于片頭曲中含有一定的語言信息,所以即使是同一個(gè)電臺(tái)或同一個(gè)節(jié)目,不同語言的片頭曲也是不同的。此外,由于廣播電臺(tái)的節(jié)目時(shí)刻表比較固定,同一語言播出的節(jié)目中的片頭曲相對(duì)也是固定的,這是一種固定音頻信號(hào)。4.廣播節(jié)目都是以一定的頻率被播出的,在信號(hào)傳送過程中,某一頻率的節(jié)目信號(hào)有可能被其他節(jié)目的同一頻率信號(hào)完全干擾或臨界干擾,如果兩個(gè)節(jié)目的語言不同,那么將出現(xiàn)兩種或多種語言重疊或交疊出現(xiàn)在同一個(gè)音頻片段中的現(xiàn)象。此外,一個(gè)節(jié)目中也有可能出現(xiàn)多種語言,比如一些語言教學(xué)節(jié)目。5.信號(hào)中的說話人不僅有主持人,也有大眾百姓,大家說的話不僅有母語,也有方言,甚至還有非母語的外國人在說話,而且說話的內(nèi)容和說話人的性別也是隨機(jī)的。此外語音不僅僅是廣播語音,在一些人物采訪節(jié)目中常常出現(xiàn)電話或麥克風(fēng)語音。6.由于廣播節(jié)目是每天24小時(shí)不間斷地播出的,所以采集的數(shù)據(jù)將是海量的,此外,雖然每段音頻的采集時(shí)長約57秒鐘,但是如果去除其中的非語音成分,剩下的語音時(shí)長卻是不定的。從這些特點(diǎn)中不難看出,實(shí)際真實(shí)的音頻信號(hào)是非常復(fù)雜的,這給語種識(shí)別系統(tǒng)的實(shí)際應(yīng)用帶來了很大的困難和挑戰(zhàn)。音頻內(nèi)容綜合自動(dòng)處理系統(tǒng)的主要處理對(duì)象是語音,對(duì)其內(nèi)容的分析和監(jiān)測對(duì)象包括內(nèi)容、關(guān)鍵信息、語種等。

(二)音頻內(nèi)容處理技術(shù)基礎(chǔ)框架

當(dāng)前主流語音處理技術(shù)主要基于統(tǒng)計(jì)框架,一般包括以下流程和處理步驟,如圖2所示。圖2基于統(tǒng)計(jì)音頻內(nèi)容計(jì)算技術(shù)框架1.建模數(shù)據(jù)庫的建立:主流音頻內(nèi)容計(jì)算技術(shù)建立于統(tǒng)計(jì)理論之上。系統(tǒng)性能對(duì)建模數(shù)據(jù)的依賴很大,因此要求建模數(shù)據(jù)與測試數(shù)據(jù)在應(yīng)用環(huán)境、說話方式等方面有一定的相關(guān)性,否則無法保證系統(tǒng)在應(yīng)用環(huán)境下的性能。2.特征的選擇與提取:特征是區(qū)分不同類事物最根本的屬性,選用不同的特征將帶來不同的區(qū)分能力使得類內(nèi)高偶合、類間低聚合。因此對(duì)不同的識(shí)別任務(wù),必須精細(xì)選擇所使用的特征。3.建模技術(shù):模型用于刻畫不同類別之間的本質(zhì)差異,一個(gè)好的建模方法會(huì)顯著提高系統(tǒng)性能。目前主流的建模技術(shù)分為兩類,一類基于最大似然估計(jì)方法,其本質(zhì)是通過描述特征在空間中的分布參數(shù)來刻畫類別統(tǒng)計(jì)特性,最常見的模型是高斯混合模型GMM;另一類是基于區(qū)分度的估計(jì)方法,其本質(zhì)是通過描述不同類別的分界面信息來刻畫類別間的特性,最常見的模型是支持向量機(jī)模型SVM。

(三)面向真實(shí)應(yīng)用環(huán)境的音頻內(nèi)容處理框架

對(duì)真實(shí)應(yīng)用環(huán)境語音的處理,需要包括以下流程和處理步驟,如圖3所示。圖3音頻內(nèi)容綜合處理系統(tǒng)框架針對(duì)不同格式的輸入語音進(jìn)行格式轉(zhuǎn)換,統(tǒng)一為wav格式。對(duì)于廣告或含有片頭曲檢出的任務(wù),可以采用固定音頻檢索技術(shù),把片頭曲或廣告作為模板,從音頻信號(hào)中檢索,根據(jù)片頭曲所對(duì)應(yīng)的語種來確定整個(gè)音頻片段的語種。由于信號(hào)中含有多種音頻類型,而諸如音樂和噪聲之類的音頻幾乎不含所需信息,所以需要把音頻信號(hào)分成語音、音樂和噪聲,以去掉這些不含語種差別信息的非語音信號(hào)。針對(duì)特定應(yīng)用環(huán)境,需要對(duì)音頻信號(hào)的質(zhì)量進(jìn)行評(píng)估,對(duì)信號(hào)質(zhì)量較差的語音降低識(shí)別的置信度。由于音頻信號(hào)含有噪聲較大且不均勻,提取特征時(shí)需要采取一定的噪聲消除技術(shù)。對(duì)于經(jīng)過增強(qiáng)后的語音,進(jìn)行內(nèi)容識(shí)別、語種識(shí)別及敏感信息監(jiān)測等內(nèi)容計(jì)算任務(wù)。

二、音頻內(nèi)容綜合處理技術(shù)測試

(一)場景分析

音頻場景分析的目的是把輸入音頻文件分成語音和非語音,并把其中的非語音成分去掉,僅把語音提出來用于后續(xù)內(nèi)容計(jì)算。建模數(shù)據(jù)庫:從海外機(jī)房2月15號(hào)至28號(hào)不同語言播出的節(jié)目中人工整理用于音頻分類的訓(xùn)練數(shù)據(jù),考慮到訓(xùn)練樣本的平衡,其中語音60M,非語音60M,非語音包括音樂和噪聲各30M。整理時(shí)把帶強(qiáng)音樂背景的語音歸為音樂,帶強(qiáng)噪聲背景的語音歸為噪聲,而帶弱音樂或弱噪聲背景的語音歸為語音。然后使用語音和非語音共120M數(shù)據(jù)訓(xùn)練第一個(gè)分類器,用來區(qū)分語音和非語音,使用音樂和噪聲共60M數(shù)據(jù)訓(xùn)練第二個(gè)分類器,用來區(qū)分音樂和噪聲。特征選擇:常用的音頻分類特征有16種,其中時(shí)域特征包括7種,即過零率(Zero-CrossingRate,ZCR)、高過零率幀的比率(HighZero-CrossingRateRatio,HZCRR)、短時(shí)能量(Short-TimeEnergy,STE)、低能量幀的比率(LowShort-TimeEnergyRatio,LSTER)、短時(shí)能量的均方值(Root-Mean-Square,RMS)、靜音幀的比率(SilenceFrameRatio,SFR)、子頻帶能量分布(Sub-bandEnergyDistribu-tion,SED);頻域特征包括9種,即頻譜差分幅度(SpectrumFlux,SF)、頻譜質(zhì)心(SpectrumCentroid,SC)、頻譜散度(SpectrumSpread,SS)、頻譜截止頻率(SpectralRolloffFre-quency,SRF)、子頻帶周期(Sub-bandPeriodicity,BP)、噪聲幀的比率(NoiseFrameRatio,NFR)、線譜對(duì)(LinearSpec-trumPairs,LSP)、線性預(yù)測倒譜系數(shù)(LinearPredictionCep-stralCoefficients,LPCC)和梅爾倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCC)。而一些非常用的音頻特征包括短時(shí)基頻(Short-TimeFundamentalFrequency,STFF)和譜峰軌跡(SpectralPeakTrack,SPT)等。我們以高過零率幀的比率HZCRR和噪聲幀的比率NFR為例,說明其對(duì)語音/非語音和音樂/噪聲具有區(qū)分能力。圖4HZCRR和NFR對(duì)語音/非語音和音樂/噪聲具有區(qū)分能力如圖4所示,對(duì)輸入音頻分別提取高過零率幀的比率HZCRR和噪聲幀的比率NFR特征,可發(fā)現(xiàn)語音/非語音HZCRR特征、音樂/噪聲NFR特征的數(shù)值范圍具有明顯差別,可作為特征區(qū)分兩者。為此,根據(jù)不同特征間的區(qū)分能力及其互補(bǔ)性,系統(tǒng)采用了如下特征:表1音頻分類特征集音頻分類類型特征集語音/非語音BP、HZCRR、LPCC、LSP、LSTER、MF-CC、RMS、SBE、SC、SS、ZCR純語音/非純語音BP、LPCC、LSP、MFCC、RMS、SC、SF、SFR、SS、ZCR音樂/環(huán)境音BP、NFR、RMS、SBE、SF、STE建模技術(shù):采用基于支持向量機(jī)的區(qū)分度建模方法。支持向量機(jī)(SVM)是一種基于現(xiàn)代統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法,在解決有限樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì)。SVM是一種兩類樣本分類器,其目標(biāo)是在超高維(一般幾十萬維)空間找到一個(gè)分類超平面,使得它能夠盡可能多的將兩類樣本數(shù)據(jù)正確分開,同時(shí)使分開的兩類數(shù)據(jù)點(diǎn)距離分類面最遠(yuǎn)。一般包括兩個(gè)部分,即特征從原空間到超高維空間的映射和分類面學(xué)習(xí)。

(二)音頻信號(hào)質(zhì)量評(píng)估

音頻場景分析的目的是按照我國《廣播節(jié)目聲音質(zhì)量主觀評(píng)價(jià)方法和技術(shù)指標(biāo)要求》的規(guī)定,對(duì)廣播節(jié)目語音質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)。特征選擇和提取:通過比較和分析,系統(tǒng)選擇語音能量、噪聲能量、信噪比、音樂/噪聲/語音比例、基于譜熵的可聽度估計(jì)幾種特征。建模技術(shù):采用多特征的線性加權(quán)分類技術(shù),各特征的加權(quán)系數(shù)經(jīng)驗(yàn)確定。測試原理如下圖所示:圖6測試原理性能分析:對(duì)于機(jī)器自動(dòng)評(píng)分和人工評(píng)分不一致的結(jié)果,請(qǐng)值班員幫助判斷。值班員的判斷結(jié)果分為三類,即人工和自動(dòng)評(píng)分均可、自動(dòng)評(píng)分偏差和人工主觀性因素偏差。對(duì)于自動(dòng)評(píng)分偏差,其主要影響因素是算法參數(shù),為此根據(jù)人工判斷結(jié)果對(duì)算法參數(shù)做適當(dāng)調(diào)整,再次迭代,直至過程收斂。首先對(duì)3月1日、5日、10日和14日的這4天采集的約6000個(gè)音頻片段人工進(jìn)行主觀打分,然后由系統(tǒng)對(duì)這些音頻片段自動(dòng)評(píng)分,比較人工主觀評(píng)分和系統(tǒng)自動(dòng)評(píng)分的一致性,實(shí)驗(yàn)結(jié)果如下表所示。表3系統(tǒng)自動(dòng)評(píng)分與人工主觀評(píng)分的一致性日期3月1日3月5日3月10日3月15日評(píng)分一致性66.01%64.78%65.18%67.61%從總體實(shí)驗(yàn)結(jié)果來看,整體上人工和系統(tǒng)打分完全一致的比率為66.5%,對(duì)評(píng)分不一致的音頻片段進(jìn)行分析,我們發(fā)現(xiàn):a)經(jīng)人工確認(rèn),兩種打分均可的約占16.2%;b)由于人工疲勞等主觀因素使得人工評(píng)分不正確的約占9.7%;c)由于算法不夠精致使得系統(tǒng)打分偏離人工打分1級(jí)的約占5.6%,2級(jí)及其以上的約占2.0%。為此,我們以系統(tǒng)評(píng)分與人工評(píng)分差半級(jí)為正確,差兩級(jí)以上錯(cuò)誤,重新統(tǒng)計(jì)評(píng)分的一致性時(shí),上述4天打分一致性的整體平均正確率可達(dá)到98%。

(三)語音增強(qiáng)/去噪

語音增強(qiáng)/去噪的目的是增加帶噪語音的信噪比,從而提高后續(xù)內(nèi)容計(jì)算模塊的識(shí)別準(zhǔn)確性。方法:針對(duì)背景噪聲在不同環(huán)境不同時(shí)刻下的變化特性,提出了在系統(tǒng)前端采用自適應(yīng)濾波器來對(duì)語音信號(hào)進(jìn)行降噪處理的方法,有效地提高了信號(hào)層的區(qū)分度。同時(shí),我們?cè)谀P投藢?duì)傳統(tǒng)的基于匹配的聲學(xué)模型訓(xùn)練算法(MULTI-TRAIN)進(jìn)行了改進(jìn),吸納了MULTI-TRAIN訓(xùn)練方法中在訓(xùn)練數(shù)據(jù)中加入應(yīng)用環(huán)境背景噪聲的做法,采集了大量不同種類和不同信噪比下的背景噪聲,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行“污染”,并用“污染”后的數(shù)據(jù)訓(xùn)練聲學(xué)模型,增加了訓(xùn)練和測試環(huán)境下模型的匹配程度。進(jìn)一步,我們?cè)陬l譜域提出了一種基于功率譜密度最小均方誤差估計(jì)(PSD-MMSE)的語音增強(qiáng)算法。該算法在功率譜域用指數(shù)分布來建模平穩(wěn)隨機(jī)噪聲,并用混合指數(shù)分布來建模語音的能量譜,構(gòu)建了純凈語音功率譜密度的最小均方誤差估計(jì)器,顯著地改善了語音質(zhì)量。此外,我們還在對(duì)數(shù)譜域提出了一種采用高階泰勒級(jí)數(shù)展開來近似對(duì)數(shù)譜域非線性環(huán)境函數(shù)從而尋求最合適的補(bǔ)償形式以補(bǔ)償對(duì)數(shù)譜域特征的方法。該方法還同時(shí)考慮了對(duì)數(shù)譜高斯混合模型的建模精度問題,并且引入了能量補(bǔ)償?shù)乃枷耄岢隽瞬捎妙愃谱V減的方式來補(bǔ)償語音能量的方法,并研究了把對(duì)數(shù)能量和對(duì)數(shù)譜結(jié)合在一起補(bǔ)償?shù)目赡苄浴L攸c(diǎn):由于背景噪聲在不同環(huán)境不同時(shí)刻下的變化特性,噪聲的估計(jì)與補(bǔ)償必須自適應(yīng)地進(jìn)行;另外,構(gòu)造補(bǔ)償濾波器時(shí)要盡可能精確。

(四)音頻模板檢索

音頻模板檢索的目的是根據(jù)對(duì)固定出現(xiàn)的音頻片斷,入廣告、片頭曲等,對(duì)廣播節(jié)目進(jìn)行定位。特征選擇和提取:多個(gè)子頻帶的能量比率。模型:直方圖重迭匹配。系統(tǒng)特點(diǎn):1.抗畸變:首先采用頻譜的掩蔽和增強(qiáng)技術(shù)對(duì)音頻進(jìn)行畸變消除和歸一化處理,從而降低音頻中的噪聲、扭曲等畸變,提高了方法的魯棒性,然后采用臨界頻帶劃分策略,提取多個(gè)子頻帶的能量比率作為基本特征,并建立每個(gè)片頭曲的直方圖模型;2.搜索速度快:基于直方圖重疊相似度最小的快速搜索策略,并在搜索過程中選擇多尺度步長預(yù)測技術(shù)提高搜索速度。性能分析:從2月15號(hào)至28號(hào)的部分音頻片段中截取90個(gè)不同語種的片頭曲模板,然后從3月1號(hào)至5號(hào)的部分音頻片段中再截取77個(gè)與前90個(gè)沒有重復(fù)的片頭曲模板,每個(gè)片頭曲模板的時(shí)長從2秒到20秒不等。基于上述片頭曲模板,對(duì)3月6號(hào)至14號(hào)的13512個(gè)音頻片段進(jìn)行檢索。檢出2950個(gè)文件含有片頭曲,檢出率為21.83%,其中錯(cuò)誤的有15個(gè),誤報(bào)率為0.51%。

(五)語種識(shí)別

語音識(shí)別技術(shù)可自動(dòng)識(shí)別出語音段所屬的語言。特征選擇:采用美化感知線性預(yù)測系數(shù)(MF-PLP)和移動(dòng)差分倒譜特征(SDC),高維空間映射后增加長時(shí)平均,從而包含了更多的時(shí)序信息。建模技術(shù):采用基于支持向量機(jī)的區(qū)分度建模方法。建模數(shù)據(jù)庫:17個(gè)語種,如表4。每個(gè)語種經(jīng)過自動(dòng)去除片頭曲、噪聲和音樂處理,每個(gè)語種的訓(xùn)練數(shù)據(jù)約2-3小時(shí)。系統(tǒng)特點(diǎn):反映語種間差異的是音素間的連接關(guān)系,因此必須增加特征的時(shí)間跨度已反映時(shí)序信息,系統(tǒng)中特征經(jīng)過區(qū)分性變換后,做長時(shí)平均并增加SDC特征。性能分析實(shí)驗(yàn)1:識(shí)別性能隨不同建模數(shù)據(jù)庫規(guī)模的變化每個(gè)語種訓(xùn)練模型的數(shù)據(jù)量從1.5小時(shí)、2.5小時(shí)到3小時(shí)逐漸增大,,得到每個(gè)語種的模型之后,經(jīng)過識(shí)別,實(shí)驗(yàn)結(jié)果如表5.5所示。從表中可以看出,隨著訓(xùn)練數(shù)據(jù)量的增大,語種識(shí)別的性能也會(huì)相應(yīng)地提高。實(shí)驗(yàn)2:識(shí)別性能隨不同語種數(shù)的變化按照語種名字的漢語拼音字母的順序,我們從6個(gè)語種開始,每次增加2個(gè)逐漸增加到16個(gè)直至17個(gè)語種,并且基于每個(gè)語種3小時(shí)的數(shù)據(jù)量訓(xùn)練模型,對(duì)相應(yīng)的測試數(shù)據(jù)進(jìn)行識(shí)別,識(shí)別性能如圖所示。圖7識(shí)別性能隨不同語種數(shù)的變化從圖中可以看出,隨著要識(shí)別的語種個(gè)數(shù)的增多,識(shí)別性能逐漸下降,這主要是因?yàn)樵黾拥恼Z種容易和其他語種相互混淆。實(shí)驗(yàn)3:模型優(yōu)化基于200M數(shù)據(jù)訓(xùn)練的17個(gè)語種的模型,對(duì)3月1日至14日的音頻文件進(jìn)行識(shí)別,識(shí)別過程中,每個(gè)語種都有部分語音,其信號(hào)質(zhì)量不差(不低于3分)且時(shí)長也較長(不低于30秒),但是該語種的模型得分有時(shí)候雖然是第一名卻比較低,甚至有時(shí)候不是第一名,使用這部分語音更新訓(xùn)練相應(yīng)的語種模型,上述思想稱之為從錯(cuò)誤中學(xué)習(xí)。下面我們使用3月6日至31日的語音句子,基于17個(gè)語種測試比較從錯(cuò)誤中學(xué)習(xí)前后的識(shí)別正確率,實(shí)驗(yàn)結(jié)果為:原模型的識(shí)別正確率為90.85%,更新后模型識(shí)別正確率為93.58%,提高了2.73%,這說明從錯(cuò)誤中學(xué)習(xí)是非常有效的。

(六)語音識(shí)別技術(shù)

語音識(shí)別技術(shù)可將連續(xù)輸入的音頻流中的語音部分,翻譯成對(duì)應(yīng)的文本信息。特征選擇:采用美化感知線性預(yù)測系數(shù)(MF-PLP)。建模技術(shù):采用隱馬爾科夫模型(HMM)描述時(shí)序信息,采用高斯混和模型(GMM)描述音素特征分布信息。建模數(shù)據(jù)庫:300小時(shí)廣播語音,新唐人電視臺(tái)120小時(shí),美國之音、BBC、CCTV等節(jié)目180小時(shí)。系統(tǒng)特點(diǎn):系統(tǒng)采用的關(guān)鍵詞檢出框架如圖8所示。圖8連續(xù)語音識(shí)別系統(tǒng)框架系統(tǒng)模型包括聲學(xué)和語言模型兩套,聲學(xué)模型的作用為將語音特征轉(zhuǎn)換為對(duì)應(yīng)的聲學(xué)音素序列,語言模型在此基礎(chǔ)上完成音到字的轉(zhuǎn)換。系統(tǒng)基于國際主流LVCSR技術(shù),針對(duì)漢語語音做了具有創(chuàng)新性的貢獻(xiàn),突破了在漢語LVCSR總體框架、聲調(diào)和聲韻母聯(lián)合建模、大規(guī)模語音語料庫處理、系統(tǒng)搜索、網(wǎng)絡(luò)語言增強(qiáng)的語言建模和無監(jiān)督聲學(xué)模型訓(xùn)練等方面的關(guān)鍵技術(shù)。

(七)敏感信息/時(shí)段監(jiān)測

敏感信息監(jiān)測技術(shù)可從連續(xù)輸入的音頻流中,發(fā)現(xiàn)預(yù)定的敏感信息。特征選擇:采用美化感知線性預(yù)測系數(shù)(MF-PLP)。建模技術(shù):采用隱馬爾科夫模型(HMM)描述時(shí)序信息,采用高斯混和模型(GMM)描述音素特征分布信息。建模數(shù)據(jù)庫:300小時(shí)廣播語音,新唐人電視臺(tái)120小時(shí),美國之音、BBC、CCTV等節(jié)目180小時(shí)。敏感時(shí)段監(jiān)測:在敏感詞匯檢出基礎(chǔ)上,根據(jù)單位時(shí)間加權(quán)置信度信息分析某個(gè)時(shí)段的敏感程度。系統(tǒng)采用的關(guān)鍵詞檢出框架如圖5.9所示。系統(tǒng)中采用了一種改進(jìn)的兩階段處理架構(gòu)的關(guān)鍵詞檢出方法。在第一階段,系統(tǒng)不僅為詞表中的詞、靜音和可能出現(xiàn)的噪聲建立模型,同時(shí)還要為非關(guān)鍵詞建立若干填充模型。在第二階段,系統(tǒng)對(duì)檢出結(jié)果的置信度進(jìn)行計(jì)算,從而判斷該結(jié)果是否可信。為實(shí)現(xiàn)在真實(shí)環(huán)境條件下的應(yīng)用,我們?cè)谫Y源允許的條件下采用了盡可能精細(xì)的填充模型來解決填充模型選擇困難的難題。同時(shí),通過在一般情況下采取全局回溯技術(shù),及在口語發(fā)音變異比較嚴(yán)重的場合采用局部回溯技術(shù),有效的解決了關(guān)鍵詞檢出率不高這一問題。此外,我們還通過采用關(guān)鍵詞網(wǎng)絡(luò)和填充網(wǎng)絡(luò)進(jìn)行獨(dú)立擴(kuò)展裁剪,大大降低了系統(tǒng)性能對(duì)于進(jìn)入填充模型的懲罰系數(shù)的敏感度,從而解決了調(diào)節(jié)進(jìn)入填充模型的懲罰系數(shù)困難這一問題。圖9關(guān)鍵詞檢出系統(tǒng)框架目前,國際上廣泛采取的置信度估計(jì)手段主要有三類,即基于正確/誤識(shí)兩類分類器、基于對(duì)數(shù)似然比和基于后驗(yàn)概率的方法。考慮到對(duì)數(shù)似然比的方法和基于后驗(yàn)概率的方法在實(shí)際應(yīng)用條件下具有很強(qiáng)的互補(bǔ)性,而基于正確/誤識(shí)兩類分類器可以作為上述兩類方法有益的補(bǔ)充。我們?cè)趯?shí)際應(yīng)用中,提出了綜合利用上述三類方法。

(八)綜合性能測試

在綜合使用了音頻信號(hào)質(zhì)量評(píng)估、語音增強(qiáng)/去噪、音頻模板檢索、語種識(shí)別、音識(shí)別技術(shù)、敏感信息/時(shí)段監(jiān)測。測試數(shù)據(jù)與環(huán)境:√2月1號(hào)-28號(hào)全部數(shù)據(jù),共47960個(gè)文件,去掉臨時(shí)測試文件,剩下46275個(gè)測試文件√17個(gè)語種模型√228個(gè)片頭曲模型,其中包括集外語種(蒙、孟、烏、越)的40個(gè)片頭曲模型√測試語音時(shí)長約72%為117秒,約28%為57秒√不限定話長和得分按天統(tǒng)計(jì)結(jié)果如下表所示:28天平均工作量減輕為46.84%,系統(tǒng)誤報(bào)率僅為1.61‰。進(jìn)一步分析可以發(fā)現(xiàn),日減輕工作量與當(dāng)日可進(jìn)行處理的文件有強(qiáng)相關(guān)性,如圖所示,說明系統(tǒng)運(yùn)行性能穩(wěn)定。

三、結(jié)語

音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測網(wǎng)中的成功測試,是先進(jìn)的科學(xué)技術(shù)和實(shí)際應(yīng)用的良好結(jié)合點(diǎn)。先進(jìn)的技術(shù)結(jié)合了實(shí)際工作需求,反復(fù)測試和優(yōu)化,系統(tǒng)的性能得到顯著提升。將不能達(dá)到100%正確率的技術(shù)運(yùn)用到需要100%準(zhǔn)確的監(jiān)測工作中,真正減少人工監(jiān)測工作量50%。基于語種識(shí)別的國際臺(tái)廣播質(zhì)量及效果綜合評(píng)估集成技術(shù),提出一套計(jì)算機(jī)自動(dòng)打分方法并結(jié)合人工評(píng)分反復(fù)修正。并從真正減輕值班員工作量角度出發(fā),綜合利用語種識(shí)別結(jié)果的置信度技術(shù),把識(shí)別結(jié)果分為確定而無需人工再次干預(yù)和需人工評(píng)判兩類。另外,結(jié)合短波廣播語音的噪聲強(qiáng)、音樂多、存在片頭曲等現(xiàn)象,不斷增加和完善系統(tǒng)流程,集成了包括片頭曲識(shí)別、音樂/噪聲/語音分類、語音增強(qiáng)在內(nèi)多項(xiàng)技術(shù)集成創(chuàng)新。基于語種識(shí)別的國際臺(tái)廣播質(zhì)量及效果綜合評(píng)估集成技術(shù)的研發(fā)進(jìn)程顯示,測試期間對(duì)數(shù)萬個(gè)文件進(jìn)行測試和分析,對(duì)常用的片頭曲模型進(jìn)行了重新優(yōu)化和增減,對(duì)質(zhì)量好識(shí)別性能差的句子針對(duì)性地進(jìn)行了分析和試驗(yàn),從錯(cuò)誤中學(xué)習(xí),進(jìn)一步優(yōu)化了模型。基于語音抗噪聲技術(shù),對(duì)信噪比較低的短波信道音質(zhì)的廣播語音實(shí)現(xiàn)了高可靠度的語種識(shí)別,在15個(gè)語種條件下識(shí)別準(zhǔn)確率達(dá)到95%。同時(shí)應(yīng)用基于似然比檢驗(yàn)的識(shí)別結(jié)果置信度技術(shù),對(duì)語種識(shí)別結(jié)果的錯(cuò)誤部分進(jìn)行自動(dòng)剔除,使得置信度為100%的識(shí)別結(jié)果無需人工確認(rèn),將每天100小時(shí)的人工監(jiān)測工作量減半,大大提高了監(jiān)測工作的質(zhì)量和效率。

作者:趙琰 單位:國家新聞出版廣電總局

參考文獻(xiàn):

[1]杜利民.自動(dòng)語言辨識(shí)研究[J].電子科技導(dǎo)報(bào),1996(4).

[2]高升,徐波,黃泰翼.基于決策樹的漢語三音子模型[J].聲學(xué)學(xué)報(bào),2000(6).

[3]姜洪臣,梁偉,張樹武,徐波.音頻場景分類的音頻特征提取和分析[J].聲學(xué)技術(shù),2005(6).

[4]杜樹新,吳鐵軍.模式識(shí)別中的支持向量機(jī)方法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2003(5).