模具畢業論文:模板設計開題報告
時間:2022-04-20 10:26:00
導語:模具畢業論文:模板設計開題報告一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
本文的主要圍繞兩方面內容:
提出一個基于模板的統計翻譯模型以及相應的訓練和翻譯算法;
根據這種算法模型實現一個漢英機器翻譯系統.
首先,我們將提出一個基于模板的統計機器翻譯算法.這種算法是傳統的基于轉換的方法和統計機器翻譯方法的有效結合.克服了現有的統計機器翻譯方法忽視語言結構的缺點,同時又繼承了其數學推導嚴密,模型一致性好的優點.
然后,在我們已有工作的基礎上,我們將根據以上算法,提出一個完整漢英機器翻譯系統及其測試系統的實現方案.
本文第一章是對已有的各種基于語料庫的機器翻譯方法以及機器翻譯評測方法的一個綜述,第二章結合我們已有的工作,提出我們自己的研究思路——基于深層結構的統計機器翻譯方法,第三章給出一個具體的漢英機器翻譯系統的實現方案,第四章是總結.
綜述
機器翻譯方法概述
和自然語言處理的其他技術一樣,機器翻譯方法也主要分為兩類:人工編寫規則的方法和從語料庫中學習知識(規則或參數)的方法.從目前的趨勢看,從語料庫中學習知識的方法已經占到了主流.當然從語料庫中學習知識并不排斥人類語言學知識的應用,不過這種語言學知識的應用一般不再表現為直接為某個系統手工編寫規則,而更多的是通過語料庫標注,詞典建設等大規模語言工程的方式體現出來,應該說,這是一種計算機研究者和語言學研究者互相合作的一種更為有效的方式.
基于語料庫的機器翻譯方法主要有:基于實例的機器翻譯方法,基于統計的機器翻譯方法,混合(Hybrid)的方法.這幾種方法各有特點.其中,統計機器翻譯方法由于其數學推導嚴密,模型一致性好,可以自動學習,魯棒性強等優點,越來越受到人們的重視.本文中提出的機器翻譯方法就是統計機器翻譯方法中的一種.
根據我所查閱的文獻,我把基于統計的機器翻譯方法大體上分為以下三類:第一類是基于平行概率語法的統計機器翻譯方法,其基本思想是,用一個雙語平行的概率語法模型,同時生成兩種語言的句子,在對源語言句子進行理解的同時,就可以得到對應的目標語言句子.這種方法的主要代表有Alshawi的HeadTransducer模型和吳德愷的ITG(InversionTransductionGrammars)模型以及Takeda的Pattern-basedCFGforMT.第二類是基于信源信道模型的統計機器翻譯方法,這種方法是由IBM公司的PeterBrown等人在1990年代初提出的,后來很多人都在這種方法的基礎上做了很多改進工作,這也是目前最有影響的統計機器翻譯方法,一般說的統計機器翻譯方法都是指的這一類方法.第三類是德國Och等人最近提出基于最大熵的統計機器翻譯方法,這種方法是比信源信道模型更一般化的一種模型.
機器翻譯的范式
機器翻譯經過50多年的發展,產生了很多種不同的范式(Paradigm),大致歸納起來,可以分為以下幾類,如下圖所示:
直接翻譯方法:早期的不經過句法分析直接進行詞語翻譯和詞序調整的方法;
基于轉換的方法:基于某種深層表示形式進行轉換的方法,典型的轉換方法要求獨立分析,獨立生成;注意,這里的深層表示既可以是句法表示,也可以是語義表示;
基于中間語言的方法:利用某種獨立于語言的中間表示形式(稱為中間語言)實現兩種語言之間的翻譯.
基于平行概率語法的統計機器翻譯方法
這一類方法的基本思想是,用一個雙語平行的概率語法模型,即兩套相互對應的帶概率的規則體系,同時生成兩種語言的句子,在對源語言句子進行理解的同時,就可以得到對應的目標語言句子的生成過程.
這一類方法有幾個共同的特點:有明確的規則形式;源語言規則和目標語言規則一一對應;源語言與目標語言共享一套概率語法模型,對于兩種語言的轉換過程不使用概率模型進行描述.
以下我們分別介紹這一類方法的有代表性的幾種形式.
Alshawi的基于加權中心詞轉錄機的統計機器翻譯方法
有限狀態轉錄機(Finite-StateTransducer)和有限狀態識別器(Finite-StateRecognizer)是有限狀態自動機(Finite-StateAutomata)的兩種基本形式.其主要區別在于有限狀態轉錄機在識別的過程中同時可以產生一個輸出,其每一條邊上面同時有輸入符號和輸出符號兩個標記,而有限狀態識別器只能識別,不能輸出,其每一條邊上只有一個輸入符號標記.
中心詞轉錄機(HeadTransducer)是對有限狀態轉錄機的一種改進.對于中心詞轉錄機,識別的過程不是自左向右進行,而是從中心詞開始向兩邊執行.所以在每條邊上,除了輸入輸出信息外,還有語序調整的信息,用兩個整數表示.下圖是一個能夠將任意a,b組成的串逆向輸出的一個HT的示意圖:
基于加權中心詞轉錄機(WeightedHeadTransducer)的統計機器翻譯方法是由AT&T實驗室的Alshawi等人提出的,用于AT&T的語音機器翻譯系統.該系統由語音識別,機器翻譯,語音合成三部分組成.其中機器翻譯系統的總體工作流程如下圖所示:
在加權中心詞轉錄機模型中,中心詞轉錄機是唯一的知識表示方法,所有的機器翻譯知識,包括詞典,都表示為一個帶概率的HeadTransducer的集合.知識獲取的過程是全自動的,從語料庫中訓練得到,但獲取的結果(就是中心詞轉錄機)很直觀,可以由人進行調整.中心詞轉錄機的表示是完全基于詞的,不采用任何詞法,句法或語義標記.
整個知識獲取的過程實際上就是一個雙語語料庫結構對齊的過程.句子的結構用依存樹表示(但依存關系不作任何標記).他們經過一番公式推導,把一個完整的雙語語料庫的分析樹構造并對齊的過程轉化成了一個數學問題的求解過程.這個過程可用一個算法高效實現.得到對齊的依存樹后,很容易就訓練出一組帶概率的中心詞轉錄機,也就得到了一個機器翻譯系統.不過要說明的是,通過這種純統計方法得到的依存樹,與語言學意義上的依存樹并不符合,而且相差甚遠.
這種方法的主要特點是:1.訓練可以全自動進行,效率很高,由一個雙語句子對齊的語料庫可以很快訓練出一個機器翻譯系統;2.不使用任何人為定義的語言學標記(如詞性,短語類,語義類等等),無需任何語言學知識;3.訓練得到的參數包含了句子的深層結構信息,這一點比IBM的統計語言模型更好.
這種方法比較適合于語音翻譯這種領域比較受限,詞匯集較小的場合.
吳德愷的ITG模型
InversionTransductionGrammar(ITG)是香港科技大學吳德愷(DekaiWu)提出的一種供機器翻譯使用的語法形式[Wu1997].
這種語法的特點是,源語言和目標語言共用一套規則系統.
具體來說,ITG規則有三種形式:
A→[BC]
A→
A→x/y
其中A,B,C都是非終結符,x,y是終結符.而且B,C,x,y都可以是空(用e表示).
對于源語言來說,這三條規則產生的串分別是:
BCBCx
對于目標語言來說,這三條規則產生的串分別是:
BCCBy
可以看到,第三條規則主要用于產生兩種語言的詞語,第一條規則和第二條規則的區別在于,前者產生兩個串語序相同,后者產生的串語序相反.例如,兩個互為翻譯的漢語和英語句子分別是:
比賽星期三開始.
ThegamewillstartonWednesday.
采用ITG分析后得到的句法樹就是:
其中,VP結點上的紅色標記表示該結點對應的漢語句子中兩個子結點的順序需要交換.
通過雙語對齊的語料庫對這種形式的規則進行訓練就可以直接用來做機器翻譯.
呂雅娟[Lü2001,2002]基于ITG模型實現一個小規模(2000個例句)的英漢機器翻譯系統,取得了較好的實驗結果.這個系統利用的英語的單語分析器和英漢雙語詞對齊的結果來獲取ITG.系統結構如下圖所示:
Takeda的Pattern-basedCFGforMT
[Takeda96]提出了基于模式的機器翻譯上下文無關語法(Pattern-basedCFGforMT).該模型對于翻譯模板定義如下:
每個翻譯模板由一個源語言上下文無關規則和一個目標語言上下文無關規則(這兩個規則稱為翻譯模板的骨架),以及對這兩個規則的中心詞約束和鏈接約束構成;
中心詞約束:對于上下文無關語法規則中右部(子結點)的每個非終結符,可以指定其中心詞;對于規則左部(父結點)的非終結符,可以直接指定其中心詞,也可以通過使用相同的序號規定其中心詞等于其右部的某個非終結符的中心詞;
鏈接約束:源語言骨架和目標語言骨架的非終結符子結點通過使用相同的序號建立對應關系,具有對應關系的非終結符互為翻譯.
舉例來說,一個漢英機器翻譯模板可以表示如下:
S:2→NP:1歲:MP:2了
————————————
S:be→NP:1beyear:NP:2old
可以看到,這種規則比上下文無關規則表達上更為細膩.例如上述模板中如果去掉中心詞約束,考慮一般的情況,顯然這兩條規則不能互為翻譯.與實例相比,這個模板又具有更強的表達能力,因為這兩個句子的主語(NP:1)和具體的歲數值都是可替換的.
該文還證明了這種模板的識別能力等價于CFG,提出了使用這種模板進行翻譯的算法,討論了如何將屬性運算引入翻譯模板當中,并研究了如何從實例庫中提取翻譯模板的算法.該文作者在小規模范圍內進行了實驗,取得了較好的效果.
基于信源信道模型的統計機器翻譯方法
基于信源信道模型的統計機器翻譯方法源于Weaver在1947年提出的把翻譯看成是一種解碼的過程.其正式的數學框架是由IBM公司的Brown等人建立的[Brown1990,1993].這一類方法的影響非常大,甚至成了統計機器翻譯方法的同義詞.不過在本文中,我們只把它作為統計機器翻譯方法中的一類.
IBM的統計機器翻譯方法
基本原理
基于信源信道模型的統計機器翻譯方法的基本思想是,把機器翻譯看成是一個信息傳輸的過程,用一種信源信道模型對機器翻譯進行解釋.假設一段源語言文本S,經過某一噪聲信道后變成目標語言T,也就是說,假設目標語言文本T是由一段源語言文本S經過某種奇怪的編碼得到的,那么翻譯的目標就是要將T還原成S,這也就是就是一個解碼的過程.
有兩個容易混淆的術語在這里需要解釋一下.一般談到機器翻譯時,我們都稱被翻譯的文本語言是源語言,要翻譯到的文本語言是目標語言.而在基于信源信道模型的統計機器翻譯方法中,源語言和目標語言是相對于噪聲信道而言的,噪聲信道的輸入端是源語言,噪聲信道的輸出端是目標語言,翻譯的過程被理解為"已知目標語言,猜測源語言"的解碼過程.這與傳統的說法剛好相反.
根據Bayes公式可推導得到:
這個公式在Brown等人的文章中稱為統計機器翻譯的基本方程式(FundamentalEquationofStatisticalMachineTranslation).在這個公式中,P(S)是源語言的文本S出現的概率,稱為語言模型.P(T|S)是由源語言文本S翻譯成目標語言文本T的概率,稱為翻譯模型.語言模型只與源語言相關,與目標語言無關,反映的是一個句子在源語言中出現的可能性,實際上就是該句子在句法語義等方面的合理程度;翻譯模型與源語言和目標語言都有關系,反映的是兩個句子互為翻譯的可能性.
也許有人會問,為什么不直接使用P(S|T),而要使用P(S)P(T|S)這樣一個更加復雜的公式來估計譯文的概率呢其原因在于,如果直接使用P(S|T)來選擇合適的S,那么得到的S很可能是不符合譯文語法的(ill-formed),而語言模型P(S)就可以保證得到的譯文盡可能的符合語法.
這樣,機器翻譯問題被分解為三個問題:
1.語言模型Pr(s)的參數估計;
2.翻譯模型Pr(t|s)的參數估計;
3.搜索問題:尋找最優的譯文;