大數據分析網絡多語言探討
時間:2022-11-12 10:11:30
導語:大數據分析網絡多語言探討一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:由于網絡多語言及時翻譯系統受到字符串長度的影響,導致系統的翻譯速度變慢且匹配率也比較低。為了提高網絡多語言翻譯系統在翻譯速度和匹配率方面的性能,文中提出一種基于大數據分析的網絡多語言及時翻譯系統設計。將大數據分析應用到網絡多語言及時翻譯系統設計中,在大數據分析的基礎上,通過網絡多語言及時翻譯服務器設計和網絡多語言詞法分析器設計,完成系統的硬件設計;采用特征提取算法實現網絡多語言的語義特征的提取,結合設計網絡多語言及時翻譯算法,完成系統的軟件設計。最終實現了網絡多語言的及時翻譯系統設計。進行仿真測試分析,測試結果表明,基于大數據分析的網絡多語言及時翻譯系統在翻譯速度和匹配率方面性能均具有較好的提升。
關鍵詞:網絡多語言;及時翻譯系統;大數據分析;語義特征提取;系統設計;仿真測試
在人類社會交往日益國際化的今天,英漢之間的語言翻譯早已經成為學術界研究的熱點,也引起了人們的關注,與此同時便產生了語言翻譯系統[1]。對于網絡上的多語言翻譯來講,提高其翻譯質量,使得網絡多語言翻譯系統的使用頻率逐漸升高,已經成為系統設計者和研發者需要思考的重點[2]。網絡多語言翻譯系統之所以能夠被大多數用戶認可,是因為很多研發者在設計過程中應用了機器翻譯算法,從而有效提高了語言翻譯的準確度。機器翻譯是利用計算機編程軟件將一種語言文本翻譯成另一種語言文本的方式,實現多種語言之間的相互轉換[3]。在大數據分析技術的背景下,語言翻譯系統已經不僅僅局限于多種語音的在線識別,在語義、語境處理上也具有很好的應用效果。雷花等人對基于開源CMU⁃EBMT范例的機器翻譯系統特性進行了深入的描述[4],包括詞典歸納、單詞和短語對齊、語料庫索引和查找、語言模型、解碼器和參數調整組件。為了說明CMU⁃EBMT最近增加的內容,給出的實驗表明,當使用一組新的細粒度對數線性特征值來表示語言模型匹配長度以及語言模型概率時,在交叉驗證的小數據英語⁃海地翻譯任務上提高了0.16個BLEU點(相對值為0.9%)。余倩針對傳統語言翻譯系統存在語義語境模糊、準確度低的問題,將特征提取算法應用到交互式英漢翻譯系統設計中,在引入特征提取算法的基礎上,選取英語語義的最優翻譯解,通過構建英漢語義之間的映射模型,實現英漢之間的交互最優翻譯[5]。仿真結果顯示,該系統可以在英漢翻譯過程中尋找到語義之間的最優翻譯解。基于以上研究背景,本文將大數據分析應用到了網絡多語言及時翻譯系統設計中,從而提高網絡多語言翻譯系統在翻譯速度和匹配率方面的性能。
1網絡多語言及時翻譯系統硬件設計
1.1網絡多語言及時翻譯服務器設計
網絡多語言及時翻譯服務器由多個運行Moses程序的服務器和一個運行Apache程序的服務器組成,翻譯服務器的種類不同,所承擔的翻譯服務也不同[6]。網絡多語言及時翻譯服務器通常由運行Apache程序的服務器進行統一管理,可以為系統客戶端提供用戶訪問接口[7]。網絡多語言及時翻譯服務器結構如圖1所示。網絡多語言及時翻譯服務器的設計分為兩個步驟,先訓練再解碼,訓練就是在龐大的網絡多語言數據庫中統計出用于求解最大概率的網絡多語言數據,解碼就是利用訓練結果尋找出概率最大的解[8]。在訓練過程中,通過對數據庫中網絡多語言數據的統計得到訓練數據,解碼是將輸入的網絡多語言數據通過解碼算法找到最大概率的翻譯結果。網絡多語言及時翻譯服務器的工作原理如圖2所示。通過設計網絡多語言及時翻譯服務器結構,對網絡多語言及時翻譯服務器的工作原理進行詳細設計,完成網絡多語言及時翻譯服務器設計。
1.2網絡多語言詞法分析器設計
網絡多語言及時翻譯系統中互相聯動的功能模塊一共有8個,構成網絡多語言翻譯流程的結構[9],如圖3所示。在網絡多語言翻譯流程結構中,詞性標注模塊、詞法分析模塊以及淺層句法分析模塊都能夠分析網絡多語言的源語言,而實例模式匹配可以將實例模式作為基礎[10]。短語目標生成模塊可以將翻譯的譯文輸出。網絡多語言翻譯的知識源就是將真實網絡多語言文本轉變成詞性序列的一個過程,因此需要設計一個詞法分析器對網絡多語言文本進行處理[11]。詞法分析器的結構如圖4所示。在網絡多語言及時翻譯服務器設計的基礎上,設計了網絡多語言翻譯流程結構,利用詞法分析器結構完成了網絡多語言詞法分析器設計,實現了系統的硬件設計。
2網絡多語言及時翻譯系統軟件設計
2.1提取網絡多語言的語義特征
在提取網絡多語言的語義特征之前,先引入特征提取算法,將網絡多語言的最佳語境提取到翻譯過程中,實現網絡多語言語義特征的提取。假設翻譯過程中一共存在N種翻譯語境,包括K類語義,網絡多語言翻譯語境的數量表示為Ni(i=1,2,⋯,K),K類網絡多語言語義翻譯用概率為Xi={X}i1,Xi2,⋯,XiN,其中Xij={i}=1,2,⋯,K;j=1,2,⋯,Ni為一個定向的n維向量結果。通過特征提取過程[12],將網絡多語言翻譯的語境翻譯為:(1)式中αi表示能夠達到網絡多語言翻譯的語義翻譯語境。那么最佳翻譯語境的選定過程為:(2)在式(2)的前提下,計算網絡多語言非語義翻譯的語境矩陣Sw和網絡多語言語義翻譯的語境矩陣SB,將其表示為:在網絡多語言翻譯的輸出結果集中,求解網絡多語言翻譯輸出的優化解向量R(X)。結合以下判決模型,來提取網絡多語言的語義特征,具體步驟如下:
2.2設計網絡多語言及時翻譯算法
在設計網絡多語言及時翻譯算法時,利用大數據分析技術抽取出網絡多語言文本,得到網絡多語言長字符X,Y在文本中的相似程度,表示為:根據網絡多語言詞匯在文本中的具體位置,并與上下文相匹配,得到網絡多語言翻譯的模糊概念集。從網絡多語言的語境出發,得到網絡多語言文本語義和詞性之間的關聯性函數[15]。結合詞與詞之間的互信息特征,實現網絡多語言的及時翻譯,最后求解得到翻譯規則的計算結果為:
3測試分析
3.1設定測試參數
為了驗證基于大數據分析的網絡多語言及時翻譯系統的有效性,引入文獻[4]網絡多語言及時翻譯系統和文獻[5]網絡多語言及時翻譯系統,設定了測試參數,如表1所示。翻譯系統測試實驗需要注意測試對象選取的隨機性,為了確保整個實驗過程中的準確性,需要嚴格對實驗對象進行條件限定,結果如表2所示。
3.2網絡多語言翻譯速度測試
以網絡多語言句子數量為自變量,采用三種翻譯系統測試了網絡多語言翻譯的速度,結果如表3所示。從表3的測試結果可以看出,文獻[4]網絡多語言及時翻譯系統由于在硬件設計方面,沒有對數據庫中網絡多語言數據進行統計,無法得到訓練數據,導致該系統在翻譯網絡多語言時的速度變慢,經計算,網絡多語言測試過程中的平均翻譯速度為每秒4.275句子數;而文獻[5]網絡多語言及時翻譯系統的性能相對要優于文獻[4]網絡多語言及時翻譯系統,但是由于無法提取出網絡多語言的語義特征,使網絡多語言的翻譯變得更加復雜,經計算,網絡多語言測試過程中的平均翻譯速度為每秒5.566句子數;而基于大數據分析的網絡多語言及時翻譯系統結合了以上兩個系統的軟硬件優勢,加快了網絡多語言的翻譯速度,經計算,網絡多語言測試過程中的平均翻譯速度為每秒8.34句子數。
3.3網絡多語言匹配率測試
網絡多語言匹配率可以反映出網絡多語言翻譯系統的翻譯準確性,分別采用文獻[4]網絡多語言及時翻譯系統、文獻[5]網絡多語言及時翻譯系統以及基于大數據分析的網絡多語言及時翻譯系統,測試了網絡多語言的匹配率,結果如圖6所示。從圖6的測試結果可以看出,基于大數據分析的網絡多語言及時翻譯系統的匹配率是最高的,其次是文獻[5]網絡多語言及時翻譯系統,而文獻[4]網絡多語言及時翻譯系統由于沒有計算網絡多語言長字符在文本中的相似程度,導致匹配率的測試結果偏低。
4結語
本文提出一種基于大數據分析的網絡多語言及時翻譯系統設計,通過網絡多語言翻譯系統的硬件設計和軟件設計,完成了系統的設計,實現了網絡多語言的及時翻譯。測試結果顯示,該系統的性能是最好的。
作者:祁偉 牛歡 肖蕾 單位:廣東技術師范大學 北京外國語大學
- 上一篇:企業統計數據質量原因與應對策略
- 下一篇:機械自動化設計安全控制管理探討
精品范文
10大數據學習感悟