詞匯分布語義的語言學基礎分析

時間:2022-12-24 10:20:47

導語:詞匯分布語義的語言學基礎分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

詞匯分布語義的語言學基礎分析

一、引言

自然語言處理是人工智能領域極其重要也極具挑戰(zhàn)的研究方向,屬于計算機科學與語言學的交叉學科。它將抽象的人類語言轉(zhuǎn)換成適合計算機處理的形式,從而建立語言、知識與客觀世界之間的可計算關系。自然語言處理的核心,是讓機器具備理解各種語言形式(詞匯、短語、句子、篇章等)內(nèi)在含義的能力。詞匯是自然語言的基本單位,詞匯的語義表示因此也成為自然語言理解的基本問題之一。傳統(tǒng)上,人們采用人工構(gòu)建語義詞典和語義知識庫的方式來表達詞匯語義①。但人工標注的方式成本高昂,覆蓋面亦有限,難以獲得大規(guī)模高質(zhì)量的標注數(shù)據(jù)。隨著深度學習技術的發(fā)展和文本數(shù)據(jù)的爆炸式增長,利用機器學習算法在大規(guī)模語料上對詞匯表示進行抽象和學習,成為當前詞匯語義表示的主流方法。這種表示方法又稱分布語義,它通過對語料的學習,將符號表示的詞匯轉(zhuǎn)化為數(shù)學表示的向量,使得詞匯具有語義可計算的能力,已經(jīng)在智能搜索、語音識別、機器翻譯、詩歌創(chuàng)作、古文斷句、信息過濾、意圖理解等領域得到了廣泛使用②。盡管詞匯分布語義在應用上取得了很大的成功,然而也應當看到,對其背后的語言學機理,我們還缺乏全面的認識。我們要問,這種通過對語料的學習而自動獲得的分布語義,本質(zhì)上是一種什么樣的語義?它能否涵蓋詞匯的完整意義?這種語義表示的潛力和局限又是什么?我們認為,要回答這些問題,需要結(jié)合相關的語言學理論來深入思考。本文試圖從語言學學說史的角度審視詞匯分布語義的理論基礎,并以在海量《人民日報》語料庫上訓練得到的詞匯分布語義作為實證分析的依據(jù)③,以厘清詞匯分布語義在自然語言處理領域的潛力和邊界,并為自然語言理解模型的構(gòu)建和應用提供新的思路。

二、意義即使用:詞匯分布語義的語言哲學基礎

詞匯的意義理論是語言哲學的兩個基本問題之一④。什么是詞義?對這個問題的討論,最早可追溯至古希臘時期對“詞”與“物”的關系之辯,即名實之爭。“邏各斯(logs)”學說的提出者,古希臘哲學家赫拉克里特(Heraclitus)主張“本質(zhì)說”,認為名稱與它所代表的事物之間的聯(lián)系是不可分割的,名稱包含了事物的本質(zhì)⑤。與此相反,德謨克里特(Democletus)主張“約定說”,認為名稱與事物之間的聯(lián)系并非由事物的本質(zhì)決定,而是約定俗成的⑥。后來柏拉圖(Plato)在他的《對話錄》中提出了“語詞是命名(naming)”的折中觀點,認為事物的意義在于名稱和事物之間的自然聯(lián)系,但這種內(nèi)在聯(lián)系會隨著時間推移而減弱。柏拉圖的學生亞里斯多德則堅決主張名實分離,認為名稱不是自然賦予的,而是約定俗成的具有意義的聲音,在成為一種符號時才成為名稱⑦。公元二世紀語言學的亞歷山大里亞學派(theAlexandrians)也傳承了這一觀點⑧。古希臘哲學家關于名實關系的爭辯,對中世紀以后的語言哲學學說,產(chǎn)生了極其深遠的影響。意義的指稱論(referentialtheoryofmeaning)即秉持“約定說”的名實分離觀點,認為詞的意義就是詞所指的對象。近代英國哲學家、邏輯學家密爾(J.S.Mill)把名稱分為專名和通名,其中通名既有外延又有內(nèi)涵,外延表示所指稱的事物,而內(nèi)涵表示所指事物的特性,即意義⑨。德國哲學家弗雷格(G.Frege)進一步發(fā)展了指稱論,在1892年發(fā)表的《論意義和所指》一文中,弗雷格對符號的意義和所指(一譯“意謂”)做了明確區(qū)分。他以望遠鏡觀察月亮來比喻:月亮是所指,望遠鏡物鏡中的影像是意義,視網(wǎng)膜上的圖像是意象,意義介于所指和意象之間,既不是所指對象本身,也不像意象那樣主觀,而是一種客觀的存在⑩。指稱論的另一位代表人物羅素(B.A.W.Russell)則提出,應將語詞分為專名和摹狀詞,專名的意義就是所指稱的對象,摹狀詞的意義由所組成的語詞的意義確定輥輯訛,羅素的意義理論被稱為“邏輯指稱論”,并深刻影響了他的學生維特根斯坦,早期維特根斯坦就認為,名稱和對象之間存在直接的對應關系,名稱所指的對象就是名稱的意義輥輰訛。由上可知,指稱論者雖然在具體觀點上有所差異,但都主張語言是對世界的反映,詞匯的意義在于所指稱的世界中的事物。但是,指稱論是以名稱為范例來看待詞匯的,而詞匯并不都是名稱,許多詞匯的意義,要根據(jù)上下文甚至社會語境才能確定。后期維特根斯坦就否定了自己早期的指稱論觀點,在后期著作《哲學研究》中,他提出“意義即用法”的觀點,他說:“一個字詞的意義是它在語言中的用法。”輥輱訛例如,作為路標的箭頭符號之所以能夠指路,是因為人們使用它,按照它的指向行走,正是使用賦予箭頭符號以意義。根據(jù)維特根斯坦的觀點,詞匯的意義受到語言使用規(guī)則的制約,因此必須研究語言游戲的規(guī)則,這種思路被稱作意義的使用論(usetheoryofmeaning),并直接促使人們對詞的用法進行經(jīng)驗性研究。意義的使用論被多個語言學派所吸收和采納,但“使用”這一概念過于空泛,不少語言學家給出了更為明確的關于“詞義”的闡述。語言學倫敦學派的創(chuàng)始人弗斯(J.R.Firth)說:“詞匯的意義取決于搭配”,認為意義存在于詞匯出現(xiàn)的上下文之中,上下文可以幫助理解詞義。輥輲訛英國語言學家克魯斯認為:“一個詞項在各種語境中遇到的全部正常關系稱為它的語境關系(contextualrelations),…,詞的意義是由它的語境關系構(gòu)成的。”輥輳訛用詞的上下文信息來表達詞的意義,與傳統(tǒng)語義學和喬姆斯基(A.N.Chomsky)的生成語法理論形成了鮮明對比,但在實踐中卻有很強的可操作性。我們以漢字“塤”為例,假設一個人并不清楚這個字的含義,但告訴他這個字在如下的文本中出現(xiàn)輥輴訛:(1)正是周敏在城墻頭上吹動了塤,聲音沉緩悠長,嗚嗚如夜風臨窗。(賈平凹《廢都》)(2)它的外形有橢圓形、圓形、橄欖形不等,大多由陶土燒制而成,所以又叫陶塤。(新華社新聞文本)(3)若不會吹笛,塤和簫都成,曲風應是悠揚輕遠的。(劇本《武林外傳》)那么,根據(jù)“塤”這個詞在上下文中的分布,不難推斷出它的意義:“一種陶制的吹奏樂器”。由此可見,如果給定足夠多的上下文,就能夠利用分布統(tǒng)計方法來刻畫每個詞的含義。詞匯分布語義各種模型的基本思想,正是通過機器學習算法來學習詞匯在大規(guī)模文本語料中的分布模式,從而獲得詞匯的語義表示。在各具特色的詞匯分布語義學習模型中,Word2Vec神經(jīng)網(wǎng)絡模型是較有影響力的一種輥輵訛。本文采用Word2Vec的Skip-Gram算法對《人民日報》語料進行訓練,然后將得到的詞向量降到3維(原參數(shù)設為256維),再檢索“塤”的語義近鄰分布,結(jié)果如下圖1所示。由圖1中詞匯的空間分布,可以得到更多關于“塤”的語義知識,例如,由“編鐘”、“篪”、“古琴”、“青銅器”等近鄰詞可以推斷,“塤”應是一種遠古樂器。可見,詞匯分布語義實質(zhì)上是通過詞匯在空間中的位置來表達語義的。自然語言本質(zhì)上是符號化的,而在分布表示框架下,符號表示的詞匯最終被轉(zhuǎn)換成了數(shù)學表示的向量,這種轉(zhuǎn)換具有非常重要的意義,因為在轉(zhuǎn)為數(shù)學向量之后,詞匯語義變得可計算甚至可推理了。例如,通過向量計算,可以發(fā)現(xiàn)“塤”與“簫”的距離要明顯小于它與“架子鼓”的距離,也就是說,“塤”在語義上要更接近“簫”。同時,這種語義距離還具有可推理的性質(zhì),例如,通過計算,我們可以得到類似于“吹奏樂器-塤=打擊樂器-架子鼓”這樣的語義推理結(jié)果。那么,通過空間距離來表達詞匯語義,是否符合人類對概念的認知規(guī)律呢?我們可以從認知語言學的角度看待這個問題。溫格樂(F.Ungereer)認為,概念結(jié)構(gòu)是體驗性的(embodied,一譯“具身”),語義的形成,很大程度上源于我們的身體體驗輥輶訛。認知語言學的代表人物萊考夫(G.Lakoff)指出,隱喻是人類語言的普遍現(xiàn)象,是人類認知和思維的本質(zhì)輥輷訛。格雷迪(E.J.Grady)的基本隱喻理論認為,兒童在概念認知的早期,能學會數(shù)百個可被辨識的基本隱喻,基本隱喻又進一步構(gòu)成了復雜隱喻輦輮訛。萊考夫總結(jié)分析了約50條基本隱喻,其中非常重要的一條就是“相似是近(similarityiscloseness)”,該隱喻是人類對挨近的相似對象進行觀察而獲得的基本經(jīng)驗,表明人類的思維會將實體概念映射到空間,而相似的概念在空間中的距離也相近輦輯訛。萊考夫認為,人類正是通過“相似是近”這一基本隱喻來進行概念層面的抽象思維。由此可見,用詞匯在向量空間中的位置來表示詞匯,用詞匯間的空間距離來表示詞匯的語義相似度,可以從認知語義學中找到理論依據(jù)。

三、句段與聯(lián)想:詞匯分布語義的兩類上下文

詞匯分布語義通過空間距離表達語義相似程度,而這種距離正是通過對詞匯在語料中的“使用”模式進行統(tǒng)計,由學習模型自動習得的。因此,有必要審視詞匯的“使用”指的是什么?以及對“使用”的不同定義得到的詞匯語義有何區(qū)別?瑞士語言學家索緒爾(F.D.Saussure)是現(xiàn)代語言學的奠基者輦輰訛。索緒爾認為,語言是一套具有價值的符號系統(tǒng),符號的價值在于對不同功能的區(qū)分,而這種區(qū)分是不能脫離系統(tǒng)而存在的。按照索緒爾的觀點,作為語言符號系統(tǒng)的一部分,詞匯不僅具有意義,而且具有價值,詞匯的價值由它與其他詞的關系決定,索緒爾將這種關系分為兩類:句段關系和聯(lián)想關系輦輱訛。句段關系是指話語中各個要素挨序排列結(jié)成的線條性關系,其特征是有序的,在現(xiàn)場的(法語inpraesentia)輦輲訛,例如,語詞中構(gòu)字成詞,連詞成句,集句成段等都屬于句段關系;聯(lián)想關系的特征是無序的,非現(xiàn)場的(法語inabsentia),可替換的輦輳訛。下面以一個簡單例子來說明句段關系和聯(lián)想關系,如下圖2所示。在這個例子中,“李白”和“詩人”屬于句段關系,“李白”和“杜甫”則屬于聯(lián)想關系。索緒爾指出,整個語言機構(gòu)都無外乎對這兩種關系的運用。從這個角度來看,詞匯分布語義模型對語義的學習,最終可以歸結(jié)為對這兩種關系的學習。句段關系是詞匯的橫向組合,通過對固定的語言單元內(nèi)(如句子、段落、篇章)詞匯的共現(xiàn)關系(co-occurrence)的建模,可以刻畫詞匯的分布語義。例如,我們統(tǒng)計詞匯在上述3個句子中的共現(xiàn)次數(shù),如下表1所示。不難看出,“李白”和“詩人”的共現(xiàn)頻率最高,因此語義上更為接近。具有聯(lián)想關系的詞匯不在同一現(xiàn)場共現(xiàn),但具有相似的上下文語境,且一般能夠互相替換。例如,我們依據(jù)上述語料可以構(gòu)建一個詞詞共現(xiàn)矩陣,如下表2所示。可以看出,“李白”和“杜甫”雖然不在同一個句子中出現(xiàn),但擁有相似的上下文(即“唐代、詩人”),因此語義相似度較高。當然,上述例子僅是一個簡單示例,但如果依據(jù)海量的語料來構(gòu)建詞匯的共現(xiàn)矩陣,無疑可以表達更為豐富全面的語義。這個共現(xiàn)矩陣的規(guī)模通常會很大,潛語義分析、非負矩陣分解、典型相關分析等自然語言處理領域的分布語義技術,通過不同的途徑對共現(xiàn)矩陣進行降維,從而得到詞匯的潛在分布語義。但這些方法對詞匯上下文的使用,仍可以歸結(jié)到索緒爾關于句段關系和聯(lián)想關系的論述。由此可見,詞匯在語料中的“使用”,最終可以用索緒爾的句段關系和聯(lián)想關系來概括,那么這兩類關系得到的詞匯語義又有何不同?我們在《人民日報》語料上的實證結(jié)果表明,句段關系得到的詞匯語義,更偏向于語法搭配的相似性,較易得到主題相關性的詞匯語義(例如“杭州”與“西湖”,“李白”與“詩人”等);聯(lián)想關系得到的詞匯語義,更偏向于功能相似性的詞匯語義(例如“杭州”與“蘇州”,“李白”與“杜甫”等)。

四、描寫語言學:詞匯分布語義的理論依據(jù)

布龍菲爾德(L.Bloomfield)的結(jié)構(gòu)主義語言學是對索緒爾語言觀的繼承和發(fā)展,其1933年出版的代表作《語言論》,奠定了描寫語言學的理論基礎,標志著語言學一個新時期的誕生。作為結(jié)構(gòu)語言學的一個重要流派,描寫語言學建立了一整套描寫語言的嚴格技術,包括替換分析、對比分析、分布分析、直接成分分析等語言分析方法輦輴訛。布龍菲爾德之后,在海里斯(Z.S.Harris)等人的努力下,美國描寫語言學呈現(xiàn)出精密的分析手續(xù)和高度的形式化,其中分布分析技術成為最重要的方法論。在《結(jié)構(gòu)語言學》中,海里斯給出了分布的定義:“一個語言成分(element)的分布就是它所出現(xiàn)的全部環(huán)境(environments)的總和,也就是這個成分的所有的(不同的)位置(positions)或出現(xiàn)的場合(occurrences)的總和,這個成分出現(xiàn)的這些位置是和其它成分的出現(xiàn)有關系的。”輦輵訛海里斯認為,分布是語言結(jié)構(gòu)分析的主要依據(jù),分布可以確定語言的成分以及各個成分之間的關系。他又認為依據(jù)分布能夠得到意義,分布的不同,也就是意義上的不同輦輶訛。海里斯的“分布區(qū)別意義”的思想后來不斷被其他學者的實驗所證實,并成為詞匯分布語義的理論基礎。基于“相似詞的上下文也相似”的分布假設,研究者提出了各種詞匯分布語義學習模型。除了詞匯的上下文外,還可以通過其他語言要素的分布來學習詞匯語義,這些語言要素包括詞匯的形態(tài)學特征,如前后綴、詞元、詞干、偏旁部首等,以及詞匯的語言學特征如詞性、語法成分樹、語義角色、句法依存樹、回指等輦輷訛。詞匯分布語義模型是建立在對海量語料分析的基礎上的,它天然符合美國描寫語言學的主張,即通過客觀和機械的方法來研究語言。因此,如果語料中詞匯的語義發(fā)生變遷(詞義擴大、縮小、產(chǎn)生新義或消亡),模型中的詞匯分布語義也會隨之改變。我們對《人民日報》語料進行歷時分割,使用字+詞+詞性的分布,訓練得到詞匯分布表示后,發(fā)現(xiàn)某些詞匯隨社會發(fā)展而出現(xiàn)詞義變遷現(xiàn)象。以詞匯“革命”的為例,可以觀察到其詞義在20世紀70年代和80年代的有著顯著變化。如下圖3所示,70年代,“革命”一詞與緊密相關,語義近鄰中包含大批與階級斗爭密切相關的詞匯。80年代,鄧小平“改革是中國的第二次革命”的著名論斷賦予了“革命”一詞新的科學內(nèi)涵,其語義近鄰詞中出現(xiàn)了“拓荒牛”、“開拓創(chuàng)新”、“奮力拼搏”等反映社會變革的具有鮮明時代特征的詞匯。可見,通過歷時語料的訓練,詞匯分布語義能夠為觀察社會變遷和文化演變提供新的視角。

五、結(jié)語

自然語言理解是人工智能的一種高級表現(xiàn)形式,詞匯的語義表示屬于自然語言理解的基礎研究。通過對語言學學說史的梳理和對語料庫的實證分析,可以認為,當前以神經(jīng)語言模型為代表的詞匯分布語義,其哲學淵源是意義的“使用論”;而詞匯和語言要素之間的句段和聯(lián)想關系,是詞匯“使用”的具體表現(xiàn),并可由此來刻畫詞匯的意義;以美國描寫語言學為代表的結(jié)構(gòu)語言學,構(gòu)成了詞匯分布語義的理論基礎,分布的不同將導致意義的不同。至此我們可以回答引言中的三個問題。第一,詞匯分布語義本質(zhì)上是從語料中習得的語義,反映的是相應語料中詞匯的使用模式和偏好,因此也會客觀折射出社會文化生活的某些風貌特征。第二,詞匯分布語義建立在描寫語言學的結(jié)構(gòu)主義之上,結(jié)構(gòu)主義是由索緒爾關于語言是一個符號系統(tǒng)的理論發(fā)展而來的,主張語言分析要使用機械方法的立場。如果承認這一點,那么基于語料的詞匯分布語義,理論上是能夠完整覆蓋語料范圍內(nèi)的所有詞義的。需要指出的是,雖然詞匯分布語義表達的是作為語言的基本單元的詞匯的意義,但在深度學習領域發(fā)展起來的循環(huán)、卷積、遞歸等神經(jīng)網(wǎng)絡模型,目前已經(jīng)能夠?qū)Σ煌6鹊恼Z言單元進行組合,從而獲得更大粒度的語義表示,因此,詞匯語義表示研究的進步,對意義“使用論”在語言哲學方向的發(fā)展,也提供了一種新的視角和途徑。第三,詞匯分布語義建立在分布假設基礎上,不可避免存在固有的局限。首先,分布語義的假設是“相似的詞具有相似的上下文”,然而此處的“相似”這個概念,實際上指的是語義上的關聯(lián),既包括同義,也包括反義、上下位等其他語義關系;其次,分布語義反映的是語料庫中詞匯的使用模式,而語料庫又不可避免地帶有社會文化和制度的烙印,包括現(xiàn)實世界中固有的偏見或歧視,例如性別歧視、種族差異等,因此,在基于詞匯分布語義的人工智能決策應用中,需要充分考慮社會公平和基本倫理。

作者:潘俊 吳宗大 單位:南京大學