網(wǎng)上有很多關(guān)于pos機廣告語(yǔ)句,聯(lián)合漢語(yǔ)分詞和依存句法分析的統一模型的知識,也有很多人為大家解答關(guān)于pos機廣告語(yǔ)句的問(wèn)題,今天pos機之家(m.xjcwpx.cn)為大家整理了關(guān)于這方面的知識,讓我們一起來(lái)看下吧!
本文目錄一覽:
pos機廣告語(yǔ)句
漢語(yǔ) NLP 任務(wù)與英語(yǔ)不同,由于詞語(yǔ)缺乏明顯邊界,漢語(yǔ)需要先依次分詞、詞性標注,再進(jìn)行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個(gè)小任務(wù)之間的共享知識無(wú)法充分利用。
對此,傳統的解決方案是采用基于轉換的聯(lián)合模型。但這些模型仍然具有不可避免的缺陷:特征工程和巨大的搜索空間。因此,本文提出一種基于圖的統一模型來(lái)解決這些問(wèn)題。
這種模型將漢語(yǔ)分詞和依存句法分析集成在一個(gè)分析模型中。它比以前的聯(lián)合模型性能更好,并在漢語(yǔ)分詞和依存句法分析中實(shí)現了當前最佳的結果。
與英語(yǔ)不同,漢語(yǔ)句子由連續的字符組成,詞語(yǔ)之間缺乏明顯的界限。由于詞語(yǔ)常被認為是最小語(yǔ)義單位,因此漢語(yǔ)分詞(CWS)成為下游漢語(yǔ)自然語(yǔ)言處理的預處理步驟。
例如,基本的 NLP 任務(wù)——依存句法分析通常在詞級上定義。要分析一個(gè)中文句子,基本過(guò)程過(guò)程大致是:分詞、詞性標注和依存句法分析。
但是,這種 pipeline 方式總是存在以下局限:
誤差傳播。在這種方式中,一旦某些詞語(yǔ)被錯誤地分割,隨后的詞性標注和分析也會(huì )出錯。因此,pipeline 模型只能達到約 75%~80%的 dependency 分數 [1]。知識共享。這三個(gè)任務(wù)(分詞,詞性標注和依存句法分析)是密切相關(guān)的。漢語(yǔ)分詞的標準也取決于詞語(yǔ)在句子中的語(yǔ)法作用。因此,從這三個(gè)任務(wù)中學(xué)到的知識是可以共享的。一項任務(wù)的知識可以幫助其它任務(wù)。然而,pipeline 方式分別單獨訓練三個(gè)模型,每個(gè)模型針對一個(gè)任務(wù),不能充分利用三個(gè)任務(wù)之間的共享知識。
這種誤差傳播問(wèn)題的傳統解決方案是使用聯(lián)合模型 [2,3,1]。這些聯(lián)合模型主要采用基于轉換的分析框架來(lái)集成分詞、詞性標注和依存句法分析。它們基于標準的順序 shift-reduce 轉換,為分詞和詞性標注設計了一些額外的動(dòng)作。
雖然這些聯(lián)合模型比 pipeline 模型的性能更好,但它們仍具有兩個(gè)局限性:第一,巨大的搜索空間;第二,特征工程(feature engineering)。
最近,基于圖的模型在依存語(yǔ)句法分析方面取得了很大進(jìn)展 [4,5],它充分利用了雙向長(cháng)短期記憶網(wǎng)絡(luò )(BiLSTM)[6] 和注意力機制 [7] 來(lái)捕捉句子中單詞之間的交互。
與基于轉換的模型不同,基于圖的模型為每個(gè)可能的弧分配一個(gè)分數或概率,然后根據這些加權弧來(lái)構建最大生成樹(shù)(MST)。
本文提出了一個(gè)統一的漢語(yǔ)分詞和依存語(yǔ)句分析模型,它將這兩個(gè)任務(wù)集成在一個(gè)基于圖的分析模型中。由于分割是字符級任務(wù),而依存分析是詞級任務(wù),因此研究人員首先將這兩個(gè)任務(wù)公式化為基于圖形的字符級分析框架。
詳細地說(shuō),本文模型包含(1)深度 BiLSTM 編碼器,它能夠捕獲每個(gè)字符的長(cháng)期上下文特征,(2)biaffine 注意力計分器(attentional scorer)[5],它統一預測字符級別的分割和依存分析關(guān)系。此外,與以前的聯(lián)合模型不同,該統一模型不依賴(lài)于詞性標注任務(wù)。
本文三項貢獻如下:
據研究人員所知,這是第一個(gè)將漢語(yǔ)分詞和依存句法分析集成在統一模型中的基于圖的方法。且提出的統一模型非常簡(jiǎn)潔,易于實(shí)現。與之前基于轉換的聯(lián)合模型相比,本文提出的模型是基于圖的,這使得特征工程的工作量減少。此外,此模型可以處理標記的依存句法分析任務(wù),而這對于基于轉換的聯(lián)合模型來(lái)說(shuō)并不容易。在數據集 CTB-5 和 CTB-7 上進(jìn)行的實(shí)驗中,即使沒(méi)有 POS 信息,本文模型在聯(lián)合漢語(yǔ)分詞和依存句法分析中也達到了當前最先進(jìn)的性能。論文:A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing
論文地址:https://arxiv.org/abs/1904.04697
漢語(yǔ)分詞和依存句法分析是漢語(yǔ)自然語(yǔ)言處理的兩個(gè)基本任務(wù)。依存句法分析是在詞級定義的,因此分詞是依存句法分析的前提條件,這使得依存句法分析受到誤差傳播的影響。
在本文中,我們提出了一個(gè)統一的模型來(lái)集成漢語(yǔ)分詞和依存句法分析。與以前的聯(lián)合模型不同,我們提出的模型是基于圖形的模型,它更加簡(jiǎn)潔,從而減少了特征工程的工作量。
我們的聯(lián)合模型比以前的聯(lián)合模型性能都更優(yōu),并在漢語(yǔ)分詞和依存句法分析中實(shí)現了當前最優(yōu)的結果。
本文提出的模型
以前的聯(lián)合方法主要基于轉換的模型,它通過(guò)添加一些額外的操作(如「app」和「tag」)來(lái)修改標準的「shift-reduce」操作。與以前的方法不同,我們將分詞和依存句法分析集成到一個(gè)基于圖的統一分析框架中,這樣更簡(jiǎn)單且更易于實(shí)現。
圖 1:聯(lián)合漢語(yǔ)分詞和依存分析的統一框架。綠色弧線(xiàn)表示詞級依賴(lài)關(guān)系。帶有「app」的藍色虛弧線(xiàn)表示連接的字符屬于同一個(gè)詞。
首先,我們將分詞轉換為特殊的弧預測問(wèn)題。例如,中文單詞「金融業(yè)(financial sector)」有兩個(gè)詞內依存?。骸附稹凇购汀溉凇麡I(yè)」。這兩個(gè)詞內依存弧都有標簽「app」。
在本文中,我們只是將詞語(yǔ)中的最后一個(gè)字符定義為首字符,所有其它字符都依賴(lài)于它。
其次,我們將詞級依存弧轉換為字符級依存弧。假設在詞語(yǔ) w1 = xi:j 和 w2 = xu:v 之間存在依存弧,其中 xi:j 表示句子中從 i 到 j 的連續字符,我們用此弧連接每個(gè)詞的最后字符 xj 和 xv。
例如,弧「發(fā)展 (develop)→金融業(yè) (financial sector)」被轉換為「展→業(yè)」。圖 1 說(shuō)明了聯(lián)合漢語(yǔ)分詞和依存句法分析的統一框架。
因此,我們可以使用基于圖的統一分析模型來(lái)執行這兩個(gè)任務(wù)。我們的模型包含兩個(gè)主要組成部分:(1) 深度 BiLSTM 編碼器,用于提取上下文特征,它將給定句子的每個(gè)字符嵌入作為輸入并生成密集向量,(2)biaffine 注意力計分器 [5],將給定字符對的隱藏向量作為輸入并預測標簽得分向量。
圖 2 說(shuō)明了聯(lián)合漢語(yǔ)分詞和依存句法分析的統一模型。具體說(shuō)明如下。
圖 2:本文提出的聯(lián)合模型。為了簡(jiǎn)單起見(jiàn),我們省略了弧標簽的預測,它使用不同的 biaffine 分類(lèi)器。
實(shí)驗
我們使用 Penn Chinese Treebank 5.0(CTB-5)和 7 個(gè)(CTB-7)數據集來(lái)評估我們的模型。
表 1:CTB-5 和 CTB-7 的數據統計
如表 3 所示,我們的聯(lián)合模型(倒數第二行)在漢語(yǔ)分詞和依存句法分析方面都大大超過(guò)了以前的方法,即使沒(méi)有(基于轉換的聯(lián)合模型中廣泛使用的)局部句法分析特征。
表 3:主要結果
所有模型在漢語(yǔ)分詞中的性能如表 4 所示。前兩行顯示了是否在 MLP 頂部使用 CRF 的區別。表 4 的下半部分給出了對本文所提所有聯(lián)合模型的分段評估。聯(lián)合訓練漢語(yǔ)分詞和依存句法分析比單獨訓練漢語(yǔ)分詞效果更好。
表 4:漢語(yǔ)分詞結果
以上就是關(guān)于pos機廣告語(yǔ)句,聯(lián)合漢語(yǔ)分詞和依存句法分析的統一模型的知識,后面我們會(huì )繼續為大家整理關(guān)于pos機廣告語(yǔ)句的知識,希望能夠幫助到大家!
