復旦微pos機,自然語(yǔ)言處理中的多任務(wù)學(xué)習

 新聞資訊2  |   2023-06-27 09:18  |  投稿人:pos機之家

網(wǎng)上有很多關(guān)于復旦微pos機,自然語(yǔ)言處理中的多任務(wù)學(xué)習的知識,也有很多人為大家解答關(guān)于復旦微pos機的問(wèn)題,今天pos機之家(m.xjcwpx.cn)為大家整理了關(guān)于這方面的知識,讓我們一起來(lái)看下吧!

本文目錄一覽:

1、復旦微pos機

復旦微pos機

導讀:本次報告內容的題目是自然語(yǔ)言處理中的多任務(wù)學(xué)習,報告主要分為四個(gè)部分:

1、基于深度學(xué)習的自然語(yǔ)言處理;

2、深度學(xué)習在自然語(yǔ)言處理中的困境;

3、自然語(yǔ)言處理中的多任務(wù)學(xué)習;

4、新的多任務(wù)基準平臺。

首先簡(jiǎn)單介紹一下實(shí)驗室情況,課題組主要聚焦于深度學(xué)習與自然語(yǔ)言處理領(lǐng)域,包括語(yǔ)言表示學(xué)習、詞法/句法分析、文本推理、問(wèn)答系統等方面。開(kāi)源自然語(yǔ)言處理系統FudanNLP,并推出全新的NLP系統:fastNLP。

01

自然語(yǔ)言處理簡(jiǎn)介

自然語(yǔ)言處理就像人類(lèi)語(yǔ)言一樣,與人工語(yǔ)言的區別在于它是程序語(yǔ)言,自然語(yǔ)言處理包括語(yǔ)音識別、自然語(yǔ)言理解、自然語(yǔ)言生成、人機交互以及所涉及的中間階段。下面列舉出了自然語(yǔ)言處理的基礎技術(shù)、核心技術(shù)和一些應用:

基礎技術(shù):詞法分析、句法分析、實(shí)體識別、語(yǔ)義分析、篇章分析、語(yǔ)言模型;核心技術(shù):機器翻譯、自動(dòng)問(wèn)答、情感分析、信息抽取、文本摘要、文本蘊含;應用:智能客服、搜索引擎、個(gè)人助理、推薦系統、輿情分析、知識圖譜。

自然語(yǔ)言處理最初由規則驅動(dòng),逐步發(fā)展為數據驅動(dòng)。

--

02

深度學(xué)習在自然語(yǔ)言處理中的困境

由于缺少大規模的標注數據或者標注代價(jià)太高,目前大部分用在NLP上的神經(jīng)網(wǎng)絡(luò )都不是很深,一般情況下,一層LSTM+Attention就足夠完成大部分NLP任務(wù)。解決問(wèn)題的方法包括有無(wú)監督預訓練、多任務(wù)學(xué)習和遷移學(xué)習。今天我們主要介紹多任務(wù)學(xué)習。

1.無(wú)監督預訓練

首先我們來(lái)介紹一下NLP中非常重要的無(wú)監督預訓練,早期有很多研究者使用詞向量等詞級別的模型,后來(lái)發(fā)展為使用句子級別的模型,例如最近出現的ELMo、OpenAI GPT、BERT等,人們從最初學(xué)習更好的詞的表示轉變?yōu)閷W(xué)習更好的句子的表示。

論文Deep Contextualized Word Representations主要描述的是ELMo問(wèn)題,通過(guò)建立兩個(gè)雙向的LSTM來(lái)預測一個(gè)前向、正向的語(yǔ)言模型,然后將它們拼起來(lái),這個(gè)模型是一個(gè)非常好的遷移模型。

谷歌新推出的BERT是將機器翻譯中的常用模型transformer的雙向訓練用于建模,它在很多任務(wù)中取得了較好的效果。

這些模型證明在NLP中表示學(xué)習依然十分重要,表示學(xué)習是從文本輸入到計算機內部的一種表示,對于NLP任務(wù),表示學(xué)習是指將語(yǔ)義信息表示成稠密、低維的實(shí)值向量。表示好之后送到分類(lèi)器中,好的表示是一個(gè)非常主觀(guān)的概念,沒(méi)有一個(gè)明確的標準。一般而言,好的表示具有以下幾個(gè)優(yōu)點(diǎn):

1)應該具有很強的表示能力,模型需要一定的深度;

2)應該使后續的學(xué)習任務(wù)變得簡(jiǎn)單;

3)應該具有一般性,是任務(wù)或領(lǐng)域獨立的。

2. 多任務(wù)學(xué)習

下面給出一個(gè)多任務(wù)學(xué)習的例子,對于兩個(gè)單獨的任務(wù)訓練兩個(gè)模型,對于任務(wù)1訓練一個(gè)模型1,對于任務(wù)2訓練一個(gè)模型2,多任務(wù)就是將兩個(gè)任務(wù)放在一起用一個(gè)模型來(lái)處理。

多任務(wù)學(xué)習最早在97年被提出,多任務(wù)學(xué)習隱含著(zhù)從其他任務(wù)中學(xué)習一種共享的表示,共享表示可以作為一種歸納偏置,歸納偏置可以看做是對問(wèn)題相關(guān)的經(jīng)驗數據進(jìn)行分析,從中歸納出反映問(wèn)題本質(zhì)的模型的過(guò)程,不同的學(xué)習算法(決策樹(shù)、神經(jīng)網(wǎng)絡(luò )、支持向量機)具有不同的歸納偏置,在學(xué)習不同的任務(wù)過(guò)程中使用共享表示,可以使在某個(gè)任務(wù)中學(xué)習到的內容可以幫助其他任務(wù)學(xué)習的更好。

由于傳統NLP的表示空間是離散的,MTL+NLP在傳統的NLP模型是非常難實(shí)現的,隨著(zhù)深度學(xué)習的應用,整個(gè)NLP的表示空間變?yōu)檫B續的,使得任務(wù)實(shí)現更加容易。例如下圖中taskA和taskB兩個(gè)任務(wù)可以共享同一個(gè)模型。

不同學(xué)習方式之間的關(guān)系:多任務(wù)學(xué)習之上有遷移學(xué)習,之下有多標簽學(xué)習和多類(lèi)學(xué)習。

損失函數:假設有m個(gè)任務(wù),多任務(wù)學(xué)習的損失函數是將各個(gè)任務(wù)的損失函數相加求得聯(lián)合損失函數joint loss。

訓練方式:首先進(jìn)行Joint Ttaining,Training之后進(jìn)行Fine Tunning。

多任務(wù)學(xué)習工作的優(yōu)點(diǎn):

1)隱式的數據增強:一個(gè)任務(wù)的數據量相對較少,而實(shí)現多個(gè)任務(wù)時(shí)數據量就得到了擴充,隱含地做了一個(gè)數據共享。

2)更好地表示學(xué)習:一個(gè)好的表示需要能夠提高多個(gè)任務(wù)的性能。

3)正則化:共享參數在一定程度上弱化了網(wǎng)絡(luò )能力,防止過(guò)度擬合。

4)竊聽(tīng):某個(gè)特征很容易被任務(wù)A學(xué)習,但是難以被另一個(gè)任務(wù)B學(xué)習,這可能是因為B以更復雜的方式與特征進(jìn)行交互或者因為其它特征阻礙了模型學(xué)習該特征的能力。通過(guò)MTL,我們可以允許模型竊聽(tīng),即通過(guò)任務(wù)A來(lái)學(xué)習該特征。

目前NLP中每個(gè)任務(wù)只做其中的一塊,如果我們把這些任務(wù)拼起來(lái)會(huì )取得更好的效果。

--

03

自然語(yǔ)言處理中的多任務(wù)學(xué)習

下面介紹幾種多任務(wù)學(xué)習的方式,傳統的自然語(yǔ)言處理在輸入端輸入文本,之后進(jìn)行詞法分析和句法分析最后完成任務(wù),這種方式很難實(shí)現,在有了多任務(wù)學(xué)習之后,不同的任務(wù)可以共享詞法分析和句法分析模塊,自然語(yǔ)言處理的方式得到了簡(jiǎn)化。

自然語(yǔ)言中的多任務(wù)學(xué)習包括有:多領(lǐng)域任務(wù)、多級任務(wù)、多語(yǔ)言任務(wù)、多模態(tài)任務(wù)等。

深度學(xué)習+多任務(wù)學(xué)習有硬共享、軟共享、共享-私有等多種模式。

硬共享模式:在下層共享,上層根據自己不同的任務(wù)做不同的設計;軟共享模式:每個(gè)任務(wù)都有自己的流程,從信息流來(lái)看就是從輸入到A有自己的體系流程,還可以從其他任務(wù)的表示方法中拿一些東西過(guò)來(lái);共享-私有模式:一部分共享,一部分私有的信息傳遞機制。

此外還有多級共享、函數共享、主輔共享等多種共享模式,下面將一一介紹。

1.硬共享模式

硬共享在下面層共享,上面根據自己的不同的任務(wù)來(lái)做不同的設計,這種方法最早在2008年由Ronan Collobert在論文A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning中提出,應用到了很多與語(yǔ)義相關(guān)和語(yǔ)法相關(guān)的方面,例如機器翻譯、文本分類(lèi)等。

后來(lái)人們將注意力機制模型用于共享模式,注意力機制不需要使用所有的信息,只需要將其中部分信息選擇出來(lái),人們基于注意力機制做了共享模式。

原來(lái)的多任務(wù)學(xué)習如圖a所示,下面的s是共享層,p是不同任務(wù)自己的設計?,F在我們將原有的算法轉換成大圖c的形式,所有的表示函數共享,在輸入到具體任務(wù)的時(shí)候使用一個(gè)和任務(wù)相關(guān)的查詢(xún)Q去s中選擇任務(wù)相關(guān)的信息。雖然表示方式是一樣的,但是針對不同的具體任務(wù),會(huì )根據每個(gè)任務(wù)關(guān)注點(diǎn)的不同來(lái)選擇相應的信息。

2.軟共享模式

在軟共享模式中沒(méi)有嚴格規定共享層。經(jīng)典網(wǎng)絡(luò )cross-stitch結構中,上面是taskA,下面是taskB,在中間部分兩個(gè)任務(wù)有交互,α是權重系數,表示taskA中有多少信息從自身流過(guò)來(lái),有多少信息從taskB中流過(guò)來(lái),這樣兩個(gè)任務(wù)就由兩路,四個(gè)系數構成一個(gè)矩陣做權重組合,如果用到神經(jīng)網(wǎng)絡(luò )就類(lèi)似于下圖中右邊的這種形式,這種網(wǎng)絡(luò )最初應用于機器視覺(jué)領(lǐng)域,后來(lái)被人們用于NLP。

3.共享-私有模式

在共享-私有模式中部分網(wǎng)絡(luò )模塊在所有的任務(wù)中是共享的,通過(guò)設置外部記憶共享機制來(lái)實(shí)現信息共享,神經(jīng)圖靈機就是在神經(jīng)網(wǎng)絡(luò )中引入一個(gè)memory模塊,整個(gè)框架就是用神經(jīng)網(wǎng)絡(luò )實(shí)現的一個(gè)控制器,加讀寫(xiě)頭和外部輸入。圖靈機全部由神經(jīng)網(wǎng)絡(luò )搭建而成。

基于神經(jīng)圖靈機的想法我們可以做一個(gè)多任務(wù)學(xué)習,每個(gè)任務(wù)我們都可以看做是一個(gè)單獨的圖靈機,外部的memory在所有的任務(wù)中共享。在下圖中M是外部記憶,外部記憶由兩個(gè)任務(wù)共享,每個(gè)任務(wù)都會(huì )把共享信息寫(xiě)到外部記憶中,這是一種非常簡(jiǎn)單的共享方式。

為了避免上圖中的負遷移negative transfer,就需要判斷哪些內容是和任務(wù)相關(guān)的,這就引入了近兩年流行的對抗學(xué)習,在對抗學(xué)習中,中間的LSTM共享層有一個(gè)判決器來(lái)區分共享特征從哪個(gè)任務(wù)傳遞過(guò)來(lái),在送入LSTM之前會(huì )包含有特征的來(lái)源信息。因此我們希望訓練一個(gè)和判決器對抗的網(wǎng)絡(luò ),在共享的LSTM層中盡可能讓判決器不能區分任務(wù)來(lái)源。這樣就去掉了特征的源信息,保證了共享LSTM學(xué)到的是與源無(wú)關(guān)的共享價(jià)值信息,這些叫做對抗信息。

下面我們將介紹幾種未來(lái)研究的方向:

函數共享模式

之前我們了解的多任務(wù)學(xué)習都是特征共享,在函數共享中我們學(xué)的不再是共享特征而是共享函數,來(lái)生成一些參數或模型,這里我們將feature級的共享遷移到函數級的共享,下圖中第一幅圖圖是特征共享,中間藍色的是共享層,它將學(xué)到的特征送到上下兩個(gè)任務(wù)中,第二幅圖是函數共享,函數共享中共享層的輸出不是直接送到上下兩個(gè)分類(lèi)器中,而是決定了上下兩個(gè)分類(lèi)器的參數。通過(guò)修改分類(lèi)器來(lái)有效利用這些信息。

多級共享模式

2016年Anders Sфgaard等人在論文Deep Multi-task Learning with Low Levels Tasks Supervised at Lower Layers中提出在低級的網(wǎng)絡(luò )層次輸出低級的任務(wù),在高級的網(wǎng)絡(luò )層次輸出高級的任務(wù)。例如在第一層輸出詞性標簽POS tag,在第三層輸出chunk tag,將NLP任務(wù)按照不同的級別來(lái)設計共享模式。

主輔任務(wù)模式

在做任何一個(gè)主要任務(wù)的同時(shí)都可以引入一個(gè)輔助任務(wù)。如下圖,我們對每個(gè)任務(wù)引入一個(gè)輔助的語(yǔ)言模型,每個(gè)任務(wù)都使用左右兩個(gè)語(yǔ)言模型,對所有任務(wù)進(jìn)行這種拓展就形成了主輔任務(wù)模式。

共享模式搜索

共享模式搜索是讓計算機自動(dòng)搜索這些共享模式,具體做法如圖d所示,我們希望設計一種靈活的框架,在共享池中放入很多不同的模塊,每個(gè)任務(wù)在完成過(guò)程中可以從共享池中挑選一些模塊來(lái)組裝自己的guideline。示例中任務(wù)A挑選了4、3、1,任務(wù)B挑選了3、2、1,這就隱含了A從M4出來(lái),而B(niǎo)從M3出來(lái),C從M2出來(lái),這樣一種層次化的共享模式設計。它本身也可以實(shí)現hard和soft的兩種表示方式,因此是一種非常靈活的表示方式。

在面向NLP的神經(jīng)網(wǎng)絡(luò )架構搜索中,從共享池中挑選Ma1,Ma2等模塊來(lái)組成不同的模型,將模型帶入任務(wù)中去訓練,得到正確率作為reward反饋給分類(lèi)器從而選擇更合適的組合方式來(lái)完成任務(wù)。

下面給出的例子就是對不同的任務(wù)挑選的不同的組合方式,其中有些組合方式非常類(lèi)似。

--

04

新的多任務(wù)基準平臺

首先介紹一下機器閱讀理解,機器閱讀理解是在閱讀一篇或多篇文檔后,回答一些相關(guān)問(wèn)題。由機器來(lái)生成答案,答案可能在原文中出現也可能不在原文中出現,目前機器閱讀理解大部分都假設答案在原文中出現,我們用的一個(gè)主要框架是Biderectional Attention,同時(shí)給你context和query,做一個(gè)雙向的注意力交互,最終確定兩個(gè)位置,一個(gè)是答案開(kāi)始的位置,一個(gè)是答案結束的位置,大部分的問(wèn)題都可以通過(guò)這個(gè)框架來(lái)解決,這個(gè)框架具有通用性。幾乎NLP所有任務(wù)都可以轉化成閱讀理解任務(wù)通過(guò)該框架解決和完成。

今年新發(fā)布的一個(gè)NLP通用的多任務(wù)學(xué)習系統叫做十項全能,選取了十個(gè)典型的NLP任務(wù)轉化成閱讀理解的形式,例如左下角的情感分類(lèi)問(wèn)題,將這些任務(wù)轉換到閱讀理解問(wèn)題后采用Biderectional Attention框架去處理。由于這些問(wèn)題的答案不一定出現在背景文檔中,因此需要對Biderectional Attention框架進(jìn)行改進(jìn)。

還有一個(gè)較大的框架是GLUE,也是將很多NLP任務(wù)轉化成一個(gè)統一的形式。下圖中是三個(gè)任務(wù):?jiǎn)蝹€(gè)句子任務(wù)、計算兩個(gè)句子相似度、表示兩個(gè)句子之間的蘊含關(guān)系。這些任務(wù)都可以做成encoder和decoder模式。

--

05

總結

最后,我們對今天介紹的內容做一個(gè)總結。今天主要介紹了自然語(yǔ)言處理簡(jiǎn)介、基于深度學(xué)習的自然語(yǔ)言處理、深度學(xué)習在自然語(yǔ)言處理中的困境、多任務(wù)學(xué)習和新的多任務(wù)基準平臺??偟膩?lái)說(shuō)多任務(wù)學(xué)習的難度會(huì )比遷移訓練低而效果比預訓練要高一些。

另外,在今年12月中旬,我們將發(fā)布一個(gè)模塊化的開(kāi)源自然語(yǔ)言工具fastNLP。

這個(gè)工具包括Spacy高級接口、AllenNLP自定義模塊、AutoML自動(dòng)調參。將訓練好的模型開(kāi)放出來(lái)供大家直接調用。

為實(shí)現模塊化,我們將NLP分為四個(gè)構成組件:

編碼器:將輸入編碼為一些抽象表示,輸入的是單詞序列,輸出是向量序列;交互器:使表示中的信息相互交互,輸入的是向量序列,輸出的也是向量序列;聚合器:聚合信息,輸入向量序列,輸出一個(gè)向量;解碼器:將表示解碼為輸出,輸出一個(gè)標簽或者輸出標簽序列。

這里我們給出了兩個(gè)示例,分別是文本分類(lèi)和序列標注。

可以應用的場(chǎng)景主要包括:

直接調用;模型開(kāi)發(fā);自動(dòng)化學(xué)習。

今天的分享就到這里,謝謝大家。

閱讀更多技術(shù)干貨文章、下載講師PPT,請關(guān)注微信公眾號“DataFunTalk”。

分享嘉賓:邱錫鵬 復旦大學(xué)計算機科學(xué)技術(shù)學(xué)院 副教授,博士生導師

編輯整理:靳韡赟

內容來(lái)源:DataFun AI Talk《自然語(yǔ)言處理中的多任務(wù)學(xué)習》

出品社區:DataFun

作者介紹:

邱錫鵬,復旦大學(xué)計算機科學(xué)技術(shù)學(xué)院 副教授,博士生導師,于復旦大學(xué)獲得理學(xué)學(xué)士和博士學(xué)位。中國中文信息學(xué)會(huì )青年工作委員會(huì )執委、計算語(yǔ)言學(xué)專(zhuān)委會(huì )委員、中國人工智能學(xué)會(huì )青年工作委員會(huì )常務(wù)委員、自然語(yǔ)言理解專(zhuān)委會(huì )委員。主要研究領(lǐng)域包括人工智能、機器學(xué)習、深度學(xué)習、自然語(yǔ)言處理等,并且在上述領(lǐng)域的頂級期刊、會(huì )議(ACL/EMNLP/IJCAI/AAAI等)上發(fā)表過(guò)50余篇論文。自然語(yǔ)言處理開(kāi)源工具FudanNLP作者,2015年入選首屆中國科協(xié)青年人才托舉工程,2017年ACL杰出論文獎。

活動(dòng)推薦:

關(guān)于我們:

DataFun:專(zhuān)注于大數據、人工智能技術(shù)應用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過(guò)100+線(xiàn)下和100+線(xiàn)上沙龍、論壇及峰會(huì ),已邀請超過(guò)2000位專(zhuān)家和學(xué)者參與分享。其公眾號 DataFunTalk 累計生產(chǎn)原創(chuàng )文章700+,百萬(wàn)+閱讀,14萬(wàn)+精準粉絲。

歡迎轉載分享評論,轉載請私信。

以上就是關(guān)于復旦微pos機,自然語(yǔ)言處理中的多任務(wù)學(xué)習的知識,后面我們會(huì )繼續為大家整理關(guān)于復旦微pos機的知識,希望能夠幫助到大家!

轉發(fā)請帶上網(wǎng)址:http://m.xjcwpx.cn/newsone/74359.html

你可能會(huì )喜歡:

版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實(shí),本站將立刻刪除。