Embedding7如何通過通用文本進行表達

發布時間：2021-12-27 15:19:03 來源：億速云閱讀：128 作者：柒染欄目：大數據

這篇文章給大家介紹Embedding7如何通過通用文本進行表達，內容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

下面我們來聊聊都有哪些SOTA通用文本框架，或許直接使用它們的場景已經不多，但你依舊能在各個前沿方法中看到它們的影子。

通用性

人類語言有有近乎無限的統計復雜度，但可以在低維度上得到很好的近似。對通用文本表達的探索，都是希望能找到更優的語言模型框架，去盡可能全面地從文本中提取信息。

NLP任務往往很難拿到大量標注樣本，通用文本表達通過特征遷移把預訓練模型得到的文本向量，作為下游任務的模型輸入，幫助模型跳過從文本中提取信息的步驟，信息已經在文本向量中，模型只需要從向量中抽取用于當前任務的信息即可，這樣可以大大降低對標注數據的需求，使很多缺乏樣本的不可能任務成為可能。

以下paper多選擇了特征遷移的方式，即把預訓練模型得到的文本表達作為下游任務的輸入來評價通用性。下游任務主要包括分類任務和文本語義相似度任務，其中分類任務有

MR 判斷影評的正/負面
CR: 產品客戶評論，評價正/負面
MRPC 判斷兩個句子是否同義
SUBJ 判斷句子是主觀/客觀
MPQA 意見立場分類問題
TREC 問題的所屬分類

評價文本向量在分類問題中的表現，一般會采用最簡單的logistic classifier，輸入是文本向量，輸出是分類結果，這樣最小化模型結構帶來的影響，只去評價文本向量本身是否包含該分類問題所需的信息。

文本語義相似度任務(STS Benchmark)包括

SICK 文本對標注了相關和包含
STS 文本對標注了0-5的相似度打分

評價文本相似度，一般直接計算文本向量的cosine距離，然后計算和標注label的pearson correlation。

針對以上任務也有一些文本評估的開源library可以直接用，例如SentEval，GLUE Benchmark

模型框架

下面我們會分別介紹4種模型架構，以及它們在以上benchmark數據集上的表現。不過個人感覺不用太過在意每個新架構在Benchmark上的表現提升，之前看到有調侃刷榜現象的評論說：新模型一定使用grid-search進行超參搜索直到它超越已有的SOTA方法，但絕不會對進行對比的其他方法也做調優，感覺雖不中亦不遠矣。所以我們只關注架構中有意思的創新點和它背后的邏輯就好～

FastSent|SDAE(Hill 2016)

Take Away：不同的下游信息提取方式會從相同的文本中提取出不同信息, log-bilinear類文本表達在文本相似度任務中表現更好

先簡單過下paper中提到的另外兩種文本向量的生成方式：

FastSent: 快速版Skip-thought,其實就是忽略語序用詞向量加和作為句子向量，任務不變依舊是用中間句子來預測前后句子
SDAE: skip-thought訓練依賴像小說一類的連續文本，SADE是針對像twitter一樣沒有上下文只有單一句子的訓練方案。先對句子本身進行隨機刪除單詞，替換順序，之后過autoencoder來預測原始句子本身。其實和Bert的MLM完形填空任務有些相似了，只不過Bert是只預測Mask的單詞，而SDAE是預測整個句子。

這里我們關注的重點不在這兩種算法，而在于paper對比了skip-thought, Fastsent，SDAE, DBOW, BOW，DictRep用字典解釋的BOW或者RNN來擬合解釋的詞向量，CaptionRep用標題向量擬合圖片向量，以及NMT翻譯任務，得到不同文本表達在下游任務中的表現，有一些比較有意思的結論。

文本分類的下游任務沒啥說的，skip-thought整體表現最優（2016年）～

Embedding7如何通過通用文本進行表達

而文本相似度任務結果比較有趣，整體上log-bilinear類的模型包括Fastsent，DickRep, 以及直接對CBOW詞向量求平均得到的文本向量表達在STS和SICK數據集上有更好的表現。

Embedding7如何通過通用文本進行表達

這里并非其他向量沒有學到Semantic Similarity信息，而是信息并不能簡單通過cosine距離被提取出來。因此不僅如何生成通用文本很重要，如何從文本中提取信息也很重要。log-bilinear類的模型例如CBOW，在梯度更新時本就通過向量加/減進行計算，隱含了距離計算在內，因此更適用于cosine距離計算。想得到Semantically meaningful的文本表達，另一種解決思路就是在訓練embedding的過程中加入向量距離計算，下面的Infersent就用了類似的操作。

InferSent（Facebook 2017)

Take Away: 并非所有監督模型得到的通用表達都不好，NLI標注數據就可以！

在InfeSent之前，通用文本表達以Skip-thought/FastSent這類無監督模型為主，不是沒有其他監督模型的文本表達，但效果都不太好。文章指出監督模型文本表達通用性差的原因在于NN很容易學到特定監督任務的特殊性（Inductive Bias)，例如判斷正負面的任務可能主要關注和正負面有關的關鍵詞信息，翻譯更注重相同語法結構和詞之間的對應關系等等，從而忽視文本的整體語義。非監督任務例如自己預測自己的SDAE，預測前/后句子的NSP類任務因為沒啥特殊性，反而會得到包含更完整語義信息的文本表達。但paper指出并非所有監督任務都不好，NLI就可以呀！

先來瞅一眼NLI數據集長啥樣, SNLI是文字蘊含的推理任務(RTE)，由5個標注同學標注文本和假設之間是正向蘊含，矛盾蘊含還是獨立蘊含，最終major vote得到neutral, contradiction,entailment的分類標簽。作者認為NLI需要真正理解文本才能做出判斷，導致NLI更適合用來學習通用文本表達。。。這解釋的好抽象。。。簡直就像沒解釋一樣。。。。不過從某種程度講NLI相較文本相似任務，翻譯任務確實更難抽象出task-specific的模式，它對語法結構是否相同，是否包含相同或同義詞沒有非常一致的要求。

Embedding7如何通過通用文本進行表達

InferSent模型用了siamese結構，兩個句子共用一個encoder，分別得到u和v的文本向量表達。然后用3種計算方式，向量拼接\([u,v]\)，相乘\(u \cdot v\)，相減\(|u-v|\)(為了保證對稱性取絕對值），來幫助后面的全連接層提取向量間的交互信息，最后跟一個3-class的分類器。

Embedding7如何通過通用文本進行表達

對于Encoder選擇作者對比了GRU/LSTM/BiLSTM+max/avg pooling，以及self-attention和Hierarchical ConvNet，發現BiLSTM+max pooling得到的文本向量，在下游任務的評估中幾乎全面超越了skip-thought，在CR等部分任務中和直接針對任務訓練的監督模型幾乎不相上下。

Embedding7如何通過通用文本進行表達

之后的Sentence-Bert也借鑒了InferSent的框架，只不過把encoder部分替換成了bert，這個留到Bert之后再說

GenSen（Microsoft 2018）

Take Away: 單一任務的文本表達存在inductive-bias,可以通過multi-task來融合

InferSent通過尋找相對抽象需要文本理解的監督任務來得到更通用的文本表達，而GenSen提出可以直接融合多個監督任務來提高通用性。GenSen總共選取了4大類任務，在滿足多樣性的前提下，每個任務本身要在文本表達上有不錯的效果且有足夠大的訓練樣本，包括Skip-thought，NMT翻譯任務，NLI推理任務和parsing句法分析。

GenSen用了相對簡單的針對不同數據源的multi-task訓練方式，上述任務都是英文輸入所以共用1個GRU Encoder，保證不同任務都在更新相同的信息提取方式，得到包含多個任務信息的文本表達。這里的Encoder沿用了Skip-though的conditional GRU，不熟悉的童鞋可以看這里無所不能的Embedding4 - skip-thought & tf-Seq2Seq源碼解析。每個任務各自有不同的Decoder，每一輪等權隨機選擇一個任務，從該任務中取相同batch_size的樣本進行梯度更新。以下是GenSen在下游任務的表現

Embedding7如何通過通用文本進行表達

最右側的\(\Delta\)是相對InferSent的提升，會發現隨著GenSen加入更多目標任務，相對Infsersent在10個任務上的平均表現會持續上升，雖然并非所有下游任務都是隨訓練目標增多而變得更好。之后很多預訓練語言模型包括Bert都沿用了multi-task的思路，只不過選用的多目標任務各有不同而已。

USE （Google 2018）

Take Away: 同樣通過multi-task生成通用文本向量

和GenSen同期，還有另一個multi-task的模型架構被提出就是universal-sentence-encoder。感覺USE名聲更大些，大概是因為在hub上開源了Large,Lite和MultiLingual的模型[Ref9]，可以很方便的開箱即用，或者在新的場景做finetune。和GenSen的主要區別有兩個

多目標任務選擇不同，USE雖然依舊是通用文本，但它選擇的目標任務訓練方式導致文本表達更加Semantically Meaningful，通常預訓練模型就能在各類文本相似度任務中拿到非常好的結果。3個目標任務分別是Skip-thought類前后句子預測任務，Input-response對話任務，以及NLI推理任務。因此Semantic Similar的文本可能會有相似的上下文語境，相似的提問或回答，相似的推理內容，如下圖所示

Embedding7如何通過通用文本進行表達

Encoder選擇不同，GenSen沿用了GRU Encoder，而USE給出了DAN和transformer兩種計算復雜度不同的encoder。DAN是Lite版的Encoder不考慮詞序只是詞向量求和作為輸入，Transfromer是Large版的Encoder復雜度更高，通常效果也更好。不熟悉transformer的同學看這里無所不能的Embedding6 - 跨入Transformer時代～模型詳解&代碼實現

通用文本框架就說這么多，最后的最后來給兩大神器打個廣告

Connected Paper 找paper神器，圖結構讓你不費吹灰之力就能扒出前后五百年
Paper with code 新增Dataset功能一鍵定位Benchmark數據集，媽媽再也不用擔心我找不到數據啦

關于Embedding7如何通過通用文本進行表達就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Embedding7如何通過通用文本進行表達

通用性