引用率過萬的論文出錯？從「詞類比」說起

本文作者： camel

2019-07-23 13:15

導(dǎo)語：負(fù)面結(jié)果的論文，應(yīng)當(dāng)被重視，也應(yīng)當(dāng)被強調(diào)！

雷鋒網(wǎng)按：2013年，Tomas Mikolov發(fā)表的《Efficient estimation of word representations in vector space》，目前引用率已經(jīng)超過11K。除了其詞向量的貢獻外，一個讓人印象深刻的貢獻便是指出NLP中「詞類比」的現(xiàn)象，最經(jīng)典的例子莫過于「國王-男人+女人=皇后」。

引用率過萬的論文出錯？從「詞類比」說起

Mikolov在另外一篇引用率極高的文章《Linguistic regularities in continuous space word representations》中也著重強調(diào)了在連續(xù)空間詞表示的語言規(guī)律。

此后，關(guān)于詞類比的研究此起彼伏，有諸多相關(guān)論文發(fā)表，雷鋒網(wǎng)AI科技評論在一周前也曾發(fā)表過一篇ACL 2019論文解讀，介紹詞類比的理論解釋：「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019。

但是，在NLP中太過美好的事情往往都存在潛在的風(fēng)險。

馬薩諸塞大學(xué)（洛厄爾分校）文本機器實驗室的 Anna Rogers 近日發(fā)表一篇博客，指出了詞類比存在的問題以及由此引發(fā)的「如何讓錯誤結(jié)論停止傳播」的問題，值得我們思考。

1、詞類比存在的問題

據(jù)我所知，首次對矢量偏移（vector offset）提出質(zhì)疑的是K?per等人發(fā)現(xiàn)它在詞典關(guān)系（ lexicographic relations ）中并不適用[1]，后來Karpinska等人證實了這個結(jié)論[2]。

之后，Gladkova等人的工作發(fā)現(xiàn)，BATS數(shù)據(jù)集提供的包含40類關(guān)系的更大平衡樣本中，矢量偏移僅適用于恰好包含原始Google 數(shù)據(jù)集中的那部分[3]。如下圖所示，40類關(guān)系中僅「形態(tài)較差語言中的屈折形態(tài)」和「國家 : 首都」這類詞才能取得較高的準(zhǔn)確率。

引用率過萬的論文出錯？從「詞類比」說起

如果語言關(guān)系能夠如Mikolov等人文章中所說的那樣整齊和規(guī)律，那么為什么這個規(guī)律（詞類比）不能概括所有詞呢？

一些研究工作證明，如果 3 個源詞（source words）沒有從待選答案集中排除的話，詞類比就不會起作用。例如在 king-man+woman=queen的這個結(jié)論中，king、man和woman的向量是被排除在可能的答案集之外的。Tal Linzen的工作[4]表明，不用詞類比，你只需要簡單地獲取woman最近鄰的詞，或者同時與woman和king（沒有man）最相似的詞，便可以獲得相當(dāng)高的準(zhǔn)確率。在Rogers等人[5]的工作中指出，如果你不排除 3 個源詞的話會發(fā)生什么：

引用率過萬的論文出錯？從「詞類比」說起

其中a、a’、b是源向量，b’是目標(biāo)向量?？梢钥闯觯诖蠖鄶?shù)情況下詞類比的最好結(jié)果竟然是 b（也即 woman）。

如果在大多數(shù)情況下預(yù)測向量都是最接近woman向量，這就意味著矢量偏移太小，偏移本身并沒有產(chǎn)生實質(zhì)性意義，你的結(jié)果仍然停留在源向量附近。

Rogers等人的研究還指出，如果源向量a（“man”），a’（king）和b（“woman”）被排除在外，那么你成功的可能性取決于正確答案與源詞的接近程度，從下圖可以看出：

引用率過萬的論文出錯？從「詞類比」說起

你可以能會反對說：出現(xiàn)以上問題的原因是不良的詞嵌入，理想的嵌入能夠編碼所有可能的關(guān)系以便能夠通過矢量偏移來得到目標(biāo)向量。

這種反對目前來看，只能期望通過未來的實驗來驗證了。

但從理論角度來看，即使理想的嵌入也不可能得出通用的詞類比關(guān)系，原因如下：

（1）從語義角度，操縱向量差的想法讓人想起上世紀(jì)50年代的成分分析方法，針對成分分析已經(jīng)有充足的理由來說明為什么不值得繼續(xù)發(fā)展，例如“man”+“unmarried”作為“bachelor”（單身漢）的定義是否適用于“Pope”（教皇）？

（2）從分布角度，即使看似完美的類比（如，cat:cats與table:tables）也并不完美。例如 turn the tables （翻桌子）與turn the table（轉(zhuǎn)過桌子）并不相似，它們出現(xiàn)在不同的上下文中，而這種差異在cat:cats中卻不存在。鑒于這樣的差異成千上萬，我們怎么能夠期望總體能夠表現(xiàn)出完美的類比規(guī)則呢？如果真的這樣做了，它們能夠很好地代表語言語義嗎？如果我們想獲得良好的語言生成，我們就需要考慮到這種細(xì)微的差異，而不是粗暴地忽略它們。

總結(jié)來說，以上幾篇論文對懷疑矢量偏移效果提供了充分的理由。矢量偏移似乎更適用于小的原始數(shù)據(jù)集，前提是預(yù)測目標(biāo)要事先排除掉源向量；其成功的部分原因可歸結(jié)為基本余弦相似性，但它無法概括為更廣泛的語言關(guān)系。

2、欠缺的影響力

我寫這篇文章的重點，想說的并不僅僅是上面提到的關(guān)于矢量偏移的負(fù)面證據(jù)，而是這些負(fù)面結(jié)果以及相關(guān)的報告從來沒有被受Mikolov論文影響的那成千上萬的研究者所廣泛了解。

這種現(xiàn)象也很容易理解。對于一個廣泛傳播的謠言，即使后期有諸多辟謠，也無法覆蓋所有被影響的人。因此，辟謠是重要的，對辟謠的廣泛支持和傳播更為重要。

在科學(xué)領(lǐng)域，如果對一篇被廣泛引用但有瑕疵的論文的結(jié)論進行更新，那么快速傳播這種更新的結(jié)論符合每個研究人員的利益，這可以節(jié)省更多研究人員浪費在原始未經(jīng)測試的假設(shè)上的努力。

然而不幸的是，以上提到的那些研究成果，僅有一篇發(fā)表在頂會上（Schluter, NAACL 2018），這或許并非巧合。作為對比，現(xiàn)在已經(jīng)有兩篇ACL論文、一篇COLING論文和ICML的一篇最佳論文為矢量偏移能起作用提供數(shù)學(xué)證明[6][7][8][9]。注意，Schluter的論文也是采用了數(shù)學(xué)的觀點，卻得出了完全相反的結(jié)論。

當(dāng)然我對矢量偏移持完全開放的態(tài)度，它有可能是對的，但也可能是錯的。如果前者，那么說明我們擁有了一個直觀、方便且可靠的方法來進行類比推理。但必須要強調(diào)的是，目前那些證明矢量偏移有效的論文并沒有解決它的負(fù)面證據(jù)。

考慮假如上面的那些負(fù)面證據(jù)是正確的，那對該領(lǐng)域該有多大的影響？這意味著我們大多數(shù)人正在追求一個簡單卻不真實的語言關(guān)系模型，許多從業(yè)者在實際工作中也在使用這種方法。

總結(jié)：類比推理是人類推理中一個非常重要的方面，如果我們要達(dá)到通用人工智能，我們必須做到正確。截止目前為止，從我所看到的，詞嵌入的線性矢量偏移并不是正確的思考方式。但除了它，還有許多其他的方向，包括一些更好的推理方法[][]，或許我們也該嘗試一下其他更有希望的方向。

3、如何讓「謠言止于智者」

矢量偏移的問題并不是個別現(xiàn)象。它是一類模式的代表：（1）有一個閃亮的結(jié)果，直觀、有吸引力，然后又因為過于出名而少有質(zhì)疑；（2）負(fù)面的結(jié)果可見度低，并不為大多數(shù)人所注意。

在NLP領(lǐng)域，后者因為近年來Arxiv論文暴漲而加劇。當(dāng)你連自己想要閱讀的論文列表都讀不完時，哪還有心思去關(guān)注哪些小眾的引用率低的論文？最自然的選擇就是，重點關(guān)注引用率最高的哪些。

事實上，很難讓負(fù)面結(jié)果變得如那些明星論文一樣性感，正如辟謠從來沒有謠言傳播力大一樣。

但我認(rèn)為，可以通過某種機制來改善這種情況。為什么我們不在ACL這樣會議上設(shè)立負(fù)面結(jié)果的獎勵呢，這可以鼓勵人們對那些被廣泛接受的假設(shè)進行事實核查？這將：

提高對流行問題的認(rèn)識，使人們不會在不牢靠的假設(shè)基礎(chǔ)上進行進一步工作;
確定明年需要更多人手的高產(chǎn)研究方向，從而刺激NLP的整體進展;
通過鼓勵研究和報告負(fù)面結(jié)果來減少錯誤重復(fù)的問題。

例如NAACL 2019上就有幾篇有意思的論文就可以獲得此種類型的獎：

exposing the lack of transfer between QA datasets (Yatskar, 2019)
limitations of attention as “explaining” mechanism (Jain & Wallace, 2019)
multimodal QA systems that work better by simply ignoring some of the input modalities (Thomason, Gordon, & Bisk, 2019)

這三篇論文中有兩篇都只是poster paper。我無法想象有多少類似的工作甚至都沒有通過評審。我覺得這對做類似重要工作的人發(fā)出了一個錯誤的信號，告訴他們明年不要做這種類型的工作了。很悲哀！

想象一下，假如有這樣一個獎，并且被授予給Yatskar。那么參加這個會議的每個人（甚至更多人）都會知道三個流行的問答數(shù)據(jù)集之間缺乏遷移。QA是最流行的任務(wù)之一，所有如果能夠讓整個社區(qū)知道這個問題，來年就會有更多的人去解決QA中的這個問題，而不是單純地集中在某一個數(shù)據(jù)集上進行研究。

負(fù)面結(jié)果的論文，應(yīng)當(dāng)被重視，也應(yīng)當(dāng)被強調(diào)！

雷鋒網(wǎng)報道！

參考資料：

[1] K?per, M., Scheible, C., & im Walde, S. S. (2015). Multilingual Reliability and "Semantic" Structure of Continuous Word Spaces. Proceedings of the 11th International Conference on Computational Semantics, 40–45. Association for Computational Linguistics.

[2] Karpinska, M., Li, B., Rogers, A., & Drozd, A. (2018). Subcharacter Information in Japanese Embeddings: When Is It Worth It? Proceedings of the Workshop on the Relevance of Linguistic Structure in Neural Architectures for NLP, 28–37. Melbourne, Australia: Association for Computational Linguistics.

[3] Gladkova, A., Drozd, A., & Matsuoka, S. (2016). Analogy-Based Detection of Morphological and Semantic Relations with Word Embeddings: What Works and What Doesn’t. Proceedings of the NAACL-HLT SRW, 47–54. https://doi.org/10.18653/v1/N16-2002

[4] Linzen, T. (2016). Issues in Evaluating Semantic Spaces Using Word Analogies. Proceedings of the First Workshop on Evaluating Vector Space Representations for NLP. https://doi.org/http://dx.doi.org/10.18653/v1/W16-2503

[5]Rogers, A., Drozd, A., & Li, B. (2017). The (Too Many) Problems of Analogical Reasoning with Word Vectors. Proceedings of the 6th Joint Conference on Lexical and Computational Semantics (* SEM 2017), 135–148.

[6] Gittens, A., Achlioptas, D., & Mahoney, M. W. (2017). Skip-Gram - Zipf + Uniform = Vector Additivity. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 69–76. https://doi.org/10.18653/v1/P17-1007

[7] Hakami, H., Hayashi, K., & Bollegala, D. (2018). Why Does PairDiff Work? - A Mathematical Analysis of Bilinear Relational Compositional Operators for Analogy Detection. Proceedings of the 27th International Conference on Computational Linguistics, 2493–2504.

[8] Ethayarajh, K., Duvenaud, D., & Hirst, G. (2019). Towards Understanding Linear Word Analogies. To Appear in ACL 2019.

[9] Allen, C., & Hospedales, T. (2019). Analogies Explained: Towards Understanding Word Embeddings. ArXiv:1901.09813 [Cs, Stat].

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

camel

編輯

持身秉正

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

引用率過萬的論文出錯？從「詞類比」說起

1、詞類比存在的問題

2、欠缺的影響力

3、如何讓「謠言止于智者」

引用率過萬的論文出錯？從「詞類比」說起

1、詞類比存在的問題

3、如何讓「謠言止于智者」