97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

著名的「詞類比」現(xiàn)象可能只是一場(chǎng)高端作弊

本文作者: MrBear 編輯:幸麗娟 2019-08-17 16:10
導(dǎo)語:詞類比又被 Diss了?

雷鋒網(wǎng) AI 科技評(píng)論按:「詞類比」可謂是自然語言處理領(lǐng)域最為人津津樂道的經(jīng)典案例之一。然而,進(jìn)來一系列針對(duì)詞類比現(xiàn)象的理論依據(jù)的討論似乎要將這一明星案例拉下神壇。然而,無論結(jié)果如何,這一場(chǎng)圍繞爆炸新聞和真理的大討論都大大吸引了人們對(duì)于自然語言處理領(lǐng)域的關(guān)注,激發(fā)了大家的研究熱情!

自然語言處理(NLP)是現(xiàn)代機(jī)器學(xué)習(xí)工具的重要應(yīng)用領(lǐng)域之一。它涉及到使用數(shù)字化的工具來分析、解釋、甚至生成人類(自然的)語言。

目前,NLP 領(lǐng)域最著名的算法莫過于「Word2Vec」,幾乎所有該領(lǐng)域的從業(yè)者都知道它(甚至許多對(duì)機(jī)器學(xué)習(xí)感興趣,但不研究 NLP 的人也知道它)。WordVec 有幾種不同的實(shí)現(xiàn)方式,非常易于使用。在許多機(jī)器學(xué)習(xí)/人工智能或 NLP 入門課程中,往往會(huì)將其作為一個(gè)教學(xué)示例。

人們喜歡它的一個(gè)主要原因是:它似乎非常直觀。通常,Word2Vec 的名氣是由一些吸引眼球的、直觀構(gòu)建的例子得來的,這些例子常常被用來展示 Word2Vec 的能力。下面,我們簡(jiǎn)要介紹一下 Word2Vec 的工作原理:

Word2Vec 會(huì)查看大量的文本,然后統(tǒng)計(jì)哪些詞會(huì)經(jīng)常與其它單詞一同出現(xiàn)?;谶@種詞共現(xiàn)統(tǒng)計(jì),Word2Vec 會(huì)為每個(gè)單詞生成抽象表征,也就是所謂的詞嵌入。詞嵌入是一些低維向量(可以想象成一個(gè)包含 200 或 300 個(gè)數(shù)字的列表)。有了這些詞向量,你就可以用單詞做一些「神奇」的數(shù)學(xué)運(yùn)算了!當(dāng)我們擁有「國王」、「男人」、「女人」的詞向量時(shí),我們可以計(jì)算「國王-男人+女人」,最終會(huì)得到「女王」的向量!

著名的「詞類比」現(xiàn)象可能只是一場(chǎng)高端作弊

我強(qiáng)烈推薦大家研究一下詞向量!詞向量非常有趣,你可以找到許多預(yù)訓(xùn)練好的網(wǎng)絡(luò),這樣一來你就可以迅速上手了。不妨試試這里的詞向量運(yùn)算器:http://vectors.nlpl.eu/explore/embeddings/en/calculator/。如果你想自己在各種各樣的書籍?dāng)?shù)據(jù)上進(jìn)行訓(xùn)練,我強(qiáng)烈推薦 Dave Arnold 編撰的「Liquid Intelligence」。

太神奇了!國王-男人+女人=女王!

這就是見證奇跡的時(shí)刻。因此,我們可以認(rèn)為算法學(xué)到了這些單詞的「意義」。它似乎能夠在某種程度上「理解」這些單詞。至少,看起來是這樣...

但問題是,簡(jiǎn)單地用這個(gè)著名的例子來解釋 Word2Vec 在我看來是一個(gè)巨大的錯(cuò)誤。對(duì)我來說(我相信其他許多人也是如此),這種說法非常容易讓人誤解。

著名的「詞類比」現(xiàn)象可能只是一場(chǎng)高端作弊

需要澄清的是:算法本身并沒有任何問題!算法的概念非常有趣,在大多數(shù)情況下都非常有效。如果處理得當(dāng),它可以很好地表征單詞的相似性或意義。但是「國王-男人+女人=女王」的例子遠(yuǎn)遠(yuǎn)夸大了算法的實(shí)際能力。

以下是我認(rèn)為應(yīng)該停止使用這個(gè)經(jīng)典的例子來介紹 Word2Vec 的原因:

1.  事實(shí)證明,為了讓這個(gè)例子成立,你必須采取一些「作弊」手段。實(shí)際上我們更容易得到「國王-男人+女人=國王」。因此,最終得到的向量更接近于「國王」而不是「女王」。這個(gè)廣為人知的例子之所以成立,是因?yàn)樗惴▽⒃嫉南蛄浚▏酰┡懦诹丝赡艿慕Y(jié)果之外!這意味著「國王-男人+女人」的結(jié)果與「國王」的詞向量更接近。排在第二位的才是「女王」,而這也就是計(jì)算機(jī)程序最終選擇的輸出。這太讓人失望了,不是嗎?

著名的「詞類比」現(xiàn)象可能只是一場(chǎng)高端作弊

在我看到的許多課程和教程中,都沒有提及這個(gè)問題。因此,我認(rèn)為這一點(diǎn)仍然沒有廣為人知。實(shí)際上,我是在一門更「良心」的自然語言處理在線課程中,最終才了解到了這個(gè)令人失望的「技巧」。(俄羅斯國立高等經(jīng)濟(jì)大學(xué)的在線 Coursera 自然語言處理課程,值得一看:https://www.coursera.org/lecture/language-processing/word-analogies-without-magic-king-man-woman-queen-lpSIA)

最近,格羅寧根大學(xué)的三名研究人員針對(duì) Word2Vec 測(cè)試了一些著名出版物上提及的例子。雖然有些例子確實(shí)可以達(dá)到預(yù)期的效果,但令人沮喪的是,大量給定的例子只有在使用「不允許查詢單詞本身」的「小技巧」時(shí)才能成立(詳情請(qǐng)參閱 Nissim 等人于 2019 年發(fā)表的論文「Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor」:https://arxiv.org/abs/1905.09866) 

著名的「詞類比」現(xiàn)象可能只是一場(chǎng)高端作弊

圖表選自 Nissim 等人于 2019 發(fā)表的論文「Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor」。作者使用 Word2Vec 測(cè)試了一系列關(guān)鍵文章中的類比示例。他們執(zhí)行了一系列類似于「C 之于 B,相當(dāng)于 A 之于 X」這樣的查詢。「索引」(Index)指的是報(bào)告的答案(“Reported”)實(shí)際上被找到的位置(通常不是“1”)。此外,右邊兩列也展示出了算法給出的排序第一、第二的答案。

2. 很不幸的是,事實(shí)往往更加糟糕。Finley 等人于 2017 年對(duì)「男性=女性/國王-女王/男人-女人」之外的詞類比進(jìn)行了更加差地的分析。他們對(duì)大量的句法和語義類比進(jìn)行了評(píng)估,發(fā)現(xiàn)基于詞嵌入(即詞向量)的計(jì)算對(duì)于某些類型的類比效果良好,但是在有的類比任務(wù)中的表現(xiàn)又要差一些。在「詞匯語義」這一種類比任務(wù)中,這些算法似乎表現(xiàn)得特別糟糕...但只有一個(gè)非常明顯的例外:「男性-女性」的類比!因此,從某種程度上說,這些通常在講座或教程中給出的例子代表的是一種例外情況,而不是常規(guī)的規(guī)則(詳情請(qǐng)參閱 Finley 等人于 2017 年發(fā)表的論文「What Analogies Reveal about Word Vectors and their Compositionality」:https://www.aclweb.org/anthology/S17-1001)

3. 讓我們跳出這個(gè)著名的例子,來比較不同產(chǎn)生詞嵌入的方法,人們通常會(huì)比較方法在大量的不同的文本語料庫上的準(zhǔn)確率。即使在這種情況下,事情也比人們通常所認(rèn)為的復(fù)雜的多。一些有趣的研究(例如 Levy 等人在 2016 年發(fā)表的工作)清晰地表明,在比較不同的算法時(shí),我們需要十分小心謹(jǐn)慎(包括 Word2Vec)。

通常情況下,「新」方法會(huì)針對(duì)測(cè)試數(shù)據(jù)集進(jìn)行優(yōu)化,從而獲得良好的性能。然后,這些方法會(huì)拿來與「舊」方法進(jìn)行對(duì)比,這很好。但問題是,這些舊方法針對(duì)各自的數(shù)據(jù)集進(jìn)行的優(yōu)化相對(duì)于新方法要少得多。即使處理得當(dāng),實(shí)驗(yàn)的結(jié)果往往不那么令人信服,而且許多情況都說明,舊方法(處理得當(dāng))和新方法的性能幾乎沒有什么差別(詳情請(qǐng)參閱 Levy 等人于 2014 年、2016 年發(fā)表的論文

至此,我學(xué)到了兩件事:

  • 在使用一個(gè)或幾個(gè)特定的數(shù)據(jù)集上的對(duì)比基準(zhǔn)測(cè)試對(duì)方法進(jìn)行比較時(shí),需要特別小心。這條原則遠(yuǎn)遠(yuǎn)不止局限于討論「Word2Vec」的例子!

  • 不要再簡(jiǎn)單地認(rèn)為「國王-男人+女人=女王」的例子就可以解釋「Word2Vec」。人們對(duì)它產(chǎn)生了不切實(shí)際的過高的期望。而且...如果不能作弊的話,這個(gè)例子甚至都不成立!

PS:在本文中,我主要寫的是 Word2Vec(或與其非常相關(guān)的算法)。但是,考慮到上面列舉出的問題的嚴(yán)重性,我也希望人們能找出其它流行的詞嵌入算法中的類似的問題。這似乎真的值得一試!

參考文獻(xiàn):

1.俄羅斯國立高等經(jīng)濟(jì)學(xué)院的 NLP 在線課程可以在 Coursera 上看到。這是我看到的比較優(yōu)質(zhì)的 NLP 課程,它清晰地分析了 Word2Vec。

2.如果你對(duì)動(dòng)手研究詞嵌入感興趣,那么網(wǎng)上有很多預(yù)訓(xùn)練好的、可以直接使用的資源。不妨試著動(dòng)手實(shí)現(xiàn)一下下面該出的語義運(yùn)算器:http://vectors.nlpl.eu/explore/embeddings/en/calculator/。你可以選用在谷歌新聞,英文維基百科等語料庫上訓(xùn)練的模型。這個(gè)小工具很有趣,看看它能做些什么、不能做些什么也很有意義。

3.Nissim, van Noord, van der Goot (2019): Fair is Better than Sensational: Man is to Doctor as Woman is to Doctor(https://arxiv.org/abs/1905.09866

4.Levy, Goldberg, Dagan (2016): Improving Distributional Similarity with Lessons Learned from Word Embeddings.(https://www.aclweb.org/anthology/Q15-1016

5.Levy and Goldberg (2014): Neural Word Embedding as Implicit Matrix Factorization.(https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf

6.Finley, Farmer, Pakhomov (2017): What Analogies Reveal about Word Vectors and their Compositionality.(https://www.aclweb.org/anthology/S17-1001

via  https://blog.esciencecenter.nl/king-man-woman-king-9a7fd2935a85. 雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

著名的「詞類比」現(xiàn)象可能只是一場(chǎng)高端作弊

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
长泰县| 奉节县| 陆丰市| 德庆县| 定远县| 珠海市| 古丈县| 且末县| 芮城县| 双江| 理塘县| 石城县| 从江县| 柳州市| 明光市| 龙岩市| 通江县| 卓资县| 宁南县| 阜城县| 秦皇岛市| 常德市| 彭山县| 达尔| 安化县| 吉木乃县| 资源县| 常熟市| 耿马| 桓台县| 朔州市| 桐柏县| 乐都县| 永和县| 焉耆| 简阳市| 象山县| 肃北| 竹溪县| 宜州市| 巍山|