搜狗同傳3.0：引入視覺能力+知識圖譜，構(gòu)建語境引擎

本文作者：新智造

2019-12-25 16:12

導(dǎo)語：知識圖譜配同傳，AI一直在路上。

2019年，距李世石與AlphGO的“人機大戰(zhàn)”已有三年，似乎沒有人再懷疑，在“下棋”這件事兒上，人類確實已經(jīng)輸給了AI，人類與AI下一個較量會在哪里？

同傳（同聲傳譯）將很可能是下一個面臨挑戰(zhàn)的應(yīng)用場景。

12月21日，基于語境引擎的搜狗同傳3.0以多模態(tài)和自主學(xué)習(xí)為核心，加入視覺和思維能力，這是AI同傳在加入諸如視覺AI、知識圖譜等能力后的再度進化。

從人到機器：困于行業(yè)知識的AI同傳，破局定制化難題

多模態(tài)同傳，顧名思義，聚合多種交互形式實現(xiàn)同傳的能力。

據(jù)雷鋒網(wǎng)了解，搜狗在多模態(tài)領(lǐng)域的探索和應(yīng)用早已有之，包括此前在AI合成主播上的應(yīng)用，結(jié)合了語音、唇語、表情動作等交互形式，最終形成的AI合成主播參與了2019年全國的兩會報道，甚至還走出國門，與阿布扎比媒體集團達成合作，將推出全球首個阿拉伯語AI合成主播。

此次搜狗在12月發(fā)布的搜狗同傳3.0同樣在基于基本的語音交互能力時，加入了文字和圖像兩類交互能力，進一步將嘉賓ppt內(nèi)演講相關(guān)內(nèi)容，語音識別準(zhǔn)確率提升了21.7%，翻譯準(zhǔn)確率提升了40.3%。

為什么經(jīng)過兩代迭代后，搜狗會在同傳系統(tǒng)中引入圖像識別的能力？

這要從搜狗此前兩代同傳系統(tǒng)，以及此前對數(shù)千場會議的同傳支持的痛苦經(jīng)歷上談起。

2016年，搜狗在「第三屆烏鎮(zhèn)互聯(lián)網(wǎng)大會」上發(fā)布了行業(yè)第一個商用AI同傳產(chǎn)品——搜狗同傳1.0。這是搜狗同傳的第一代產(chǎn)品，同時也是搜狗進入同傳這一領(lǐng)域的第一次商業(yè)嘗試。

“1.0階段我們提供的是通用的同傳能力，在實際應(yīng)用過程中遇到的最大的問題是：每一位講者在演講時的背景信息和語義信息不一樣，可能今天我們需要支持醫(yī)療會議，明天需要支持航空會議，我們很難獲取這類專業(yè)會議的‘語義詞’。”

回看最初的搜狗同傳1.0時，搜狗AI交互技術(shù)部總經(jīng)理陳偉認(rèn)為當(dāng)時實際應(yīng)用中遇到最大的問題是難以獲取各專業(yè)領(lǐng)域的“語義詞”，這也影響了最初這一產(chǎn)品的識別及翻譯的準(zhǔn)確度。

如何獲取這些專業(yè)的“語義詞”，以此來訓(xùn)練專用的模型，改進通用的1.0版本？

這是搜狗同傳研發(fā)團隊當(dāng)時在進行版本迭代時主要考慮的問題，也是最終搜狗同傳2.0試圖去解決的問題。

這也就有了2018年發(fā)布的搜狗同傳2.0的幾點重要能力的升級：通過行業(yè)深度定制和專屬模型訓(xùn)練（例如事先上傳演講稿或給出重點詞匯進行訓(xùn)練），輸出行業(yè)方案。

“在迭代到2.0版本后，我們一般會投很多人針對演講者要講的內(nèi)容做優(yōu)化，但是我們往往很難拿到演講稿，所以只能在網(wǎng)上找與這個人相關(guān)的背景知識，以前講過的內(nèi)容，基于此做模型優(yōu)化?！?/p>

盡管2.0版本考慮到了專業(yè)化內(nèi)容的優(yōu)化，但是在具體應(yīng)用過程中，由于難以會前獲取實際演講者的演講內(nèi)容，并未能用這些專業(yè)內(nèi)容進行定制模型優(yōu)化。

其實在這樣的升級迭代過程中，搜狗同傳的通用能力從2016年的搜狗同傳1.0到2018年搜狗同傳2.0已經(jīng)有了明顯的提升，“但是就通用能力和個性化能力上，在嘉賓演講的PPT內(nèi)容的識別和翻譯效果仍有較大提升空間，這是一定存在的?！?/p>

也因此，搜狗仍在繼續(xù)優(yōu)化個性化能力，也就是搜狗同傳的定制化能力，“我們希望讓機器自己定制一個好的語境?！?/p>

這樣的能力最終在搜狗同傳3.0上得以實現(xiàn)。

搜狗同傳3.0：引入視覺能力+知識圖譜，構(gòu)建語境引擎

搜狗同傳3.0：引入視覺能力、知識圖譜，構(gòu)建語境引擎

據(jù)陳偉介紹，搜狗同傳3.0相對于上一代產(chǎn)品主要有三方面能力的提升：

第一，從感知層面來看，獲取的信息從此前單模態(tài)信息到現(xiàn)在，引入視覺能力，得以獲取多模態(tài)信息；
第二，從認(rèn)知層面來看，通過OCR識別或視覺能力獲取演講者PPT內(nèi)容，在語境引擎的幫助下，提取出這些專業(yè)知識的核心，通過知識圖譜的方式，對內(nèi)容進行進一步擴展，形成整個演講者相關(guān)語境信息，并與演講內(nèi)容進行關(guān)聯(lián)；
第三，我們拿到個性化信息后，進行實時語音識別、機器翻譯，并生成個性化、實時定制引擎。
在整個搜狗同傳3.0系統(tǒng)工作過程中，特別加入視覺能力，并引入了語境引擎，這也成為解決前文提到的專用性、個性化同傳需求的關(guān)鍵。

“語境引擎能夠真正做到對PPT內(nèi)容的理解和推理，”陳偉點出搜狗同傳3.0的核心能力所在。

具體搜狗同傳3.0技術(shù)框圖如下圖所示：

搜狗同傳3.0：引入視覺能力+知識圖譜，構(gòu)建語境引擎

從搜狗同傳3.0技術(shù)框圖中可以看到，語境引擎主要由「PPT文本理解」和「搜狗知識圖譜」兩部分組成。

語境引擎整個工作過程具體可以理解為：

在會議現(xiàn)場，通過OCR（例如播放PPT的筆記本），將演講嘉賓PPT全部內(nèi)容被轉(zhuǎn)換成文字信息，并就此文字信息抽取與作者領(lǐng)域相關(guān)的個性化內(nèi)容和知識；
基于這些知識，結(jié)合搜狗此前基于搜狗百科構(gòu)建的知識圖譜再擴充一些知識，匯同語音識別的內(nèi)容為語料訓(xùn)練模型，形成搜狗同傳3.0的識別翻譯模型。

這其中，搜狗還在同傳系統(tǒng)中加入了識別翻譯協(xié)同模塊，對翻譯模型的輸入文本進行優(yōu)化，這一模塊的作用在兩次迭代中也從最初、最基本的標(biāo)點斷句，逐漸升級為擁有標(biāo)點斷句、文本順滑、語義單元三大能力。

在這個過程中，搜狗的機器翻譯模塊也從1.0系統(tǒng)的RNN模型、2.0系統(tǒng)的Transformer模型，升級為3.0多模態(tài)翻譯系統(tǒng)，3.0系統(tǒng)是在Transformer模型基礎(chǔ)上，將搜狗百科知識圖譜和翻譯歷史融合到翻譯系統(tǒng)中，并實現(xiàn)了流式解碼。

據(jù)搜狗官方公布信息來看，通過構(gòu)建語境引擎升級后的搜狗同傳3.0系統(tǒng)的實測數(shù)據(jù)如下圖所示：

搜狗同傳3.0：引入視覺能力+知識圖譜，構(gòu)建語境引擎

這樣現(xiàn)場識別PPT內(nèi)容，結(jié)合搜狗百度百科知識圖譜，構(gòu)建語境引擎，是否對算力和硬件有特殊要求呢？

陳偉解釋稱，現(xiàn)場做PPT內(nèi)容識別的時候可以直接通過截屏（本機播放PPT）或筆記本電腦上的攝像頭來完成，語音訓(xùn)練用英偉達常規(guī)的P40或V100進行訓(xùn)練，訓(xùn)練推理方面沒有額外增加負(fù)擔(dān)。

AI同傳尚難取代人類同傳，多模態(tài)成趨勢

引入視覺能力、加入知識圖譜后的搜狗同傳3.0，能夠完全取代人類同傳嗎？

據(jù)搜狗官方在發(fā)布會上公布的信息顯示：

在實際測評中，搜狗同傳3.0的評測得分為3.82分，人工同傳的評測得分為4.08分。

搜狗同傳3.0：引入視覺能力+知識圖譜，構(gòu)建語境引擎

顯然，就目前而言，AI同傳還無法完全取代人類同傳。

就此，陳偉也指出，

機器的感知能力越來越強，因為機器在持續(xù)學(xué)習(xí)（每天在搜狗輸入法上的語音識別總次數(shù)在8億次以上）。但是機器與人類最大的差距在翻譯上。就翻譯的“信、達、雅”來看，機器差不多可以實現(xiàn)“信”，在部分場景能夠?qū)崿F(xiàn)“達”，但是人可以做到“雅”。
就翻譯而言，AI同傳面臨著直譯的問題，例如，講一個笑話，能不能get到講者的意思并把它翻譯出來，講到一個諺語是否能夠理解，人與機器最大的差距還是在語言理解能力上。所以搜狗一直在做語言AI，要把我們的重心回歸到語言這件事兒本身上來。

回歸到語言本身時，各類傳感器越來越多，設(shè)備能夠收集到的數(shù)據(jù)及數(shù)據(jù)種類越來越多，亦即越來越多的多模態(tài)數(shù)據(jù)逐漸可以獲得，當(dāng)有了多模態(tài)數(shù)據(jù)后，相關(guān)模型和算法也逐漸開始受到業(yè)界所關(guān)注。

“但是大家一開始還是把多模態(tài)這件事想得太簡單了，多模態(tài)的實現(xiàn)過程不是簡單把模態(tài)融合在一起，從我們這些年在上面的認(rèn)知來看，是一個蠻復(fù)雜的過程?！?/p>

當(dāng)提到搜狗在多模態(tài)語音方面的技術(shù)發(fā)展，陳偉表示：

“我們是第一個在技術(shù)上主張多模態(tài)的公司，此次搜狗同傳3.0也是從語音跨到了多模態(tài)，在這種多模態(tài)下將我們對于知識的理解、對語音的理解放進去，我們的同傳就也開始具備一定的認(rèn)知能力。”

“我們公司的終極目標(biāo)是走向做VPA，即一個軟件形態(tài)的AI助理，可能以硬件為載體，也可能放在搜狗輸入法、搜狗的搜索引擎上。搜狗VPA的形態(tài)，是一個任務(wù)導(dǎo)向，中間會看到以對話為主的形象。同傳這個場景下，我認(rèn)為搜狗同傳就是一種形態(tài)的VPA，是具備了同傳能力的VPA，它可以與人做同傳交互。”雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章