讓機器學會“讀心術”，情感計算如何解決實際場景需求？ | 雷鋒網(wǎng)公開課

本文作者：程弢

2017-05-04 18:44

導語：完成情感判斷需要哪些模塊？以及具體實現(xiàn)原理是怎樣的？

你做一個表情，或者說一句話，機器就可以準確地識別你的情緒。

沒錯，當你在渴望get“讀心術”技能的時候，機器已經(jīng)能完美的實現(xiàn)了。目前，國內(nèi)的翼開科技、以色列公司Beyond Verbal以及美國的Affectiva和Emotient都在做這情感計算解決方案。其應用場景也非常廣泛：飛行員情緒監(jiān)控、呼叫中心情緒考核、學生情緒監(jiān)測甚至是智能硬件都可以使用這類算法，而且精度可以達到90%以上。

簡單來說，機器是根據(jù)人的心率、呼吸、語音甚至是面部表情等特征，再通過特定的模型算法就能解讀出人的情緒狀態(tài)，從技術角度看，數(shù)據(jù)挖掘、機器學習等都是情感計算的基礎。

那么完成情感判斷需要哪些模塊？以及具體實現(xiàn)原理是怎樣的呢？本期硬創(chuàng)公開課，雷鋒網(wǎng)邀請到了翼開科技創(chuàng)始人魏清晨為大家分享情感計算的技術問題以及應用場景。

嘉賓介紹

讓機器學會“讀心術”，情感計算如何解決實際場景需求？ | 雷鋒網(wǎng)公開課

魏清晨，翼開科技EmoKit創(chuàng)始人，目前全面負責EmoKit公司的戰(zhàn)略規(guī)劃、運營管理、團隊建設，團隊里兩名核心科學家均為海歸博士后。

EmoKit，即海妖情感計算引擎，包括情緒的識別、優(yōu)化、表達，是人工智能的核心基礎設施之一。自2015年創(chuàng)立半年獲得600萬投資，如今已經(jīng)超2000萬用戶，今年獲得近2000萬元訂單。Emokit先后獲得美國麻省理工學院舉辦的“MIT-CHIEF全球創(chuàng)業(yè)大賽”中國區(qū)第一名，芬蘭“Slush World 2014全球創(chuàng)業(yè)大賽”名列第一，工信部和全國科協(xié)2015全國移動互聯(lián)網(wǎng)創(chuàng)業(yè)大賽“特等獎”，清華大學H+Lab“幸福科技全球挑戰(zhàn)賽”冠軍。

以下內(nèi)容整理自本期公開課，雷鋒網(wǎng)做了不改變愿意的編輯：

情感計算的模塊和價值

就我們現(xiàn)在在做的事情來看，我們把情感計算分成3個模塊：第一部分是情緒識別，通過語音、心率、表情和寫字過程中壓感和速率的變化來判斷用戶的情緒。

情緒識別

讓機器學會“讀心術”，情感計算如何解決實際場景需求？ | 雷鋒網(wǎng)公開課

情緒的類型一共有24種，積極和消極各12種。在情感計算的發(fā)展過程中，算法也經(jīng)歷了六次升級。第一代我們通過量表測評，第二代加入了心率和呼吸，第三代針對個體增加了縱向的學習和訓練，第四代我們對情緒做了一個細化（從原來的5中情緒增加到了24種），第五代加入了表情和筆記的情緒識別，第六代主要做兩塊工作：一個是判斷了用戶的情緒之后，基于單一的事件背景進一步識別用戶的意圖；第二個工作就是把語音、表情和視覺的行為、文本做一個多模態(tài)的擬合。

情緒優(yōu)化模塊

情緒識別只是第一步，未來需要解決的問題是調(diào)整用戶的情緒。從上圖可以看出，通過語音、心率表情和筆記這些信息判斷用戶的情緒之后，還可以通過推薦內(nèi)容來緩解用戶的情緒。

讓機器學會“讀心術”，情感計算如何解決實際場景需求？ | 雷鋒網(wǎng)公開課

例如，翼開科技2011年上線的一款應用就會給用戶推薦詩歌、書法、音樂等等，后來在音樂內(nèi)容上做得更加深入，我們通過分析音樂的音高、節(jié)奏、旋律和音強，3分鐘的歌曲會采集6000個數(shù)據(jù)點分，根據(jù)這些信息來給歌曲打情緒標簽。現(xiàn)在已經(jīng)標注過得音樂數(shù)量超過了160萬首，另外，像圖片、視頻都是可以通過用戶的情緒來做內(nèi)容匹配，最終達到緩解情緒的目的。

情緒表達

讓機器學會“讀心術”，情感計算如何解決實際場景需求？ | 雷鋒網(wǎng)公開課

情緒表達是利用情感合成技術，讓一段語音、表情或者肢體動作模擬人的情感，讓機器帶有情感的表達出來，這樣就可以提升人和機器的交互體驗。

舉個例子，如果送餐機器人只會識別菜和客人，這是基礎服務；但要增加機器人的附加價值，需要送餐機器人讀懂客人的情緒，客人情緒低落的時候，送餐機器人會以一種比較舒緩的情緒對話。

情感計算技術實現(xiàn)的路線

目前翼開科技和中科院心理所、清華大學心理系和美國卡內(nèi)基梅隆大學語言技術研究所。

這實際上是兩個流派：前面的兩個機構代表的是基于理論研究的專家模型，卡內(nèi)基梅隆大學是基于神經(jīng)網(wǎng)絡、深度學習的模型。

目前翼開科技在做的有一部分是基于深度學習的，也有一部分是基于專家模型。我們認為這兩類的瓶頸都逐漸顯現(xiàn)出來了，需要相互融合。

為什么會用深度學習來做表情的識別？

現(xiàn)在做深度學習的瓶頸在于大量標注過的數(shù)據(jù)，不過表情標注會相對比較容易，一張人臉只判斷喜怒哀樂，一般情況下1秒就可以識別出一個人的表情，如果有幾十萬張表情圖片，用眾包的方式所需的時間和費用都不會很大。

不過有一些數(shù)據(jù)不太方便做標注，例如語音。

三分鐘的語音，我們必須聽完三分鐘才能做情緒的標注，標注的工作量在無形中增加了上百倍，而且相對表情而言，語音的情緒表達更加隱性，所以也很難用深度學習的方式來實現(xiàn)語音的情緒識別。

還有一種是普通人很難進行標注的，如心率。即使你是一個專業(yè)的醫(yī)生，看完一段心率圖也無法確定測試對象心率變化的原因（開心、焦慮、憤怒）。

所以，現(xiàn)在表情是基于深度學習的，語音和心率基于專家模型。

不過剛才也講到，這兩類在發(fā)展到一定程度時候，會存在瓶頸。例表情面臨的瓶頸有兩個：1.普通人標注人臉表情的顆粒度一般是6-8種情緒，很難識別更細的（24種甚至是一百多種）；2.即便完成了情緒類型的標準，但你無法確認情緒的真?zhèn)巍?/p>

在專家模型中，則有比較成熟的模型來判斷情緒的真?zhèn)危虼?，我們可以在深度學習的基礎上，再疊加專家模型來突破這樣的瓶頸。

心率和語音基于專家模型也存在瓶頸，現(xiàn)在的解決辦法是建立一個個體用戶強化訓練的模型（一個用戶測得越多，模型會越貼合被測用戶的特征）；另外，我們還可以建立一個半監(jiān)督學習算法來得到實時的反饋。

因此，表面上有兩條技術路線，但實際上這二者是相互融合的。

情感計算的不同理解

不同的行業(yè)對于情感計算的理解是不一樣的。羅莎琳德·皮卡德是麻省理工學院MediaLab的老師，她也是情感計算學科的奠基人。

在她《情感計算》這本書中的序言中有這么一句話：如果要讓計算機實現(xiàn)真正的智能并適應我們，跟我們產(chǎn)生自然而然的人機交互，那么，它就需要具備情緒識別和表達能力，就需要具備情感。

谷歌云計算首席科學家李飛飛對情感計算是這么理解的：現(xiàn)在我們的AI都是用邏輯的方法來判斷情感。邏輯代表IQ，而情感代表EQ。未來，從情緒到情感，是人工智能未來前進的方向。

我們認為可以從三個角度來理解情感計算：

第一，情感計算可以幫助AI來識別用戶的情緒；
第二，情感計算可以幫助AI模擬人類的情緒，以改善人機情感交互；
第三，情感計算可以讓AI產(chǎn)生自我約束能力（同理心）。

應用場景

目前翼開科技和環(huán)信展開了合作，環(huán)信有IM溝通工具，這里面包含了語音、表情和文本等信息，我們對其開放了綁定的SDK，可以通過語音等信息來判斷用戶的情緒。

另外，我們現(xiàn)在還和科大訊飛有合作，合作的方式主要是相互交叉授權，通過綁定版的SDK，科大訊飛來識別語音，翼開科技來判斷情緒；現(xiàn)在還在做視覺的應用，科大訊飛識別人的身份，翼開科技來識別其情緒。

另外，以下這些都是情感計算可能落地的應用場景：

1.基于AI多模態(tài)識別和生物反饋技術的精神壓力智能篩查裝備
2.基于AI多模態(tài)識別和NLP技術的公安審訊實時分析預警裝備
3.基于AI多模態(tài)識別和車載控制技術的司機情緒和疲勞度監(jiān)測敢于系統(tǒng)
4.基于AI多模態(tài)識別和智能控制技術的情感聯(lián)動的無操控智能家居系統(tǒng)
5.基于AI多模態(tài)識別和動機分析技術的金融信貸面簽風險評估機器人
6.基于語音聲紋和NLP技術的呼叫中心坐席情緒監(jiān)控和滿意度分析方案
7.基于情感大數(shù)據(jù)時序遞歸分析技術的幼兒性格發(fā)育傾向性預測軟件
8.基于情感大數(shù)據(jù)時序遞歸分析技術的承認免疫系統(tǒng)損傷預警軟件

當然，對于創(chuàng)業(yè)公司而言，要做出上述所有場景來推向市場，雷鋒網(wǎng)了解到，翼開科技已經(jīng)在教育、金融等領域做出了商業(yè)化的嘗試。

精彩問答

Q：語音、圖像這些不同的模塊怎么在系統(tǒng)里面協(xié)調(diào)工作？

A：其實就是一個多模態(tài)的算法，有兩種實現(xiàn)的方法：本身數(shù)據(jù)就是多模態(tài)的數(shù)據(jù)，然后做標注，做完玩標注就可以通過深度學習的方式來做訓練；第二種，通過同一個sensor采集數(shù)據(jù)后再做多模態(tài)，例如通過麥克風可以采集到用戶的語音、聲紋特征，進一步分析文本，來做多模態(tài)。

Q：情感數(shù)據(jù)對準確率還是有很大的影響，這些數(shù)據(jù)是怎么搜集的？

A：在我們和卡內(nèi)基梅隆大學情感計算專家交流的過程中，我們得到一個觀點，通過單種信息來判斷情緒，準確率是有局限性的；另外，越早做多模態(tài)越好，越多的模態(tài)擬合越好。

我們把反應情緒的信號分為兩類，一類是淺層信號，如語音、表情；還有一類是深層信號，完全受交感神經(jīng)和副交感神經(jīng)的影響，主觀意識很難控制。

淺層信號更容易采集，但權重不高；深層信號權重高，但采集難度比較大。兩種信號做綜合的多模態(tài)分析可以提升情感判斷的準確度。

Q：目前的準確率有多高？多模態(tài)的模型有相關的paper嗎？

A：語音和心率是基于專家模型的，這個精度會低一點，在85%左右，表情在90%左右（但是表情只有7中情緒）。

Q：情感識別目前有判斷準確率的行業(yè)標準嗎？沒有標準的話，從哪些維度來提升識別率？

A：現(xiàn)在判斷情緒標準的類型比較多，常見的如果用深度學習方法實現(xiàn)的模型，再重新另一套標注的數(shù)據(jù)來跑一下這個模型，來判斷它的精度；另外，可以根據(jù)用戶反饋來判斷，把系統(tǒng)測試的結果反饋給用戶，讓用戶來給出最終驗證。

如何優(yōu)化？可以通過半監(jiān)督學習的方式，來進行自我訓練自我校正。

Q：有采用腦電波的模態(tài)數(shù)據(jù)嗎？

A：國外做這一塊的研究有很多，我們現(xiàn)在認為腦電sensor還不是消費終端的標配，采集腦電要專門的sensor，目前只用在特殊的行業(yè)，還沒有做通用算法的開放。