YOCSEF「知識圖譜」專題探索班成功舉辦，五大高校、三大企業(yè)共話知識圖譜理論與未來

本文作者： skura

2018-12-16 17:22

導語：演講嘉賓有清華大學張鈸教授，北京大學趙東巖教授，東南大學漆桂林教授，復旦大學肖仰華教授，武漢大學洪亮副教授。

雷鋒網 AI 科技評論按，12 月 14 日，中國計算機學會 YOCSEF 在中科院計算所舉辦「知識圖譜」專題探索班。知識圖譜和圖數據是目前計算機學科相關研究中的熱點，具體研究涵蓋知識圖譜構建，知識圖譜的存儲和查詢系統(tǒng)，面向知識圖譜應用，以及大圖數據的處理分析方法及系統(tǒng)等。

知識圖譜和圖數據為計算機研究者提供了一個非常好的交叉研究對象，這包括自然語言處理、數據庫、知識工程和機器學習等領域。同時基于知識圖譜的工業(yè)應用，也是各大互聯(lián)網公司以及一些創(chuàng)業(yè)型企業(yè)共同關注的焦點。

基于此，此次探索班邀請到自然語言處理、數據庫、知識工程和機器學習領域重量級的專家做報告，進行報告的專家教授名單如下：

張鈸清華大學計算機系教授、中科院院士
吳信東明略科技首席科學家、路易斯安那大學教授、IEEE/AAAS Fellow
周暢阿里巴巴達摩院高級算法工程師
洪亮武漢大學信息管理學院副教授
漆桂林東南大學教授、博導
趙東巖北京大學教授、大數據研究院自然語言處理與認知智能實驗室主任
賈巖濤華為公司中央軟件院知識圖譜首席技術專家
肖仰華復旦大學計算機科學與技術學院教授

大家結合自己的研究領域，圍繞知識圖譜，對其理論、應用以及創(chuàng)新和未來進行了精彩討論，以下為各位嘉賓的探討內容，雷鋒網 AI 科技評論整理。

首位演講嘉賓為清華大學計算機系教授、中科院院士張鈸，他的演講主題為《人工智能與知識圖譜》。張鈸教授表示，進入深度學習時代，技術的門檻變得很低，例如對于一些創(chuàng)業(yè)公司，掌握好數據和算法就可以進入一個行業(yè)。但是現(xiàn)在大家發(fā)現(xiàn)深度學習并不那么好用，它的缺點很突出，一是系統(tǒng)非常脆弱、容易受攻擊等，存在不魯棒性、不可解釋性，這是其本質缺點。他表示，一是我們使用的原始數據質量差，二是系統(tǒng)不能學出有語義的特征。

他舉了一個形象的例子，將一張阿爾卑斯山的圖片加上噪聲，加噪聲之前和之后，人類看起來沒差別，但計算機就把加噪聲之后的圖片識別成了狗，這說明這樣的系統(tǒng)非常脆弱，和人類視覺系統(tǒng)完全不同。這樣的系統(tǒng)存在極大的問題，所以我們提出后深度學習時代。

張鈸教授表示，人類的優(yōu)點是在大是大非前非常明確，雖然會犯小錯，但不會犯大錯，但機器與人相反，雖然不會犯小錯，但一犯就是大錯。

他表示，后深度學習時代，應該努力克服深度學習存在的問題。我們需要將知識驅動和數據驅動相結合，進行多學科交叉研究。而我國目前的研究現(xiàn)狀如下，研究機器學習的人很多，但很少有人研究知識表示和推理。他表示，科學研究必須強調多樣化，我們應該重視知識表示和推理，這是人工智能最核心的內容。

隨后，他提到如何把知識圖譜嵌入向量空間，「現(xiàn)在的很多方法看起來都不太理想，問題是在投射的過程中要盡量少丟失語義。當數據很大的時候很難做到。」

他表示，從人工智能的觀點來看，IBM Watson 真正把知識推理和數據結合起來了，是非常好的研究工作。

從人工智能的角度看知識圖譜未來的發(fā)展趨勢，張鈸教授表達了如下觀點，我國必須要建立大規(guī)模的知識庫。他表示，美國現(xiàn)在已經做了很多相關工作，我們如果想要靠別人的數據庫、知識圖譜，很難發(fā)表創(chuàng)新性的、有見解的文章。

第二位演講的嘉賓是明略科技首席科學家、路易斯安那大學教授、IEEE/AAAS Fellow 吳信東，他的主題是《大數據，大知識，大智慧》。

吳信東教授表示，每個人對大數據的理解都不一樣。大數據的核心問題是多維數據問題，會遇到很多困難，比如在數據的來源不一樣的時候，例如如何進行數據融合，如何去尋找和添加不存在的知識。

對于大數據有兩種理解方式，一是常規(guī)意義上的大數據，二是將本來不是大數據的信息變成大數據，這就需要找出大數據的底層特征。大數據最底層特征有四個：

1.大數據不是指數據的體積大，而是數據多元，有聲音、文本、表格、不同的語言等；

2.每個信息來源自治，數據是異構的，都有自己的邏輯，不同來源的信息會可能會產生矛盾、斷層現(xiàn)象。這就和盲人摸象、小馬過河一樣；

3.大數據的體量是巨大的，每個數據講的可能是某件事物不同的方面，可以把它們進行融合；

4. 數據是變化的，觀點在變，內容在變，信息也在變。

想做大知識，必須要考慮到知識的體量是巨大的，要從大量的知識里羅列出有質量的知識，從量到質、從質到序。從量到質是指要從大量的數據里面找出對自己有用的數據，從質到序是指根據需求使用數據，正如知識是一樣的，但是每個人學習的途徑不一樣，根據個人需求進行學習。

他表示，在大數據、大知識之后，就是機器學習。我們用數據挖掘獲取知識，一般來說，數據獲取和數據挖掘要花掉大約 3/4 的時間，數據一旦變化時，是重做還是更新，如何進行融合等都是數據挖掘所面臨的挑戰(zhàn)。

第三位上臺演講的嘉賓為阿里巴巴達摩院高級算法工程師周暢，他帶來了圖表示學習在阿里的相關應用。

開場伊始，他提到圖表示學習在阿里的如下應用：賬號匹配、反作弊、推薦、金融風控、搜索廣告、NLP、知識圖譜。隨后，他提到目前在工業(yè)界中比較主流的兩大類方法：

一是 Skip-Gram+Random Walk，類 DeepWalk；二是 Sampled GCN，類 GraphSage.

他提到與業(yè)務比較相關的應用——用戶對齊，也講解了他們在 ICDM2018 上的文章。

這一系列介紹之后，他講到圖嵌入在推薦召回中的應用。

一是店內，這里談到他們 2016 年的相關工作，在 item-item 圖上的初試。他們修正了 DeepWalk 在 Random Walk 時更新的非對稱概率的問題，店內 Ctr 穩(wěn)定提升 10% 以上。
二是全網，這里涉及到集團其他團隊工作。如首頁個性化推薦，這是在 KDD2018 上的研究工作，他們加入了 Side-Information，進行了精致的數據預處理；還有阿里媽媽搜索廣告，這里用 metapath GCN 來處理 Query、Item、Ad 的異構關系。

他們目前正在進行的工作是算法生成的內容化推薦。他表示，目前的推薦是被動響應式，很難做出發(fā)現(xiàn)性。如何將內容化、知識化的推薦構造成主動推送式，他提到如下四點：首先理解用戶是什么樣的人，其次是內容聚合，再是分析出用戶會對什么樣的概念、知識感興趣，最后是如何打動、說服用戶。

對于用戶是什么樣的人，可以通過 User-Item 二部圖構建 User/Item Embedding；針對內容聚合，通過 Item Embedding 進行層次聚類；在分析用戶對什么知識、概念感興趣時，可以用到 tree-based user interest mining；針對如何打動、說服用戶，可以找到一個解釋（路徑），能說服用戶對這個主題感興趣，說服方式有多種，如標題/短標題，知識卡片。

最后，他提到目前 Graph Learning 的挑戰(zhàn)。

一是計算效率與效果

大規(guī)模屬性圖中負樣本選取方式對結果非常敏感，啟發(fā)式的方法 vs 對抗式的方法
如何提高采樣效率，如何增量訓練
Hierarchical 的圖表征學習

二是動態(tài)圖建模

主要的挑戰(zhàn)是如何處理圖中邊的時序關系

三是異構圖的表達能力

Multi-Type/Multi-Edge 的圖如何學出更好的表征

四是多任務/遷移學習

圖結構如何遷移

而系統(tǒng)層面的挑戰(zhàn)主要有如下三點：

一是采用 Sparse 的圖計算系統(tǒng)，或 Dense 的機器學習系統(tǒng)，或采用兩者結合的系統(tǒng)？應該采用何種編程思路。
二是相比于其他機器學習模型，存在著大量不規(guī)范的參數讀寫模式。
三是種類多，屬性復雜的異構圖打 Batch 困難，難以利用 GPU 優(yōu)勢。

最后，他提到他們的全景圖，最下層是 Graph Engine，上面一層提供數據服務，更上一層提供算法服務，最上層是業(yè)務解決方案。

隨后進行報告的嘉賓是武漢大學信息管理學院副教授洪亮，主題是《股權網絡視角下的金融知識圖譜研究與平臺》。

他表示，智能金融在智能投研、智能風控、商業(yè)股權查詢平臺和智能監(jiān)管上應用廣泛。目前，很多銀行、保險、證券、信托、支付、監(jiān)管、消費金融、信用評級、互聯(lián)網金融和基金公司都會用到智能金融。知識圖譜構建了實現(xiàn)智能化應用的基礎知識資源，但目前的金融知識圖譜還存在很多問題，現(xiàn)有的金融知識圖譜數據零散，需要進一步融合；缺少基于金融股權網絡的金融知識圖譜；缺少系統(tǒng)性金融風險監(jiān)管平臺。

他進一步提到，從股權視角來看，抓住金融股權關聯(lián)，就抓住了系統(tǒng)性金融風險形成與傳導的根源。目前，金融行業(yè)面臨著金融體系主體繁多、股權網絡龐大、結構復雜等難題，但他們有自己的優(yōu)勢，他們有國內 400 多家商業(yè)銀行的股權信息，在工商銀行也有超過一億三元組信息數據。金融知識圖譜有助于實現(xiàn)股權「穿透式」監(jiān)管，協(xié)助金融主管部門進行系統(tǒng)性金融風險的識別、防范與化解。

基于金融知識圖譜，洪亮副教授團隊建立了知融金融大數據平臺。和商用股權查詢平臺不同的是，它可以進行股權網絡結構分析，可以進行金融知識圖譜查詢與分析，防范和化解系統(tǒng)性金融風險。

在算法上，他們主要采用的有：Top-K 控制權路徑查詢，從直接股東出發(fā)，結合工商庫數據查找第二層股東，遞歸查找，直至最終股東；最終股東持股比例采用的是稀疏矩陣計算法；同時也使用了視圖縮放的交互式資本系圖摘要算法。

他表示，智能金融的入口是金融本體。團隊采用基于知識圖譜的 RDF 數據管理，提供面向學術界、監(jiān)管部門的數據服務接口（API）。

未來，團隊的目標是實現(xiàn)對金融體系的大數據完全覆蓋。接下來將進一步深化金融知識圖譜的管理與分析，主要涉及的方面是：大規(guī)模金融知識圖譜的自動構建與高效管理；控制權網絡、資本系；股權網絡的風險傳導動態(tài)模擬；集成分析：系統(tǒng)性風險防范與化解。

第五位上臺演講的嘉賓是東南大學教授、博導漆桂林，他的報告主要圍繞知識圖譜以及知識圖譜的表示、推理、未來發(fā)展展開。

他表示，知識圖譜是一種語義網絡，即一個具有圖結構的知識庫，這里圖的節(jié)點可以是概念，可以是實例，可以是 literal，圖的邊就是一個關系。

從知識表示的角度看，目前的研究存在很多問題，如如何用知識圖譜表示事件，這里存在的問題是，事件可能存在關聯(lián)以及因果關系，此外，目前關于事件表示沒有特別多的相關研究。

另外他還舉了一些代表性問題，如時空知識如何表示，什么可以成為知識圖譜中的節(jié)點，知識到底是靜態(tài)還是動態(tài)，圖表示是不是最好的表示知識的方法。

他提及，大家的研究不能太單一，如只做數據庫。

關于知識圖譜的表示，他用圖例進行了形象說明，包括 RDF、literal、OWL、知識圖譜嵌入、基于上下文的表示學習等。

對于知識圖譜的推理，他提到邏輯方面的推理和統(tǒng)計方面的推理。在關于統(tǒng)計方面的推理上，他表示 Path-based reasoning 和 knowledge representation learning 這兩方面值得關注。他提到他們開發(fā)的一些規(guī)則引擎（0 型、1 型、2 型、3 型），目前 2 型的性能是萬級規(guī)則、十萬級本體、秒級速度，其他三類的性能是萬級規(guī)則、毫秒級速度。他表示，當到萬級規(guī)模時，無論管理還是推理都比較麻煩。隨后，他也提到這些規(guī)則引擎的應用場景，0 型可以用在疾病診斷、知識表示和推理，1 型已經用于國家 863 項目、高考機器人、地理知識表示和推理等，2 型可以用于疾病診斷、知識表示和推理，3 型可用于多模態(tài)人機交互中的交互知識表示和推理。

演講最后，他總結到，我們應該更強調對知識圖譜的表示，我們需要了解本體，包括 RDF、RDFS，另外，不應該把自己的研究限制得太窄，例如可以把圖像考慮在內。他表示，推理有很多應用，例如做問答和輔助決策，邏輯推理并不像大家想的那樣，實用性比較差。統(tǒng)計推理目前在知識圖譜推理里的應用更多是做問答和推薦，如果用來做決策和知識庫補全，不是特別適用。

第六位嘉賓是北京大學教授、大數據研究院自然語言處理與認知智能實驗室主任趙東巖，他的報告主題是《基于知識圖譜的文本語義理解及其智能應用》。

他表示，目前，研究類人智能技術的團隊有很多，如 MIT 人工智能實驗室、IBM Watson、Todai Robot、DeepMind、Google 問答搜索引擎團隊等，文本語義理解是這項技術中非常重要的一個方面。

機器是如何做到語義理解的？以高考機器人技術研究為例，有四個步驟：

構建基礎語義資源庫及深度語義分析技術平臺；
研制大規(guī)模知識庫構建技術，構建學科知識庫；
提出語義與知識表示方法、研制深度語義理解技術；
實現(xiàn)面向初等教育問題求解的知識推理。

從技術上來說，就是將自然語言問題解析為與知識庫關聯(lián)的結構化查詢語句。

他提到如下三個研究方向：

第一個方向是知識圖譜的構建，主要研究如何從開放域網絡信息資源中萃取以實體及實體間關系形式存在的知識條目，并據此構建以圖模式存儲的結構化語義知識庫。
第二個研究方向是語義理解與問題求解，也就是基于大規(guī)模結構化知識資源的語義分析與理解。
第三個研究方向是答案生成，也就是自然語言答案生成。

目前，他們已經使用大規(guī)模異構知識資源的語義網絡構建了龐大的技術構建語義知識庫，如地理因果邏輯知識庫，他們從地理教材、百度百科和中文維基百科得到 13.49 萬地理因相關的因果邏輯關系條目，組成地理因果邏輯關系知識庫。解答問題使用了基于地理因果關系資源的排序方法和基于多通道卷積神經網絡的排序方法。他們也能融合多種知識資源進行事實類問題的求解。其中，基于多通道 CNN 的解答器具有加寬卷積神經網絡結構，最深處有 14 層，有將近四百萬個神經元節(jié)點，兩千七百多萬個網絡參數。

未來，他們還想做智能對話系統(tǒng)，希望領域自適應對話系統(tǒng)可以完成檢索式對話、生成式對話和多輪及主動對話技術。

第七位上臺嘉賓是華為公司中央軟件院知識圖譜首席技術專家賈巖濤，他的演講主題是《企業(yè)級領域知識圖譜構建及其應用》。

他的分享分為四個方面，一是知識圖譜的背景，二是領域知識圖譜的構建，三是領域知識圖譜的應用，四是領域知識圖譜的挑戰(zhàn)。

知識圖譜最早由 Google 于 2012 年提出，它是谷歌對其索引的所有事物、任務和地點，例如地標性建筑、名人、城市、球隊、大樓、電影、藝術品等構建的關系網絡。知識圖譜從本質上講是一個圖結構，由節(jié)點和邊組成。

知識圖譜的構建歷程如下，先是人工構建、服務于人，隨后是算法構建、機器可理解。

他具體講到通用知識圖譜和領域知識圖譜的構建，通用知識圖譜常用于搜索領域，為搜索提供豐富的查詢結果，領域知識圖譜是聚集在某一特定領域的知識圖譜，服務于特定場景。

他表示，領域知識可以劃分為四大類，事實類、概念類、過程類、主觀類，并詳細描述了這四類領域知識。領域知識圖譜的構建思路如下：先是領域知識建模，隨后進行數據采集、清洗、轉換，接下來進行知識抽取、融合，隨后是知識存儲、知識計算等操作。

他們在領域知識抽取上也有若干工作，介紹如下：

預定義事件抽取。這一工作發(fā)表在 EMNLP2018 上，傳統(tǒng)事件抽取利用句子級信息獨立預測多個事件，忽略了事件之間的依賴關系，他們提出了聯(lián)合句子和篇章信息的多事件協(xié)同抽取方法——基于層次標注神經網絡和門控多層關注機制的多事件協(xié)同抽取。
關系融合，這是與愛丁堡大學合作的一篇工作。關系之間存在蘊含關系發(fā)現(xiàn)，是問答系統(tǒng)等上層應用的基礎，現(xiàn)有的基于上下文的關系相似度的學習方法，無法處理數據稀疏問題，他們提出 cross-graph 與 inside-graph 相結合的蘊含關系發(fā)現(xiàn)方法。

在報告最后，他談到知識圖譜的三個應用以及三個挑戰(zhàn)。目前知識圖譜可以應用在智能搜索、智能問答、智能運維領域。三個主要的挑戰(zhàn)如下：一是如何將專家經驗進行知識化，二是如何自動構建知識體系，三是如何做好語音、視頻、圖像等多模態(tài)的全聯(lián)結。

第八位演講的嘉賓是復旦大學計算機科學與技術學院教授肖仰華，他主要探討機器語義理解的挑戰(zhàn)與未來，以及如何利用知識圖譜進行語義理解。

他表示，人類之所以成為萬物之靈，是因為其具有語言能力。機器是否具備語言能力？由于機器不能自動理解數據，因此目前的大數據并沒有被充分的利用。機器缺乏行業(yè)知識，所以不能理解文本和數據。當機器具備語言能力時，才能真正產生能為人類服務的人工智能，而不是「人工智障」。

目前的機器語言理解存在兩方面困難。

第一個困難是，語言具有歧義性、關聯(lián)性和抽象性，同一個短語在不同的語境下意思可能大相徑庭。
第二個困難是，語言表達具有多樣性，同一個事物可能有一百多種表達方式。

知識圖譜是解決機器語言理解問題的一個方法，他也提到了一些創(chuàng)建方法。在他的研究中，用了兩類常見的知識圖譜：一是概念圖譜，是通過互聯(lián)網里面的語義模式獲取的，采用了協(xié)同過濾等算法；二是涵蓋各種事實的知識圖譜。

他隨后提到，機器對語言的理解涉及到很多方面，包括短語、單詞的集合、對象的集合、不同的類別、不同的動詞結構以及問題等等。理解語言需要將文本里面的對象和知識庫里面的對象關聯(lián)起來。短文本的理解非常困難，如輸入一段話，為了讓機器產生相關的概念，必須做兩個工作：區(qū)分出正確概念和錯誤概念，找出信息量更大的概念。

最后，他總結道，得益于知識圖譜，機器可以做很多語言理解方面的工作。但目前，機器語言理解是基于統(tǒng)計模式的匹配，并不是真正意義上的理解。機器語言的理解還處于初級階段，未來還有還有很多難題需要科學家去解決。

至此，精彩的報告圓滿結束，各位演講嘉賓，或從學界角度，闡述了知識圖譜的理論、挑戰(zhàn)以及未來發(fā)展，或站在業(yè)界的角度，探討了知識圖譜的使用場景，以及在工業(yè)上的應用。相信在未來，我們將會看到知識圖譜更多技術上的革新與應用。

雷鋒網

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

3人收藏

skura

編輯

發(fā)私信

當月熱門文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

YOCSEF「知識圖譜」專題探索班成功舉辦，五大高校、三大企業(yè)共話知識圖譜理論與未來

YOCSEF「知識圖譜」專題探索班成功舉辦，五大高校、三大企業(yè)共話知識圖譜理論與未來