深度學(xué)習(xí)處理醫(yī)學(xué)問(wèn)題時(shí)，會(huì)面臨這些尷尬

本文作者：張利

2017-05-11 18:31

導(dǎo)語(yǔ)：神經(jīng)網(wǎng)絡(luò)不是“神經(jīng)”，那只是一個(gè)個(gè)節(jié)點(diǎn)的分段線(xiàn)性函數(shù)；深度學(xué)習(xí)也不是“學(xué)習(xí)”，那只是一個(gè)強(qiáng)大的擬合函數(shù)

AI掘金志（公眾號(hào)）：雷鋒網(wǎng)旗下只專(zhuān)注于報(bào)道AI商業(yè)化與落地的垂直內(nèi)容頻道。助力“AI技術(shù)輸出者”尋找商業(yè)潛力大的落地場(chǎng)景，服務(wù)“AI技術(shù)消費(fèi)者”選擇適合自身的技術(shù)供應(yīng)商。

AI掘金志主要推送兩類(lèi)文章：

1.深入挖掘AI公司與傳統(tǒng)機(jī)構(gòu)的合作案例。

2.剖析各地醫(yī)院、銀行、制造企業(yè)、零售商、政府部門(mén)等傳統(tǒng)機(jī)構(gòu)對(duì)AI的需求與實(shí)際應(yīng)用情況。

雷鋒網(wǎng)按：本文轉(zhuǎn)載于肖恩大俠的個(gè)人公眾號(hào)：肖恩大俠（ID：xiaoendaxia1）。

深度學(xué)習(xí)處理醫(yī)學(xué)問(wèn)題時(shí)，會(huì)面臨這些尷尬

人工智能，路在何方？今天，帶來(lái)某醫(yī)療行業(yè)人工智能創(chuàng)業(yè)公司的部分思考。供大家參考。

醫(yī)學(xué)人工智能相關(guān)的新聞鋪天蓋地襲來(lái)

最近幾個(gè)月，無(wú)論是媒體中人工智能第N次戰(zhàn)勝人類(lèi)醫(yī)生，跨國(guó)科技巨頭挺進(jìn)醫(yī)療人工智能，AI創(chuàng)業(yè)公司宣布高額融資，還是政府發(fā)文鼓勵(lì)人工智能相關(guān)的醫(yī)療器械發(fā)展，醫(yī)療人工智能方面的新聞鋪天蓋地襲來(lái)。

單以醫(yī)學(xué)圖像為例，CT、核磁、超聲、病理、內(nèi)窺鏡、眼底等，都可以開(kāi)發(fā)人工智能。醫(yī)療圖像的計(jì)算機(jī)處理向來(lái)是一個(gè)很大的產(chǎn)業(yè)，計(jì)算機(jī)輔助診斷(CAD)也不是一個(gè)新概念，只是人工智能技術(shù)手段的進(jìn)步賦予了這個(gè)行業(yè)更多可能性。當(dāng)然，我們要承認(rèn)20世紀(jì)60年代發(fā)展的模式識(shí)別技術(shù)其實(shí)也解決了一些醫(yī)學(xué)圖像計(jì)算機(jī)輔助診斷方面的問(wèn)題。

由于新聞報(bào)道的真實(shí)性不好評(píng)估，我們僅在學(xué)術(shù)論文層面來(lái)討論醫(yī)學(xué)圖像人工智能的臨床價(jià)值。過(guò)去幾個(gè)月以來(lái)比較受人矚目的學(xué)術(shù)成果，也就是在高分學(xué)術(shù)期刊上發(fā)表的醫(yī)學(xué)圖像人工智能的部分論文有：

1. 《美國(guó)醫(yī)學(xué)會(huì)雜志》，谷歌：糖尿病視網(wǎng)膜病變的定級(jí)

《Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs》, 發(fā)表于2016年12月的美國(guó)醫(yī)學(xué)會(huì)期刊JAMA上。作者使用12.8萬(wàn)張的眼底照片訓(xùn)練了模型，主要的測(cè)試數(shù)據(jù)是來(lái)自4997名病人的9963張眼底照片集EyePACS-1。敏感度為90.3%時(shí)特異度為98.1%，敏感度為97.5%時(shí)特異度為93.4%。

深度學(xué)習(xí)處理醫(yī)學(xué)問(wèn)題時(shí)，會(huì)面臨這些尷尬

2. 《自然》，斯坦福：兩種皮膚病變的診斷

《Dermatologist-level classification of skin cancer with deep neural networks》, 發(fā)表于2017年1月的Nature期刊。作者使用12.9萬(wàn)張含有兩千多種病灶的臨床皮膚照片訓(xùn)練出模型，在分類(lèi)上皮癌變和黑色素瘤兩種目標(biāo)的任務(wù)上與21位皮膚病專(zhuān)家的表現(xiàn)一致。與病理結(jié)果比較，作者分別測(cè)試了200-1000+張照片，獲得的敏感度與特異度繪制的ROC曲線(xiàn)的AUC均大于0.94 (AUC是曲線(xiàn)下面積，敏感度和特異度均逼近100%時(shí)，AUC逼近1)。

當(dāng)然還有其他領(lǐng)域的科研進(jìn)展，我在這里就不逐一分析了。

判斷人工智能成果是否有臨床價(jià)值的關(guān)鍵點(diǎn)

無(wú)論是識(shí)別病灶還是判斷癌變程度，最基本的，是要同時(shí)討論敏感度和特異度，前者代表正確的識(shí)別陽(yáng)性的能力，反映了系統(tǒng)的漏診率；后者代表正確的判定陰性的能力，反映了系統(tǒng)的誤報(bào)率。當(dāng)然，醫(yī)學(xué)論文也經(jīng)常直接使用平均每幀誤報(bào)數(shù)這個(gè)指標(biāo)來(lái)反映系統(tǒng)的特異度。

這和計(jì)算機(jī)工程領(lǐng)域的精確率Precision和召回率Recall說(shuō)的是一個(gè)事情，并非是醫(yī)學(xué)界特有的評(píng)價(jià)指標(biāo)，但是偏偏在很多軟文中有一些嘩眾取寵的表達(dá)，比如“精確率已經(jīng)達(dá)到了95%，完美PK掉了人類(lèi)醫(yī)生”。那么我們讓一個(gè)初中生寫(xiě)一段程序，對(duì)所有的輸入都報(bào)陽(yáng)性，精確率肯定是100%。所以，任何單談敏感度或者特異度的成果發(fā)布，都是在耍流氓。

由于筆者早些年對(duì)谷歌的深入密切了解和在斯坦福的經(jīng)歷，對(duì)這兩家機(jī)構(gòu)領(lǐng)先的技術(shù)和嚴(yán)謹(jǐn)?shù)膽B(tài)度非常認(rèn)可，這兩篇學(xué)術(shù)成果的發(fā)表也是實(shí)至名歸。然而，具體到臨床思考，這兩項(xiàng)人工智能輔助診斷的成果并沒(méi)有涉及能讓人完全信服的臨床驗(yàn)證。

谷歌，“Further research is necessary to determine the feasibility of applying this algorithm in the clinical setting”；斯坦福，“Further research is necessary to evaluate performance in a real-world, clinical setting, in order to validate this technique across the full distribution and spectrum of lesions encountered in typical practice.” 這兩篇頂級(jí)學(xué)術(shù)文章的自謙雖說(shuō)有些客套，筆者認(rèn)為臨床驗(yàn)證的確可以在下述方向上努力。

更大的測(cè)試規(guī)模

谷歌和斯坦福的兩篇論文都使用了接近13萬(wàn)張的訓(xùn)練樣本，分別測(cè)試了不到一萬(wàn)張和一千張左右。前者看似絕對(duì)數(shù)量不少，但實(shí)際上比起訓(xùn)練樣本數(shù)量，僅僅不到8%。計(jì)算機(jī)輔助診斷的臨床驗(yàn)證是要證明算法具有推斷力，至少應(yīng)該滿(mǎn)足測(cè)試集與訓(xùn)練集規(guī)模相當(dāng)，這樣才能規(guī)避算法過(guò)擬合的風(fēng)險(xiǎn)。

從商業(yè)的角度思考，醫(yī)生標(biāo)注了近13萬(wàn)張訓(xùn)練樣本數(shù)據(jù)，那么做出的成果至少應(yīng)該在更大規(guī)模的測(cè)試集上驗(yàn)證有效，才能說(shuō)明人工智能的開(kāi)發(fā)成本與醫(yī)生勞動(dòng)付出在商業(yè)上是可以打平的。筆者認(rèn)為，臨床的測(cè)試集是幾倍于訓(xùn)練樣本時(shí)，會(huì)很有說(shuō)服力。

百度百科：前瞻性研究(prospective study)是把研究對(duì)象選定，研究方式預(yù)定好，相關(guān)的影響因素納入統(tǒng)計(jì)范圍，在這些條件下，根據(jù)這些因素去做持續(xù)的追蹤研究，分析判斷，最后在原訂計(jì)劃的時(shí)間內(nèi)做出評(píng)估，把符合原來(lái)設(shè)計(jì)的方法的所有例子都要列入統(tǒng)計(jì)，(這個(gè)階段，不只是選有效的來(lái)統(tǒng)計(jì))，全部結(jié)果都要呈現(xiàn)出。最終，選擇的結(jié)果經(jīng)過(guò)計(jì)算，得出納入統(tǒng)計(jì)范圍中，相關(guān)影響波動(dòng)有效的因素構(gòu)成重點(diǎn)目標(biāo)，繼而對(duì)這些因素進(jìn)行深入研究，這就是前瞻性研究。

這兩篇論文都不是前瞻性研究，驗(yàn)證人工智能算法的效果，采用前瞻性研究的方法并不會(huì)增加多少成本和復(fù)雜度，但臨床意義將凸顯。從計(jì)算機(jī)工程的角度出發(fā)，很多人工智能算法成果的開(kāi)發(fā)，包括谷歌在上述科研中，是預(yù)先選定了測(cè)試集，然后不停的增加訓(xùn)練樣本數(shù)量，直至得出在測(cè)試集上優(yōu)秀的表現(xiàn)。這個(gè)方法在實(shí)際操作層面與前瞻性研究是有一定距離的。

臨床產(chǎn)品化的現(xiàn)實(shí)可行性

谷歌該團(tuán)隊(duì)的產(chǎn)品經(jīng)理在一次公開(kāi)演講中表示，“現(xiàn)在的瓶頸主要在硬件層面，如何做一個(gè)輕量級(jí)的模型可以放在硬件設(shè)備里”(而不是靠云計(jì)算)。斯坦福論文中展望了未來(lái)在手機(jī)等移動(dòng)終端應(yīng)用的場(chǎng)景，但是從公開(kāi)資料上看，這個(gè)團(tuán)隊(duì)并沒(méi)有像谷歌一樣從產(chǎn)品角度繼續(xù)工作。

總之，人們腦補(bǔ)的人工智能替代醫(yī)生，哪怕僅僅是輔助，在產(chǎn)品層面尚未出現(xiàn)。

打開(kāi)臨床級(jí)別醫(yī)學(xué)圖像人工智能的正確姿勢(shì)

認(rèn)識(shí)深度學(xué)習(xí)本身的局限性。

神經(jīng)網(wǎng)絡(luò)不是“神經(jīng)”，那只是一個(gè)個(gè)節(jié)點(diǎn)的分段線(xiàn)性函數(shù)；深度學(xué)習(xí)也不是“學(xué)習(xí)”，那只是一個(gè)強(qiáng)大的擬合函數(shù)。從數(shù)學(xué)角度去看，卷積神經(jīng)網(wǎng)絡(luò)是一組表達(dá)能力很強(qiáng)的函數(shù)，它可以用來(lái)擬合很多數(shù)據(jù)對(duì)象，當(dāng)然，包括圖像。

1. 什么是擬合？

百度百科：所謂擬合是指已知某函數(shù)的若干離散函數(shù)值{f1,f2,…,fn}，通過(guò)調(diào)整該函數(shù)中若干待定系數(shù)f(λ1,λ2,…,λn)，使得該函數(shù)與已知點(diǎn)集的差別(最小二乘意義)最小。比如平面中有幾個(gè)點(diǎn)，可以用直線(xiàn)來(lái)擬合，可以用二次函數(shù)來(lái)擬合，當(dāng)然也可以用五角星，甚至用奧特曼來(lái)擬合。

深度學(xué)習(xí)處理醫(yī)學(xué)問(wèn)題時(shí)，會(huì)面臨這些尷尬

擬合函數(shù)的解釋?zhuān)ㄖ本€(xiàn)-曲線(xiàn).-五角星）

選擇不同函數(shù)來(lái)擬合這些已知點(diǎn)集，會(huì)產(chǎn)生完全不同的結(jié)果，而這個(gè)選擇就是在揭示問(wèn)題的抽象本質(zhì)；反觀現(xiàn)在很多論調(diào)，用深度學(xué)習(xí)來(lái)解決一切問(wèn)題，其實(shí)是做了一個(gè)很不科學(xué)的假設(shè)：所有問(wèn)題的本質(zhì)都可以用分層網(wǎng)絡(luò)結(jié)構(gòu)的擬合函數(shù)來(lái)表達(dá)，而且這個(gè)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都是簡(jiǎn)單的分段線(xiàn)性函數(shù)。

2. 是不是數(shù)據(jù)量足夠就一定可以擬合出好用的模型？

答案當(dāng)然是否定的，否則就不會(huì)有一個(gè)概念：過(guò)擬合(overfitting)。擬合一個(gè)特定的函數(shù)，會(huì)有對(duì)應(yīng)的數(shù)據(jù)量區(qū)間能夠比較準(zhǔn)確的呈現(xiàn)這個(gè)函數(shù)。而函數(shù)本質(zhì)還不確定的時(shí)候，比如不清楚擬合目標(biāo)是線(xiàn)性函數(shù)、拋物線(xiàn)還是奧特曼，完全靠擬合來(lái)生成一種函數(shù)表達(dá)，過(guò)擬合的風(fēng)險(xiǎn)是普遍存在的。

與過(guò)擬合相對(duì)，還有個(gè)概念叫欠擬合(underfitting)，很多所謂人工智能的從業(yè)者其實(shí)并沒(méi)有能力判斷欠擬合和過(guò)擬合，所以往往在識(shí)別結(jié)果不達(dá)預(yù)期的時(shí)候，唯一的判斷是，需要加訓(xùn)練樣本數(shù)據(jù)量(欠擬合)。而當(dāng)隨著訓(xùn)練樣本增多，識(shí)別效果不升反降的時(shí)候，他們會(huì)說(shuō)，是訓(xùn)練樣本的標(biāo)注質(zhì)量出了問(wèn)題(過(guò)擬合了一些錯(cuò)誤樣本)。殊不知，是擬合本身的問(wèn)題。

3. 正確對(duì)待深度學(xué)習(xí)這種擬合函數(shù)

揭示事物的本質(zhì)、并用以計(jì)算機(jī)工程實(shí)現(xiàn)為有價(jià)值的產(chǎn)品離不開(kāi)數(shù)學(xué)建模。并非所有的數(shù)學(xué)工具都是擬合，也并非所有表達(dá)能力強(qiáng)的函數(shù)都是深度學(xué)習(xí)。真正的算法開(kāi)發(fā)在于剖析問(wèn)題本質(zhì)來(lái)設(shè)計(jì)數(shù)學(xué)模型，而不是在深度學(xué)習(xí)這個(gè)擬合函數(shù)的范疇內(nèi)去調(diào)參數(shù)。

我們不妨可以把深度學(xué)習(xí)叫做“深度擬合”，這樣可以減少大家對(duì)“學(xué)習(xí)”這兩個(gè)字的錯(cuò)覺(jué)。

理解深度學(xué)習(xí)處理醫(yī)學(xué)問(wèn)題的那些尷尬

從“學(xué)習(xí)”的角度說(shuō)開(kāi)去，一個(gè)三歲小孩學(xué)習(xí)辨別男女，識(shí)別貓狗，以及認(rèn)出七大姑八大姨，是很正常的；這個(gè)孩子長(zhǎng)到十幾歲的時(shí)候，一眼分辨出奔馳和寶馬應(yīng)該不難，也許可以一眼分辨奧迪A6和A8；可如果成長(zhǎng)為一名優(yōu)秀的醫(yī)生，他需要接受若干年的知識(shí)學(xué)習(xí)和臨床實(shí)踐，拿下博士學(xué)位并在崗訓(xùn)練幾年，也許才能夠算合格。

識(shí)別貓狗，辨別車(chē)輛，和做醫(yī)學(xué)判斷，這個(gè)學(xué)習(xí)的過(guò)程是有本質(zhì)區(qū)別的，前兩者都可以通過(guò)不斷重復(fù)來(lái)訓(xùn)練（可能分辨奧迪A6和A8需要一點(diǎn)點(diǎn)知識(shí)）；而醫(yī)學(xué)，本身就是有強(qiáng)知識(shí)結(jié)構(gòu)的學(xué)科，醫(yī)科專(zhuān)業(yè)不是誰(shuí)都能考上的，也不是誰(shuí)都能輕易拿到醫(yī)學(xué)博士的，這個(gè)過(guò)程必然不是靠機(jī)械重復(fù)的訓(xùn)練。醫(yī)學(xué)知識(shí)相關(guān)的抽象思維體系的建立是臨床實(shí)踐的前提。

1. 醫(yī)學(xué)問(wèn)題的難度和縱深

如果說(shuō)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是一定程度模擬了人的視神經(jīng)構(gòu)造，那也只在純視覺(jué)領(lǐng)域，比如識(shí)別人臉貓狗等，取得了不錯(cuò)的識(shí)別效果。同樣的邏輯并不適合其它一切識(shí)別對(duì)象。對(duì)醫(yī)學(xué)對(duì)象性質(zhì)的判別，包含非常復(fù)雜的邏輯分析和對(duì)抽象概念的理解，與判別貓狗等所需的對(duì)視覺(jué)特征的統(tǒng)計(jì)歸納有本質(zhì)區(qū)別。受過(guò)良好基礎(chǔ)訓(xùn)練的醫(yī)生，并不需要多么海量的病例就能準(zhǔn)確判別。而基礎(chǔ)比較差的醫(yī)生，并不能靠接觸病例多而提高其判別的準(zhǔn)確率。

脫離醫(yī)學(xué)的邏輯知識(shí)體系，即使人的神經(jīng)也無(wú)法正確擬合經(jīng)驗(yàn)對(duì)象從而達(dá)到正確的預(yù)測(cè)，更不要說(shuō)幾層分段線(xiàn)性函數(shù)了。醫(yī)學(xué)識(shí)別的是對(duì)象的性質(zhì)，而非對(duì)象的外觀的相似性，大量的情況是外觀形態(tài)相似但性質(zhì)迥異，或外觀差距很大但性質(zhì)一致。例如如何讓計(jì)算機(jī)時(shí)而精確地抓住顯著的視覺(jué)特征，時(shí)而忽略那些顯著特征而抓住細(xì)節(jié)，就不是單純照搬識(shí)別貓狗的方法論能夠?qū)崿F(xiàn)的。

2. 醫(yī)學(xué)數(shù)據(jù)的相對(duì)稀缺性

與人臉、貓狗、車(chē)輛動(dòng)輒幾十萬(wàn)上百萬(wàn)的訓(xùn)練樣本相比較，如果考慮了醫(yī)學(xué)問(wèn)題的難度和復(fù)雜的維度，即使是在中國(guó)這樣的醫(yī)療數(shù)據(jù)大國(guó)，拿出的數(shù)據(jù)量恐怕也是不夠一根筋的深度學(xué)習(xí)神教來(lái)?yè)]霍的。這個(gè)過(guò)程中，獲得大量精確標(biāo)注也是耗時(shí)費(fèi)力的事情，而沒(méi)有依照合適的數(shù)學(xué)模型設(shè)計(jì)的標(biāo)注工作，其實(shí)也浪費(fèi)了大量的醫(yī)療資源。

從問(wèn)題本身入手，發(fā)掘其內(nèi)在邏輯，而不是手里拿著一個(gè)榔頭的時(shí)候，看什么都像釘子。若干年以后，大家回望深度學(xué)習(xí)的感覺(jué)，也許就像現(xiàn)在看待模式識(shí)別。開(kāi)發(fā)醫(yī)學(xué)圖像的人工智能輔助診斷的算法和系統(tǒng)要尊重臨床指南，將具體問(wèn)題中知識(shí)邏輯的部分和統(tǒng)計(jì)擬合的部分區(qū)分開(kāi)，讓深度學(xué)習(xí)去完成它最擅長(zhǎng)的工作。

讓上帝的歸上帝，凱撒的歸凱撒。

更多關(guān)于人工智能升級(jí)傳統(tǒng)行業(yè)的文章，請(qǐng)關(guān)注雷鋒網(wǎng)AI商業(yè)化垂直微信公眾號(hào)：AI掘金志（ID：HealthAI）。

3人收藏

相關(guān)文章