97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

本文作者: 楊曉凡 編輯:郭奕欣 2017-06-15 10:42
導(dǎo)語(yǔ):人類不需要告訴AI系統(tǒng)明確的目標(biāo),只要評(píng)價(jià)動(dòng)作看起來(lái)對(duì)不對(duì)就好了

雷鋒網(wǎng) AI 科技評(píng)論消息,近日OpenAI和DeepMind各自在網(wǎng)站上發(fā)文,介紹一篇他們合作研究、撰寫(xiě)的論文《Deep reinforcement learning from human preferences》(根據(jù)人類偏好進(jìn)行的深度增強(qiáng)學(xué)習(xí))。在這篇論文里,他們展示了一種根據(jù)人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)的新方法,不僅學(xué)習(xí)過(guò)程相對(duì)高效,而且OpenAI和DeepMind的研究人員們共同認(rèn)為這種方法長(zhǎng)遠(yuǎn)來(lái)看能夠提高智能系統(tǒng)的安全性。

下面雷鋒網(wǎng) AI 科技評(píng)論就帶大家一起具體看一下OpenAI對(duì)這種方法的介紹和演示。

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

要建立一個(gè)安全的AI系統(tǒng),其中很重要的一步是不再讓人類給AI系統(tǒng)寫(xiě)目標(biāo)函數(shù)。這是因?yàn)槿绻昧撕?jiǎn)單的策略來(lái)達(dá)到復(fù)雜的目標(biāo),又或者對(duì)復(fù)雜目標(biāo)的理解出現(xiàn)了偏差,都可能導(dǎo)致AI系統(tǒng)做出人們不希望看到的行為,有時(shí)候甚至?xí)l(fā)危險(xiǎn)。OpenAI跟DeepMind的安全團(tuán)隊(duì)一起協(xié)作開(kāi)發(fā)了一種算法,只需要人類逐步告訴它兩種它推薦的動(dòng)作中哪一種更好,它就可以由此推測(cè)人類的需求進(jìn)行學(xué)習(xí)。

方法介紹

這篇論文中介紹了一種算法,它可以用相對(duì)少量的人類反饋解決現(xiàn)代的強(qiáng)化學(xué)習(xí)問(wèn)題。學(xué)者們以前就研究過(guò)如何使用人類反饋來(lái)建立機(jī)器學(xué)習(xí)系統(tǒng),但這次兩個(gè)團(tuán)隊(duì)合作做了高級(jí)別的解決方案,這樣它也可以用來(lái)完成復(fù)雜得多的任務(wù)。他們的算法用來(lái)自人類評(píng)價(jià)員的900次二選一反饋學(xué)會(huì)了后空翻 —— 一個(gè)看起來(lái)簡(jiǎn)單、很容易評(píng)價(jià),但是很難精確描述的任務(wù)。

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

訓(xùn)練過(guò)程總體是一個(gè)人類、智能體對(duì)目標(biāo)的理解、增強(qiáng)學(xué)習(xí)訓(xùn)練之間的三步反饋循環(huán)。

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

根據(jù)OpenAI跟DeepMind聯(lián)合開(kāi)發(fā)的算法,這個(gè)智能體一開(kāi)始先在環(huán)境中隨機(jī)運(yùn)動(dòng)。然后周期性地把兩段它的動(dòng)作視頻給人類看,人類要分辨兩個(gè)視頻的兩種動(dòng)作里的哪一種更接近它的目標(biāo)——在這個(gè)例子中就是后空翻——然后通過(guò)選擇給出反饋,人工智能就會(huì)根據(jù)反饋尋找能最好地描述人類判斷的獎(jiǎng)勵(lì)函數(shù),這樣逐漸給任務(wù)目標(biāo)建立模型。然后它就會(huì)通過(guò)強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)達(dá)到它自己建立的目標(biāo)。隨著智能體的動(dòng)作有了進(jìn)步,它會(huì)繼續(xù)拿出自己覺(jué)得最不確定的一對(duì)軌跡來(lái)讓人類反饋哪一個(gè)更好,然后讓自己對(duì)任務(wù)目標(biāo)的理解進(jìn)一步完善。

他們的方案展現(xiàn)出了喜人的學(xué)習(xí)效率,像前文所說(shuō),只需要不到1000次二選一的人類反饋就可以學(xué)會(huì)后空翻。人類評(píng)價(jià)員所花的時(shí)間只有不到一個(gè)小時(shí),而在后臺(tái),這個(gè)策略已經(jīng)同步積累了70小時(shí)的總體經(jīng)驗(yàn)(后臺(tái)仿真時(shí)的速度比真實(shí)速度快得多)。接下來(lái)他們會(huì)繼續(xù)研究如何減少人類所需提供的反饋數(shù)量。下面的動(dòng)圖里演示的就是他們的訓(xùn)練過(guò)程(加速版)。

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

游戲環(huán)境中的訓(xùn)練結(jié)果

他們也用模擬機(jī)器人和Atari游戲中的幾個(gè)任務(wù)測(cè)試了他們的方法(而且沒(méi)有讓程序用到環(huán)境本身的反饋函數(shù),具體在Atari中就是不考慮游戲得分)。在多個(gè)測(cè)試環(huán)境里,智能體能通過(guò)人類的反饋學(xué)到優(yōu)秀的表現(xiàn),有時(shí)候甚至比人類表現(xiàn)還好。下面幾張圖就是用他們的方法訓(xùn)練的智能體玩各種Atari游戲的畫(huà)面。每個(gè)畫(huà)面最右側(cè)豎向運(yùn)動(dòng)的小條是一個(gè)指示器,它顯示的是智能體預(yù)測(cè)人類評(píng)價(jià)者對(duì)它當(dāng)前動(dòng)作的認(rèn)可度有多高。這些動(dòng)圖就體現(xiàn)了這些智能體根據(jù)人類的反饋學(xué)到的東西:在Seaquest中知道去水面上補(bǔ)足氧氣(左圖),在打磚塊和彈球中學(xué)到如何得高分(中間兩圖),或者在Enduro中學(xué)到撞車(chē)以后怎么恢復(fù)(右圖)。

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)
Seaquest打磚塊彈球Enduro


值得注意的是,人類提供的反饋可以不用跟環(huán)境正常的獎(jiǎng)勵(lì)函數(shù)一致。比如他們就在Enduro中訓(xùn)練了一個(gè)精確跟其它車(chē)輛保持齊平的智能體,它并不會(huì)像“正常”那樣不斷超過(guò)其它車(chē)輛獲得最高分?jǐn)?shù)。他們還發(fā)現(xiàn),有時(shí)候從人類反饋中學(xué)習(xí)的智能體,比從正常的環(huán)境反饋里進(jìn)行增強(qiáng)學(xué)習(xí)的智能體表現(xiàn)還要好,因?yàn)槿祟悓?duì)獎(jiǎng)勵(lì)的表述要比環(huán)境本來(lái)的獎(jiǎng)勵(lì)更好。

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

待解決的問(wèn)題

人類評(píng)價(jià)員要憑直覺(jué)判斷哪些動(dòng)作看起來(lái)正確,那么算法的表現(xiàn)也就受限于此,如果人類對(duì)任務(wù)沒(méi)有什么深入的理解,那他們提供的反饋能起到的幫助也就很有限。有個(gè)相關(guān)的情況就是,在有一些領(lǐng)域這個(gè)系統(tǒng)最后會(huì)訓(xùn)練出一個(gè)學(xué)會(huì)了欺騙評(píng)價(jià)員的智能體。舉個(gè)例子,一個(gè)機(jī)器人本來(lái)應(yīng)該把物體拿起來(lái),但它把機(jī)械手放到了目標(biāo)物體和觀察者中間,這樣的機(jī)械手就只是看起來(lái)仿佛在抓它一樣,下面這張圖就是這樣。

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

對(duì)這個(gè)問(wèn)題,他們想了一個(gè)改進(jìn)措施是加一些視覺(jué)標(biāo)識(shí)(圖中的白色實(shí)線),這樣人類評(píng)價(jià)員就更容易判斷深度了。不過(guò)更通用的辦法還需要做更多研究。

OpenAI和DeepMind兩個(gè)組織打算在對(duì)AI安全性有長(zhǎng)期影響的方面繼續(xù)進(jìn)行合作。在他們看來(lái),這樣的方法是開(kāi)發(fā)出人類為中心進(jìn)行學(xué)習(xí)的安全AI的又一項(xiàng)進(jìn)步,而且可以對(duì)現(xiàn)有強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)這樣的方法進(jìn)行補(bǔ)充和拓展。

via OpenAI Blog,雷鋒網(wǎng) AI 科技評(píng)論編譯

AI科技評(píng)論招業(yè)界記者啦!

在這里,你可以密切關(guān)注海外會(huì)議的大牛演講;可以采訪國(guó)內(nèi)巨頭實(shí)驗(yàn)室的技術(shù)專家;對(duì)人工智能的動(dòng)態(tài)了如指掌;更能深入剖析AI前沿的技術(shù)與未來(lái)!

如果你:

*對(duì)人工智能有一定的興趣或了解

 * 求知欲強(qiáng),具備強(qiáng)大的學(xué)習(xí)能力

 * 有AI業(yè)界報(bào)道或者媒體經(jīng)驗(yàn)優(yōu)先

簡(jiǎn)歷投遞:

lizongren@leiphone.com

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

你做我評(píng)——OpenAI和DeepMind全新的強(qiáng)化學(xué)習(xí)方法,根據(jù)人類反饋高效學(xué)習(xí)

分享:

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
左云县| 泗阳县| 阳朔县| 临城县| 开江县| 兴和县| 苍南县| 平江县| 华池县| 古交市| 沧州市| 汽车| 伊通| 纳雍县| 肥乡县| 德州市| 丰城市| 开鲁县| 乌拉特中旗| 尼木县| 闻喜县| 天气| 日土县| 资兴市| 会宁县| 康保县| 萨嘎县| 光泽县| 东乌珠穆沁旗| 阳高县| 营山县| 桃江县| 青龙| 洪泽县| 清镇市| 五河县| 明光市| 永泰县| 龙山县| 建始县| 绥芬河市|