研究人員開(kāi)發(fā)出新算法 像訓(xùn)練狗一樣訓(xùn)練機(jī)器人
2018-02-08 20:22:33 來(lái)源:AI行者 熱度:
美國(guó)陸軍研究實(shí)驗(yàn)室(ARL)和德克薩斯大學(xué)(UT)奧斯汀分校的研究人員已經(jīng)開(kāi)發(fā)了新的機(jī)器人或計(jì)算機(jī)程序技術(shù),以學(xué)習(xí)如何通過(guò)與人類指導(dǎo)員進(jìn)行交互來(lái)執(zhí)行任務(wù)。這項(xiàng)研究的結(jié)果于2月2日至7日在路易斯安那州新奧爾良的人工智能促進(jìn)協(xié)會(huì)論壇上公布。
ARL和UT研究人員考慮了一個(gè)特定的情況,即人以評(píng)論的形式提供實(shí)時(shí)反饋。奧斯汀得克薩斯大學(xué)的合作者Peter Stone博士和他的前博士生Brad Knox首先研發(fā)的TAMER,或者通過(guò)評(píng)估強(qiáng)化手動(dòng)培訓(xùn)機(jī)器人人,由ARL/UT團(tuán)隊(duì)開(kāi)發(fā)了一種新的算法叫Deep TAMER。
這是TAMER的擴(kuò)展,采用深度學(xué)習(xí),它的靈感來(lái)源于人類的大腦,讓機(jī)器人可以獲得通過(guò)短時(shí)間觀看視頻來(lái)獲得執(zhí)行任務(wù)的能力。
據(jù)軍方研究員Garrett Warnell博士表示,研究小組認(rèn)為,一個(gè)人通過(guò)觀察和提供評(píng)論(例如,“好工作”或“糟糕的工作”)來(lái)教導(dǎo)機(jī)器人如何做事,就像人類訓(xùn)練狗去變戲法一樣。
Warnell說(shuō),研究人員延伸了這個(gè)領(lǐng)域的早期工作,使這種類型的機(jī)器人或計(jì)算機(jī)程序的培訓(xùn),通過(guò)圖像看世界,這是設(shè)計(jì)可以在現(xiàn)實(shí)世界中運(yùn)行的學(xué)習(xí)代理的重要第一步。
目前人工智能中的許多技術(shù)要求機(jī)器人在較長(zhǎng)的時(shí)間內(nèi)與環(huán)境進(jìn)行交互,以學(xué)習(xí)如何最佳地執(zhí)行任務(wù)。在這個(gè)過(guò)程中,機(jī)器人人可能會(huì)執(zhí)行一些不僅可能是錯(cuò)誤的行為,例如機(jī)器人在墻上跑步,而且可能會(huì)發(fā)生像機(jī)器人跳下懸崖等災(zāi)難性的事故。Warnell表示,來(lái)自人類的幫助將加快機(jī)器人的成長(zhǎng)速度,并幫助他們避免潛在的陷阱。
作為第一步,研究人員展示了Deep TAMER的成功,通過(guò)15分鐘的人為反饋來(lái)訓(xùn)練代理人在Atari保齡球游戲中比人類更好的表現(xiàn),這個(gè)任務(wù)對(duì)于即使是最先進(jìn)的人工智能方法而言也是非常困難的。Deep-TAMER訓(xùn)練的機(jī)器人展示出了過(guò)人的表現(xiàn),甚至優(yōu)于他們的業(yè)余訓(xùn)練師以及專家級(jí)人類Atari玩家。

左:ARL的研究員Garrett Warnell博士,右:德克薩斯大學(xué)(UT)奧斯汀分校教授Peter Stone博士
在未來(lái)一到兩年中,研究人員有興趣探索他們的最新技術(shù)在更廣泛的環(huán)境中的適用性:例如除了Atari Bowling以外的視頻游戲和更多的仿真環(huán)境,為真實(shí)世界中的機(jī)器人找到更好類型的代理和環(huán)境。
Warnell表示,“未來(lái)的軍隊(duì)將由士兵和自主隊(duì)友并肩作戰(zhàn),盡管人類和自主機(jī)器人都可以提前接受培訓(xùn),但他們有可能在完全陌生的新環(huán)境中執(zhí)行搜索、營(yíng)救或監(jiān)視等任務(wù),在這種情況下,人類可以很好地利用訓(xùn)練隨機(jī)應(yīng)變,而現(xiàn)在的人工智能機(jī)器人還做不到。”
Deep TAMER是研究人員設(shè)想的一系列研究的第一步,將使陸軍中更加成功的人類-自主機(jī)器人團(tuán)隊(duì)成為可能。最終,他們需要自主的機(jī)器人人,能夠以各種各樣的形式,如演示、自然語(yǔ)言指導(dǎo)和評(píng)論,快速而安全地從他們的人類隊(duì)友學(xué)習(xí)。美國(guó)陸軍研究實(shí)驗(yàn)室(ARL)和德克薩斯大學(xué)(UT)奧斯汀分校的研究人員已經(jīng)開(kāi)發(fā)了新的機(jī)器人或計(jì)算機(jī)程序技術(shù),以學(xué)習(xí)如何通過(guò)與人類指導(dǎo)員進(jìn)行交互來(lái)執(zhí)行任務(wù)。這項(xiàng)研究的結(jié)果于2月2日至7日在路易斯安那州新奧爾良的人工智能促進(jìn)協(xié)會(huì)論壇上公布。
ARL和UT研究人員考慮了一個(gè)特定的情況,即人以評(píng)論的形式提供實(shí)時(shí)反饋。奧斯汀得克薩斯大學(xué)的合作者Peter Stone博士和他的前博士生Brad Knox首先研發(fā)的TAMER,或者通過(guò)評(píng)估強(qiáng)化手動(dòng)培訓(xùn)機(jī)器人人,由ARL/UT團(tuán)隊(duì)開(kāi)發(fā)了一種新的算法叫Deep TAMER。
這是TAMER的擴(kuò)展,采用深度學(xué)習(xí),它的靈感來(lái)源于人類的大腦,讓機(jī)器人可以獲得通過(guò)短時(shí)間觀看視頻來(lái)獲得執(zhí)行任務(wù)的能力。
據(jù)軍方研究員Garrett Warnell博士表示,研究小組認(rèn)為,一個(gè)人通過(guò)觀察和提供評(píng)論(例如,“好工作”或“糟糕的工作”)來(lái)教導(dǎo)機(jī)器人如何做事,就像人類訓(xùn)練狗去變戲法一樣。
Warnell說(shuō),研究人員延伸了這個(gè)領(lǐng)域的早期工作,使這種類型的機(jī)器人或計(jì)算機(jī)程序的培訓(xùn),通過(guò)圖像看世界,這是設(shè)計(jì)可以在現(xiàn)實(shí)世界中運(yùn)行的學(xué)習(xí)代理的重要第一步。
目前人工智能中的許多技術(shù)要求機(jī)器人在較長(zhǎng)的時(shí)間內(nèi)與環(huán)境進(jìn)行交互,以學(xué)習(xí)如何最佳地執(zhí)行任務(wù)。在這個(gè)過(guò)程中,機(jī)器人人可能會(huì)執(zhí)行一些不僅可能是錯(cuò)誤的行為,例如機(jī)器人在墻上跑步,而且可能會(huì)發(fā)生像機(jī)器人跳下懸崖等災(zāi)難性的事故。Warnell表示,來(lái)自人類的幫助將加快機(jī)器人的成長(zhǎng)速度,并幫助他們避免潛在的陷阱。
作為第一步,研究人員展示了Deep TAMER的成功,通過(guò)15分鐘的人為反饋來(lái)訓(xùn)練代理人在Atari保齡球游戲中比人類更好的表現(xiàn),這個(gè)任務(wù)對(duì)于即使是最先進(jìn)的人工智能方法而言也是非常困難的。Deep-TAMER訓(xùn)練的機(jī)器人展示出了過(guò)人的表現(xiàn),甚至優(yōu)于他們的業(yè)余訓(xùn)練師以及專家級(jí)人類Atari玩家。
左:ARL的研究員Garrett Warnell博士,右:德克薩斯大學(xué)(UT)奧斯汀分校教授Peter Stone博士
在未來(lái)一到兩年中,研究人員有興趣探索他們的最新技術(shù)在更廣泛的環(huán)境中的適用性:例如除了Atari Bowling以外的視頻游戲和更多的仿真環(huán)境,為真實(shí)世界中的機(jī)器人找到更好類型的代理和環(huán)境。
Warnell表示,“未來(lái)的軍隊(duì)將由士兵和自主隊(duì)友并肩作戰(zhàn),盡管人類和自主機(jī)器人都可以提前接受培訓(xùn),但他們有可能在完全陌生的新環(huán)境中執(zhí)行搜索、營(yíng)救或監(jiān)視等任務(wù),在這種情況下,人類可以很好地利用訓(xùn)練隨機(jī)應(yīng)變,而現(xiàn)在的人工智能機(jī)器人還做不到。”
Deep TAMER是研究人員設(shè)想的一系列研究的第一步,將使陸軍中更加成功的人類-自主機(jī)器人團(tuán)隊(duì)成為可能。最終,他們需要自主的機(jī)器人人,能夠以各種各樣的形式,如演示、自然語(yǔ)言指導(dǎo)和評(píng)論,快速而安全地從他們的人類隊(duì)友學(xué)習(xí)。
下一篇:自動(dòng)駕駛警車申請(qǐng)專利 AI交警開(kāi)罰單你怕不怕上一篇:機(jī)器人技術(shù)大規(guī)模應(yīng)用,富士康旗下群創(chuàng)光電今年裁員1萬(wàn)人
責(zé)任編輯:吳禮得
相關(guān)推薦
PC產(chǎn)業(yè)鏈提前爆用工荒 機(jī)器人代替人工已成必然趨勢(shì)
中國(guó)內(nèi)地勞動(dòng)力成本提升問(wèn)題,越來(lái)越成為PC制造環(huán)節(jié)上的制約因素。統(tǒng)計(jì)數(shù)據(jù)顯示,過(guò)去5年,內(nèi)地勞動(dòng)力成本提升了2倍。春節(jié)臨近,PC市場(chǎng)將迎來(lái)一波消費(fèi)高峰。與此同時(shí),由于今年春節(jié)比往年來(lái)得早,很多工人都將提前回家過(guò)年,導(dǎo)致生產(chǎn)線人手不足。為了滿足1~2月份PC市場(chǎng)的消費(fèi)旺季,多家PC代工巨頭紛紛要求零部件供應(yīng)商大幅增加出貨量,以確保1~2月份的PC供應(yīng)。中國(guó)內(nèi)地勞動(dòng)力成本提升問(wèn)題,越來(lái)越成為PC制造環(huán)節(jié)上的制約因素。統(tǒng)計(jì)數(shù)據(jù)顯示,過(guò)去5年,中國(guó)內(nèi)地勞動(dòng)力成本提升了2倍,用自動(dòng)化生產(chǎn)線取代人工從而降低人工成本,正在成為PC代工廠的趨勢(shì)。近期以來(lái),不少PC制造訂單從中國(guó)回流日本,用自動(dòng)化生產(chǎn)線來(lái)應(yīng)對(duì)中