4月6日,德州撲克人機(jī)大戰(zhàn)結(jié)束了首日的賽程,在昨日上午的比賽中,人工智能“冷撲大師”暫時(shí)領(lǐng)先14145記分牌。
該場(chǎng)“人機(jī)大戰(zhàn)”由創(chuàng)新工場(chǎng)CEO暨創(chuàng)新工場(chǎng)人工智能工程院院長(zhǎng)李開(kāi)復(fù)博士發(fā)起, 邀請(qǐng)母校美國(guó)卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)知名的Libratus撲克機(jī)器人主創(chuàng)團(tuán)隊(duì)訪問(wèn)中國(guó),于海南進(jìn)行一場(chǎng)“冷撲大師 VS 中國(guó)龍之隊(duì)—人工智能和頂尖牌手巔峰表演賽”。
這也是亞洲首度舉辦的人工智能與真人對(duì)打的撲克賽事。
冷撲大師是基于卡內(nèi)基梅隆大學(xué)(CMU)Tuomas Sandholm教授和博士生Noam Brown所開(kāi)發(fā)的Libratus無(wú)限德州撲克人工智能系統(tǒng)。今年1月份曾在美國(guó)匹茲堡的比賽中,將四位職業(yè)選手挑落馬下,贏走接近總數(shù)的籌碼。
對(duì)戰(zhàn)方“中國(guó)龍之隊(duì)”則由2016年世界德州撲克大賽WSOP金手鏈冠軍得主杜悅領(lǐng)軍。戰(zhàn)隊(duì)成員中許朝軍、張淮、童舟、朱亞希、王天建均為撲克玩家圈內(nèi)熟知的頂級(jí)高手。其中,杜悅此前是人人網(wǎng)集團(tuán)副總裁,曾在2016年的世界德州撲克大賽WSOP的無(wú)限注德州撲克賽事中獲得冠軍。
比賽于4月6日至10日舉行,為期五天,總共要進(jìn)行36000副手牌的比拼,獲勝一方將獲得200萬(wàn)元獎(jiǎng)金。
首日上半場(chǎng)比賽結(jié)束后,有不少網(wǎng)友反映:冷撲大師并沒(méi)有像AlphaGo對(duì)戰(zhàn)人類(lèi)棋手那樣,呈現(xiàn)壓倒性的優(yōu)勢(shì)。
對(duì)此,李開(kāi)復(fù)回應(yīng)道,冷撲大師幾乎沒(méi)有輸?shù)目赡?。因?yàn)槔鋼浯髱熌艽驍∶绹?guó)冠軍,中國(guó)冠軍雖然很強(qiáng),但還是不如美國(guó)冠軍強(qiáng),所以理論上應(yīng)該是沒(méi)有機(jī)會(huì)的。目前優(yōu)勢(shì)不明顯,和機(jī)器學(xué)習(xí)還沒(méi)打開(kāi)有關(guān)。
另外,從技術(shù)上分析,同圍棋相比,撲克的游戲規(guī)則更像是在處理真實(shí)世界的問(wèn)題。這是一種有關(guān)不確定性的游戲。玩家并不知道對(duì)手手中的牌,也不清楚會(huì)拿到什么牌,這個(gè)過(guò)程中同時(shí)摻雜著各式的詐和招數(shù)。
但Libratus背后并沒(méi)有使用心理戰(zhàn)的機(jī)制,它所依靠的仍然是大量的數(shù)學(xué)。Libratus也沒(méi)有AlphaGo使用的深度學(xué)習(xí)技術(shù),而是依賴于一種比較古典的線性規(guī)劃,一種極其強(qiáng)調(diào)試錯(cuò)的方法。
舉例來(lái)說(shuō),AlphaGo是通過(guò)分析人類(lèi)玩家的3000萬(wàn)棋譜來(lái)學(xué)習(xí)的,Libratus卻是從零開(kāi)始,通過(guò)自己跟自己玩大量的游戲進(jìn)行學(xué)習(xí)。Libratus還利用了博弈論,通過(guò)平衡風(fēng)險(xiǎn)與收益來(lái)決定自己的下一步。
Liberatus使用了美國(guó)匹茲堡的超級(jí)計(jì)算中心來(lái)完成比賽,每做出一個(gè)決策大概需要5到10秒鐘。如同人類(lèi)選手在每場(chǎng)比賽后會(huì)聚在一起商討后續(xù)的計(jì)劃,每個(gè)夜晚,Libratus 也會(huì)使用這臺(tái)超級(jí)計(jì)算機(jī)優(yōu)化策略。
關(guān)于Libratus的商業(yè)計(jì)劃,卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院院長(zhǎng)Andrew Moore表示,他自己最喜歡的商業(yè)應(yīng)用是在企業(yè)交易或者是企業(yè)談判領(lǐng)域,貨物的供需或者貨物的交易,可以用這種AI驅(qū)動(dòng)的商業(yè)談判算法來(lái)進(jìn)行,人們甚至可以通過(guò)AI去摸清談判對(duì)象的底線和談判邏輯。
李開(kāi)復(fù)也表示,當(dāng)前BAT的AI應(yīng)用,主要是以用戶為主,但人工智能最大的應(yīng)用,應(yīng)該是在企業(yè)層面,比如幫保險(xiǎn)公司做到更好的收益和平衡,幫銀行做更好的理財(cái)或者是財(cái)產(chǎn)配置,幫券商做投資或者智能投顧,幫醫(yī)生看片子比人看的更準(zhǔn)等等,這些機(jī)會(huì)特別大。