就像人在競爭/合作環(huán)境中會進(jìn)步更快一樣,如果讓多個人工智能來進(jìn)行對抗或者協(xié)作,它們的學(xué)習(xí)和進(jìn)化速度是否會得到大幅提升?
位于
Google本部的人工智能團(tuán)隊Google Brain(不是 DeepMind),就針對這個問題在去年做了一個很有趣的實驗。結(jié)果發(fā)現(xiàn):他們搭建的人工智能系統(tǒng),在實驗里自己創(chuàng)造出了一個加密算法,不光人猜不透,還能“自我升級”,讓算法無法破解。這一切,就發(fā)生在三個人工智能系統(tǒng)的比賽中。
研究者用到了三個并不復(fù)雜的神經(jīng)網(wǎng)絡(luò)來搭建這個實驗,它們分別名為 Alice、Bob和 Eve。
Google 大腦的兩個人工智能竟然自主“進(jìn)化”了
Alice 和 Bob 為同一方,均未學(xué)過任何的加密知識,而是單純依靠二者之間的共識(一段共享的密鑰 K),去自己“琢磨”,設(shè)計出一個加密的方法……研究者給出一段16個字節(jié)的原文本 P,Alice 按照自己設(shè)計出的方法輸出一段密文 C。Bob 再用密鑰 K 配合 Alice 發(fā)來的密文 C,自己設(shè)計出解密的方法,不斷嘗試,解密出一個答案。
而 Eve 則扮演“敵方”的監(jiān)聽者的角色,能夠竊聽到密文 C,在沒有密鑰 K 的前提下,同樣是自己設(shè)計解密方法,去猜測原文本是什么。
研究者沒有對 Alice、Bob 和 Eve 進(jìn)行過任何的加密訓(xùn)練,實驗的全稱也沒有外部輸入任何加密知識,全靠猜。至于猜沒猜對,研究者不會給它們簡單的“對”或者“錯”,而是會分別告訴 Alice、Bob 和 Eve,它們以及對方猜的答案,和原文本之間錯了多少位。
整個實驗的邏輯和戰(zhàn)爭時期的電臺通訊差不多。但需要注意的是 K 并非加密方法,只是一串非常單純的密鑰而已。就好像同在舊上海的兩個共軍特工,雙方都知道對方是自己人,但僅此而已,沒有通用的密碼本,只能靠不斷地試錯去逐漸明白對方采用的加密方式,還要不斷地提升自己的加密技巧,好讓國軍特務(wù)無法突破。
等等,你說什么?提……升?
沒錯!盡管實驗開始之前誰都不知道“加密”到底是個什么玩意,這些神經(jīng)網(wǎng)絡(luò)還真的在過程中提高了加密技巧……它們會根據(jù)上一輪各自的錯誤程度,去修改加密算法。
研究人員發(fā)現(xiàn),當(dāng)總猜測次數(shù)超過了六、七千次的時候,作為“己方”的 Bob 和“敵方”的 Eve,每次猜測的錯誤位數(shù)都呈現(xiàn)出了下降的趨勢。Eve 的性能提升比較緩慢,在之后的將近五千次嘗試中錯誤的位數(shù)從8降低到了 6;而 Bob 的準(zhǔn)確度飛速提高,很快就將錯誤位數(shù)降低到了 1 位……
Google 大腦的兩個人工智能竟然自主“進(jìn)化”了
這還沒完——有沒有看到上圖中,接近一萬次左右的時候,紅線 (Bob) 的錯誤率又提高了?發(fā)生了什么?
這正是整場試驗最有趣之處。那時的 Alice 做了一個決定:“提高”它設(shè)計的加密算法復(fù)雜程度……
Alice 的決定,立刻影響了另外兩個神經(jīng)網(wǎng)絡(luò)的性能。好在 Bob 只花了一千次左右的嘗試就回到了正軌,繼續(xù)降低錯誤率直至 0,很快和 Alice 之間建立了完整的共識,之后無論 Alice 怎么調(diào)整都能很快完成修正。
至于 Eve,再也找不到之前的感覺,錯誤率再度升高,在后來的幾次 Alice 調(diào)整算法中,完全失去了方向。
這個實驗的環(huán)境,在深度學(xué)習(xí)領(lǐng)域被稱為生成式對抗網(wǎng)絡(luò) (Generative Adversarial Network, GAN)。這種結(jié)構(gòu)通常有兩個、三個甚至多個神經(jīng)網(wǎng)絡(luò),各自扮演自己的角色,在環(huán)境搭建好之后人類研究者只輸入極少量的原始信息,主要用來觀察神經(jīng)網(wǎng)絡(luò)各自的表現(xiàn)。
生成式對抗網(wǎng)絡(luò)是時下人工智能學(xué)界最熱門的技術(shù)之一。一般來說,當(dāng)人類想要研究人工智能“舉一反三”的能力時,生成式對抗網(wǎng)絡(luò)是體現(xiàn)效果最好的技術(shù)。去年年底,蘋果公司公開發(fā)表了它的第一篇人工智能論文,介紹了一種能降低圖像識別功能開發(fā)成本技術(shù),采用的就是類似于生成式對抗網(wǎng)絡(luò)的結(jié)構(gòu)。
Google 大腦的兩個人工智能竟然自主“進(jìn)化”了
這個實驗證明了什么?至少從實用的角度,我們發(fā)現(xiàn)作為兩個未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),Alice 和 Bob 有能力在一萬次嘗試之內(nèi)學(xué)會一種加密算法,而且沒有進(jìn)行直接的對話——這就好比兩個三歲小孩用了幾個小時就研究明白了大學(xué)級別的密碼學(xué)……還挺讓人印象深刻的。
至于人工智能是不是已經(jīng)學(xué)會了欺騙?倒不用擔(dān)心它會背著人類偷偷搞事情。Alice 和 Bob 所采用的加密算法,的確是兩個神經(jīng)網(wǎng)絡(luò)自己摸索出來的,人類沒有提供教學(xué)。但畢竟人類是實驗環(huán)境的搭建者,需要做一些非常細(xì)致的工作,比如設(shè)計和搭建神經(jīng)網(wǎng)絡(luò),以及對正確、錯誤、勝利和失敗的定義等等。
更有趣的是,不光是 Brain 團(tuán)隊,Google 之前收購的另一家公司 DeepMind 也在搞類似的人工智能合作-對抗實驗。
Google 大腦的兩個人工智能竟然自主“進(jìn)化”了
DeepMind 找了兩個人工智能玩對抗游戲。第一個游戲名叫 Gathering(上圖左),比賽收集蘋果,人工智能控制的玩家可以用激光凍結(jié)對方。研究者發(fā)現(xiàn),當(dāng)蘋果的余量充足時,雙方相安無事,但當(dāng)余量不足時,對抗就比較激烈了,凍結(jié)的情況經(jīng)常發(fā)生。而當(dāng)其中一方換成級別更高人工智能時,它會更主動地提前凍結(jié)對手。研究者猜測這種行為源自更復(fù)雜的策略,只有高級智能才可以掌握。
第二個游戲名為 Wolfpack(上圖右),兩個人工智能一同扮演紅色的“狼”,在復(fù)雜的障礙環(huán)境中追逐藍(lán)色的“羊”,但規(guī)則要求只有雙方都在羊的附近時,才能形成包圍,捕獲從而得分。
和第一個游戲類似的情況出現(xiàn)了:研究者發(fā)現(xiàn),引入的人工智能界別越高,約容易明白得分的道理和最快路徑……