人工智能和人類大腦的終極對決在5月23日正式展開,這次的對決的項目還是圍棋,中國作為傳統(tǒng)的圍棋故鄉(xiāng),其實力是毋庸置疑的,下面我們就分析一下人工智能 AlphaGo,感興趣的網友們,趕緊過來看看。
柯潔 vs AlphaGo圍棋對決現場直播下載地址:http://elephantinaurance.com/soft/491072.html
新 AlphaGo 跟老 AlphaGo有什么不同
作為一個從 2014 年發(fā)展至今的圍棋人工智能項目,其實 AlphaGo 在發(fā)展歷程中使用過多個名字,比如最早期亦城圍棋上的 “DeepMind”,又或者是之前在野狐平臺上的 “Master”。那么這次的 “新 AlphaGo” 是否也只是一個新名字?
答案必然是否定的,之前起新名字很可能有保密、個人喜好等原因,但這次新添加的 “新” 字只為了突出一點——這是 “機器自學” 為主的一版 AlphaGo。
這一點判斷的線索,來自于今年初,Master 在網絡上一口氣橫掃 60 名人類棋手的時候。當時 Master 第二次戰(zhàn)勝柯潔之后,棋圣聶衛(wèi)平曾表示:
Master 改變了我們傳統(tǒng)的厚薄理念,顛覆了多年的定式。圍棋遠不像我們想象的那么簡單,還有巨大的空間等著我們人類去挖掘,阿法狗也好,Master 也罷,都是‘圍棋上帝’派來給人類引路的。
著名棋手古力在成為 Master 的第 60 個手下敗將,之后,也在微博發(fā)表了自己的感受:
作為第 60 個勇士,犧牲了。。。經過這幾天的對局,我深深的感受到圍棋的神秘,似乎 Master 給我們打開一道圍棋的神秘之門,不論勝負,人類與人工智能共同探索圍棋世界的大幕即將拉開,新一次的圍棋革命正在進行著。。。
這種表現,與將近一年前的 “老 AlphaGo” 可謂天差地別。想要達成這樣的成績只有一種可能——DeepMind 尋找到了一種機制來擺脫圍棋中的 “人類束縛”。
迷之改進:一舉讓 AlphaGo 成為人類老師
作為一個極其特殊的棋類和任務,圍棋擁有數量極其龐大的可能性,總的局面數量達到 10^172,而可觀測宇宙范圍內的原子數量不過 10^80。這也意味著窮舉絕對不是一條明智的路線。
最終 DeepMind 給出了一套能夠 “模擬” 出人類頂尖高手的方案:深度學習 + 蒙特卡洛搜索樹 + 自我進化。
這一套架構在 DeepMind 發(fā)布在《自然》雜志中的論文中已經有詳細敘述,
(https://www.nature.com/nature/journal/v529/n7587/full/nature16961.html)
如果你對其中的細節(jié)感興趣,推薦閱讀國內人工智能創(chuàng)業(yè)公司彩云 AI 創(chuàng)始人、CEO 袁行遠在知乎上的相應回答。
(https://www.zhihu.com/question/41176911/answer/90118097)
深度學習用以分析人類棋盤,蒙特卡洛搜索樹用來減輕工作量,自我進化用來提升能力。但有限的運算能力還是給 DeepMind 出了一個不小的難題,后者最終想出了一個辦法:只對學習到的人類棋招進行蒙特卡洛搜索樹運算,這恰如人類棋手依賴定式。
定式,又名定石,指的是人類下圍棋長久積累下來的一種經驗,對弈雙方在特定情況下會遵循固定下法。著名棋手吳清源則將簡單描述為 “在角部彼我棋子接觸時最合理的走法”。
這些定式被記載在各式各樣的棋譜當中,成為新手入門必看的書籍。
雖然定式是某種意義上是最合理的走法,但它卻是理想化條件下的產物,想要完整復現定式,意味著雙方都必須抱有同樣的理想化思路。而歷史上并不缺乏不遵守定式,或者用新定式打敗對方的事例。
問題來了,為什么千變萬化的圍棋會出現定式?而且死守定式會輸,不學習定式也會輸。答案只有一個——人類需要定式來減少圍棋上面的變化,這樣進入中盤之后人類才能利用自身能力掌握棋局走向。
湊巧的是,這回我們遇到的是運算能力遠超人類的計算機,讓掌握更多乃至全部圍棋奧秘擁有了一絲可能。
但究竟新 AlphaGo 怎么樣擺脫 “人類束縛”?參考之前 “老 AlphaGo” 的工作方式,排除運算過程中所有人類元素可能是最徹底的方法。但這樣一來就必須找到另外一種減輕運算壓力的策略。目前來看,這個秘密也只能等 DeepMind 方面稍后公開了。