冰河。
是一款關於圍棋的人工智能程序。
而這款人工智能為了應對圍棋的複雜性,結合了監督學習和強化學習的優勢。
它通過訓練形成一個策略網絡,將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分布。
然後,訓練出一個價值網絡對自我對弈進行預測,以 -1(對手的絕對勝利)到1(冰河的絕對勝利)的標準,預測所有可行落子位置的結果。
這兩個網絡自身都十分強大,而冰河圍棋將這兩種網絡整合進基於概率的蒙特卡羅樹搜索中,實現了它真正的優勢。
在獲取棋局信息後,冰河圍棋會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。
在分配的搜索時間結束時,模擬過程中被係統最頻繁考察的位置將成為冰河圍棋的最終選擇。
在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,冰河圍棋的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。
而冰河人工智能係統,主要由幾個部分組成:
一、策略網絡(Policy Network),給定當前局麵,預測並采樣下一步的走棋;
首發域名m.xsbiquge。la
二、快速走子(Fast rollout),目標和策略網絡一樣,但在適當犧牲走棋質量的條件下,速度要比策略網絡快1000倍;
三、價值網絡(Value Network),給定當前局麵,估計是白勝概率大還是黑勝概率大;
四、蒙特卡洛樹搜索(Monte Carlo Tree Search),把以上這四個部分連起來,形成一個完整的係統。
第一大腦:落子選擇器(move-picker)。
第二大腦:棋局評估器(posit
本章尚未完結,請點擊下一頁繼續閱讀---->>>