破解 AlphaGo 的关键信息出现了~

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3626 天前的主题，其中的信息可能已经有所发展或是发生改变。

著作权归作者所有。
商业转载请联系作者获得授权，非商业转载请注明出处。
作者： Heinrich
链接： http://zhuanlan.zhihu.com/wille/20639779
来源：知乎

第二部分李世乭最后的机会

目前看来李世乭的棋力的确在 AlphaGo 以下，但是有一点是我今天想到的。在训练 AlphaGo 的数据中，平均一盘棋要下 200 手左右。然而围棋棋盘有 361 个点，也就是说：所有的训练数据都不包含大家硬着头皮把棋盘下满的情况！在我自己的模型中，当 CNN 硬着头皮下到 200 手左右的时候已经开始犯弱智的错误了，诸如把自己的眼添死，或者在双活情况下自杀。因为在训练数据中根本不存在这样的情况。不知道 AlphaGo 能否避免这样的情况，因为如果我的预测是对的，那么到了最后，还能支撑 AlphaGo 下棋的就只剩下蒙特卡洛搜索了。因为状态评估网络应该也没有在大于 200 目地情况下训练的可能。也就是说过了 200 目， AlphaGo 就回到了 GnuGo 的 6-8 段水平了。凭李世乭的水平也许还有一拼

我怎么觉得很有道理啊。。。。搬砖狗表示平时没玩过机器学习，分词还是玩过的。语料库大小是硬伤啊。

恰好，我又找到另外一个关键信息：

https://www.reddit.com/r/baduk/comments/4a2ay4/

Apparently, the KGS games were used as a dataset for AlphaGo before playing Fan Hui, but those games were erased before the games against Lee Sedol. Instead, Tygem games (with professional players' games included) were used to populate its database so it could "learn" for the Lee Sedol match. Kim noted, "If KGS games were good enough for AlphaGo to defeat Fan Hui 2p, then having the Tygem games (with the professional players playing Go) would make AlphaGo much stronger."

那么，计算 KGS 棋谱的平均长度就差不多可以估量 AlphaGo 的 dataset 大小了。

有人会反驳到后期会暴力破解。我也没算过，觉得是扯谈的。就算国际象棋，现在暴力破解也就最多 12 步棋。李世石只需要坚持到 250 手（手动滑稽）说不定还真能忽悠住 alphago 。

我先喷为敬。

alphago

李世乭

破解

棋盘

14 条回复 • 2016-03-13 11:48:52 +08:00

yangff

2016 年 3 月 12 日 via Android

局部不会有那么多空的，你见过下了 250 手还留着连在一起 51 个洞的围棋吗

est

2016 年 3 月 12 日

@yangff 刚补充了一个 KGS 和弈城的信息。请看看。

yangff

2016 年 3 月 12 日 via Android

还有，按照知乎上那位 df 的作者分析的， ago 后期局面本身主要是靠随机走子做胜负判断， cnn 在里面发挥的作用主要就是选取可能的落子点集合，考虑到总的可落子位置，基本就是躺着搜索了。。。

yangff

2016 年 3 月 13 日 via Android

这么说吧， 250 手这种程度，你用最垃圾的蒙特卡罗搜索树的围棋 ai ，都几乎不可能犯错的。

est

2016 年 3 月 13 日

@yangff 好吧。看来末盘调戏狗狗也不大走得通了。不过我希望李世石能走一次玩玩。反正躺着也是死。

est

2016 年 3 月 13 日

@yangff 反正不懂就问， 250 手一般都是读秒了， CNN 和 MCTS 会不会卡顿超时啊。。。也是个可用的弱点貌似。 AlphaGo 打败樊麾 5:0 ，走快棋 3:2 呢。

btw 再问问走快棋是不是就是所谓的 fast rollout ？

fripSide

2016 年 3 月 13 日

250 手以后的剩下几个位置可以下了？枚举都行吧，何况还有 MCTS

yangff

2016 年 3 月 13 日

@est 搜索树那边就不说了吧。
总之 ago 试图判断某个位置好不好的时候，就尝试在搜索树上移动到这个位置（这个可能之前就计算过了），然后一直在搜索树上走直到走到叶子，然后在这个地方（可能展开），用快速落子把棋下完（随机落子、和 fast rollout 把局面下完）和价值网络判断。

所以剩余位置少的时候，即便 policy 网络预测的精度下降， ago 也有足够的机会多计算几步。。

policy network 跑一次 3ms （ gpu ）， fast rollout 一次 2us （ gpu ，精度 24%），局面评估什么的论文里没说时间，他以用 1k 多个 cpu 核心…… 读秒 1 分钟……

写的比较仓促，不保证完全正确…… 你可以去看看论文或者这个 http://zhuanlan.zhihu.com/yuandong/20607684

est

2016 年 3 月 13 日

@yangff 你说得对。

找到一个第三局的图