数可为:ChooseMoveBM其中,为合法棋盘态势集,为合法走步集。BM给定任一棋盘态势m,ChooseMovem给出m下的最佳走步。对于计算机下跳棋问题,显然ChooseMove是一个合适的目标函数。但是,如果训练例是间接的(即给出各盘比赛的走步序列及其胜负结果),ChooseMove的学习将是十分困难的。另一个可能的目标函数可为:VBR其中,B为合法棋盘态势集,R为实数集。给定任一棋盘态势m,Vm给出m的估价值(估价值Vm越高,棋盘态势m越有利)。根据这个估价函数V,不难求出最佳走步。最简单的方法是:对当前棋盘态势m,可生成所有可能的后继态势m1m2…m
,选择具有最大的Vmi值的后继态势mi,达到mi的走步就是最佳走步。若采取向前看几步的策略,可使用人工智能中熟知的过程。于是,机器学习的任务就归结为发现目标函数V的可操作的描述。在许多实际问题里,这是一个十分困难的任务,所以仅要求描述V的一个近似V。因此,学习目标函数的算法通常称为函数近似算法。
4
f1.2.3目标函数的表示的选择
这里所说的目标函数V的表示即它的近似V的表示方法。越是表达力强的方法越能够接近理想的目标函数V,但也就需要越多的训练数据来确定它的值。在计算机下跳棋问题里,我们可用下面的棋盘特性的一个线性组合来表示V:Vbw0w1x1w2x2w3x3w4x4w5x5w6x6这显然是目标函数V的一个可操作的近似描述。其中,x1为棋盘b上黑子的个数x2为棋盘b上红子的个数x3为棋盘b上黑王的个数x4为棋盘b上红王的个数x5为棋盘b上受红方威胁的黑子的个数x6为棋盘b上受黑方威胁的红子的个数w0w1w2w3w4w5w6为待定系数
wii12…6表达棋盘特性xi的相对重要性,w0则是为整个棋盘附加的一个常数。系统的学习任务(由函数近似算法完成)就是通过训练例来设置这些系数。一旦这些系数被确定,对任何棋盘态势b,计算机下跳棋系统很容易计算Vb的值,从而选择最佳走步。当然,真的让该系统参加世界锦标赛,其表现不见得就一定令人满意。影响系统性能的因素有:Vb表示的精密度,函数近似算法(它负责从训练例学习系数wi的值)的质量,以及训练例的数量和质量。实际上,系数wi的值并非是一次性确定的。开始时,不妨按某种策略设定它们的初值,然后在学习过程中不断对它们进行调整和改进。
1.2.4函数近似算法的选择
如果我们采用Vb作为目标函数的近似表达,棋盘态势b就可以表达为元组x1x2x3x4x5x6。假设计算r