全球旧事资料 分类
选择,目标函数表示的选择,函数近似算法即学习算法的选择),从而确定系统的四个核心模块(行动模块,评价模块,学习模块,知识生成模块)所使用的策略和算法。
1.2.1训练经验的选择
训练经验的类型对学习系统的成败具有重要的影响。训练经验的关键特征有:训练经验对行为模块的选择提供直接的还是间接的反馈。比如在计算机下跳棋系统中,如果例子集由各种棋盘态势及其正确走步组成,这种训练经验就是直接的(因为例子集直接地告诉行为模块遇到什么情况走什么步);如果例子集由各盘比赛的走步序列及其胜负结果组成,这种训练经验就是间接的(因为例子集不能直接地告诉行为模块遇到什么情况走什么步,而只是提供一些间接的下跳棋经验)从直接经验的学习显然要比从间接经验的学习容易,。因为在间接经验的情况下,走步序列中的每一走步的“得分”(即它对比赛最终胜负的影响)需要另作推敲,而且得分的估计有时是十分困难的。学习系统对训练例子序列能够控制到何种程度。比如在计算机下跳棋系统中,可能是由教师决定考虑何种棋盘态势及其正确走步;也可能是由系统提出自己感到困难的棋盘态势并向教师询问其正确走步;还可能是计算机自己跟自己下跳棋,它对棋盘态势及其训练分类有着完全的控制
3
f(它可以试验崭新的棋盘态势以学习新的技术,也可以对它迄今所知的最好棋局略作改变以改进自己的技术)。在本书中我们将考虑各种各样的学习系统。训练经验与最终用来测试系统性能P的那些例子之间的关系。训练例与测试例的分布越相似,学习的结果就越可靠。假如计算机下跳棋学习系统的目的是参加世界锦标赛(即P为该系统将来在世界锦标赛上的胜率),那么用计算机自己跟自己下跳棋的方式进行学习就可能是不够的,因为这时所用的训练例难以代表在世界锦标赛上所遇到的可能棋局。在目前的有关机器学习的书中,人们通常假定训练例与测试例的分布是一致的,这样才能获得一定的理论成果。但是,我们要记住,现实中这两者的分布是有差别的。在下面关于学习系统设计的讨论中,我们以计算机通过自己跟自己下跳棋的方式进行学习的系统作为实例。注意,这意味着没有外部训练者,而系统能够生成足够多的训练数据。
1.2.2目标函数的选择
学习系统的目的是改进在完成某一类任务T时的性能P。我们通常把这一目的转换成对某目标函数的学习。于是,目标函数的选择就成了学习系统设计的一个关键问题。例如,在计算机下跳棋问题里,目标函r
好听全球资料 返回顶部