机器学习讲义
(2010年春硕士课程试用)
第一章绪论
序机器学习通常被认为是人工智能领域的一个分支,但和人工智能一样,实际上是多学科的融合。为了说明什么是机器学习,我们来看一下“自动”automatio
和“自主”auto
omy这两个概念的区别。在通常的“自动化”系统中,所有的“智能”都是系统设计者预先注入的。当系统放入它的运行环境中去之后,将按照预定的程序进行活动。但是如果设计者对环境的了解是不全面的,系统就有可能陷入无所适从的境地(系统中的知识是由人工编程输入的,知识中的错误也不能自动改正。)。这时“学习”的能力就成为唯一可依靠的解决方法,也是实现机器超过人这个终极智能的唯一手段。具有学习能力的系统称为是“自主的”。学习意味着根据经验改进自身。学习的真谛在于:感知不仅用于当前的行动,而且用于改进以后的行动。学习是系统和环境交互的结果,也来自于系统对自己决策过程的观察。学习的范围极广,从仅仅记住经验,到创造整个的科学理论,所有这些活动都是学习的过程。简而言之,机器学习意味着通过编程使计算机进行学习。比如,让计算机从医疗记录中学到治疗新疾病的最佳方案;使智能房屋根据经验学到基于主人生活习惯的能源消耗优化方案;开发个人软件助手为用户从在线晨报中摘出该用户特别感兴趣的内容;等等。机器学习研究的进展对社会经济的影响将是巨大的,它能使计算机的应用领域大为扩展,并使个人和组织的竟争力提高到新的水平,甚至形成人类全新的生活方式。另外,对机器学习的信息处理算法的研究将导致对人脑学习能力(及其缺陷)的更好的理解。就机器学习研究的现状而言,我们必须承认,目前还不能使计算机具有类似人那样的学习能力。但是,对某些类型的学习任务已经发明了有效的算法,对学习的理论研究也已经开始,人们已经开发出许多计算机程序,它们显示了有效的学习能力,有商业价值的应用系统也已经开始出现。在理论方面,关于观察例的数目,所考虑的假设的数目和学习到的假设的预计误差之间的基本关系的刻画已经取得成果。我们已经获得人类和动物学习的初步模型,开始了解它们与计算机学习算法之间的关系。在应用方面,近十年来的进展尤为迅速。下面是一些突出的应用实例:语音识别:所有最成功的语音识别系统都以某种形式使用了机器学习技术。例如,SPHINX系统学习针对具体讲话人的策略从接受到的语音信号中识别单音和
1
f单词。神经网络学习方法和学习隐藏的Markov模型r