1、数据挖掘:(定义)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。(功能)概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。(典型数据挖掘系统组成)数据库,数据仓库或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;图形用户界面。(步骤)(1)数据清理:消除重复的、不完全的、违反语义约束的数据(2)数据集成:多种数据源可以组合在一起(3)数据选择:从数据库中检索与分析任务相关的数据(4)数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作(5)数据挖掘:使用智能方法提取数据模式(6)模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式(7)知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识(前4个是数据预处理步骤)
2、据预处理:(原因)原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。(内容)a数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。b数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。c数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。d数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。(数据清理基本内容)1尽可能赋予属性名和属性值明确的含义;2统一多数据源的属性值编码;3去除无用的惟一属性或键值如自动增长的id;4去除重复属性在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的5去除可忽略字段大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果6合理选择关联字段对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额7去掉数据中的噪音、填充空值、丢失值和处理不一致数据。(处理空缺值方法)忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用r