Web挖掘这个概念。Web挖掘就是从海量的Web资源当中通过采用数据挖掘的技术能动的得到需要的信息1,11。数据挖掘是有数据库、AI、自然语言等几个方面的汇总2。Web数据挖掘的步骤如下:1)发现资源:任务是在Web当中检索数据;2)信息选取和数据预处理:将已经挑选得到的某些原始数据根据相关技术进行预处理3;3)发现获取概要模式:利用某些特定技术将藏匿在不同的Web当中的概要模式进行提取;4)概要模式分析:确认已经获得的模式并解释。12Web数据挖掘的分类Web数据挖掘的通常分类方法是依据挖掘对象的不相同,分类如下:web的内容挖掘;web的结构挖掘;web的使用挖掘。如图1。121Web的内容挖掘Web的内容挖掘就是针对Web文档,对于那些可以利用原始数据预处理技术处理的海量数据进行处理得到有价值的信息。Web的内容挖掘是对多媒体文档和文本文档来说的。Web的文本数据挖掘,是对Web进行归纳,总结,分析,最终得出结论的412。近年来,业内对多媒体数据挖掘技术也是越来越成熟,越来越深入。
2
f河南师范大学本科毕业论文
Web挖掘
内容挖掘
结构挖掘
使用挖掘
文本挖掘
多媒体挖掘
用户访问模式分析
分析定制Web站点
超链接挖掘
页面结构挖掘
图11挖掘分类
(1)Web的文本数据挖掘Web的文本数据挖掘是把统计学和计算机语言学作为理论基础,从海量的文本数据中提取有用的信息技术513。(2)Web的多媒体数据挖掘对Web当中的图片、视频、音频等多媒体信息进行相关技术分析获得有效的模式信息,企图得知事物之间的相关性,得出结论。文本总结就是用较少的话语来归纳已经提取得到的信息。文本分类就是根据不同的性质或主题将文本分门别类。文本聚类就是将某些具有相同的特征的文本集合起来。关联分析就是找到文档中不同部分的内在的关系。122Web的结构挖掘Web的结构挖掘是在Web结构和链接关系当中寻找到隐含的信息和模式的过程。Web内容的结构不相同的网页之间的链接的关系,还有网页页面里的树形的关系,如HTML、XML,以及文档URL的目录路径结构等等6。利用Web的结构挖掘分析可以更加深入的对Web文档的内容进行分析,从整体的角度审视文档。结构分析可以采用先分解,再变形,最后归纳总结的方法。通过分类技术和聚类技术,获得最为重要的页面,称之为权威页面,目的是能够使得查找信息更加高效。所谓链接关系指的是某些网页当中存在着彼此分享某些内容,相互引用的关系。Web的结构挖掘有很多的应用,r