全球旧事资料 分类
包含以下几个方面:
3
f河南师范大学本科毕业论文
1)对网页的采集有着指导作用:因为链接关系,一个网页可能与其他不同的网页相链接,可以对这些相关联的网页进行质量排序,依据实际需要获得一些有价值的网页。2)网页聚类:当前很多网页的聚类分析是依据文本相似度,但是有些可能会不符合预期目标。此时可以采用Web的结构挖掘分析,利用链接关系进行聚类可能会得到意想不到的结果。3)对社会团体进行识别:在互联网上有许多社会团体构建,运行以及维护的网页,可以对这些社会团体进行识别。4)对资源进行自动分类:日常生活中我们经常使用的搜索引擎基本上都是按照层次来分类的,当前主要有贝叶斯概率方式和SVM方式。有专家曾验证表明,在按照分类的样本的学习机当中采用链接的方式进行分析就能够对分类的细化程度进行提高。123Web的使用挖掘Web使用挖掘就是根据在服务器上的搜索记录进行挖掘,就是对用户访问Web网页时的存取方式进行挖掘,以得到用户有关的访问模式714。使用挖掘即与日志挖掘相同。Web的使用挖掘分析得到互联网使用者的可能的访问模式,如互联网的某些可能访问习惯。根据实际应用不相同,可以分为两种跟踪模式,属于个人的独有的访问模式跟踪以及普通的大众的访问模式跟踪。个性化的访问模式跟踪就是依据个人用户的喜好和特性,构建合适此人的Web站点。一般的访问模式跟踪就是正常根据整理平时网页日志来了解访问模式以及个人倾向,通过采用这些跟踪模式可以很好的了解Web结构以及资源分配者的遍布情况8。Web的使用挖掘可以分为以下几个步骤:采集数据,数据预处理,发现模式,分析模式9。如图:
原始日志
预处理后的数据
各种模式
在意义的模式规则
图12Web使用挖掘基本过程
2Web数据挖掘的主要应用研究方向
4
f河南师范大学本科毕业论文
21智能化搜索引擎进入二十一世纪以来,随着互联网技术的快速发展,网络上的信息量急剧增加,网络信息也是即时更新,网络用户们急切需要符合自己需求的工具,用来快速准确的获取有用的信息,尽量使得检索效率增高。由于现有的搜索引擎,如百度、搜狗,已经能很好的达到搜索信息的目的,所以数据挖掘的工程师们从数据挖掘的角度来提高检索信息的准确度,使得个性化服务更加能够应用到网络互联网使用者的日常生活中。211目前的搜索引擎存在的不足:1逻辑运算符不能满足用户需求目前的搜索引擎诸如百度等,所能够提供的提问函数不能够满足用户的需求,很多的搜r
好听全球资料 返回顶部