全球旧事资料 分类
,机械的与服务器连接,服务器所反馈回来的页面不能与用户的个性相匹配,信息准确度不高。2)用户可能会漫无目的的浏览服务器反馈回来的海量信息,就是因为深度优先的检索,结果极有可能使得用户迷失自我,脱离预期目标。3由于没有信息过滤机制,查询结果有可能会重复,还会有无关的内容,以及过时的信息。使得互联网使用者浪费时间,搜索引擎的检索效率低。4)不存在能够自动的查找新内容的功能。222智能Web浏览器的关键技术1特征选取特征选取是开发个性化Web浏览器的关键,经常使用的方法有依据某个词语出现的频率来选取特征、依据浏览的的行为特征来选取特征、依据能否增加期望信息来选取特征、依据相互交流的信息量来选取特征。2)用户兴趣模型的学习和更新用户兴趣模型是将互联网使用者所感兴趣的内容的概括。主要使用兴趣相关法、贝叶斯分类器等。3对信息进行过滤以及对文档进行分类利用信息提取技术和模式发现技术达到Web信息过滤的目的,对文档进行分类依据的原则就是用户兴趣,可以对不感兴趣的文档进行屏蔽。
6
f河南师范大学本科毕业论文
3Web的挖掘技术的流程
Web挖掘技术实现的流程如下图3所示,其中各步骤如下:第一步:对目标样本进行确定,选择好关于用户的目标文本,当作用户的特征信息来提取;第二步:对特征信息进行提取,依据目标样本的相关词的分布情况,在统计词典当中找到目标的特征向量,然后计算得到所对应的权值;第三步:获取网络信息,首先利用搜索引擎的站点来选择得到等待采集的站点,然后再利用Robot程序对静态Web页面进行采集,之后得到被访问站点的网络数据库中的动态信息,形成万维网的资源索引数据库;第四步:对信息进行特征匹配,对索引数据库当中的源信息的特征向量进行提取,并且和目标样本当中的特征向量也要进行相关的匹配,最后用户将得到符合闭值条件的结果信息。
目标样本
特征信息提取
模式匹配统计词典
返回结果集合
I
ter
et信息资源
索引集
Robot采集
图31Web信息挖掘流程
4Web数据挖掘技术实现
7
f河南师范大学本科毕业论文
对于Web数据挖掘的实现一般需要以下两类技术10:其一是采用人工智能模型,这种模型主要是根据机器学习来建立的,技术方法有自然法则计算方法、神经网络以及Web所独有的路径分析技术等等。其二是基于统计模型,技术方法有分类、聚类、决策树、关联分析等等。41关联规则对于Web数据挖掘,关联规则就是指用户访问的页面与文件当中所挖掘出来r
好听全球资料 返回顶部