全球旧事资料 分类
《电子商务应用》实验报告
项目名称搜索引擎及SEO实验专业班级软件1203学号姓名
实验成绩:批阅教师:
2014年12月26日
1
f实验3《搜索引擎及SEO实验》
实验学时:2
实验地点:二综203实验日期:20141226
一、实验目的研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正
文提取算法、网页去重算法、PageRa
k和MapReduce算法,了解它们的基本实现原理;运用所学SEO技术对网页进行优化。
二、实验内容和方法1研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、
重访策略和并行策略等,了解其实现原理;2研究至少两种中文分词算法,了解其实现原理;3研究至少两种网页正文提取算法,了解其实现原理;4研究至少两种网页去重算法,了解其实现原理;5研究Google的PageRa
k和MapReduce算法,了解它们的实现原理;6使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需
采用如下技术:1网页标题title的优化;2选取合适的关键词并对关键词进行优化;3元标签的优化;4网站结构和URL的优化;5创建robotstxt文件,禁止蜘蛛抓取网站后台页面;6网页内部链接的优化;7Headi
g标签的优化;8图片优化;9网页减肥技术。7使用C、C和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程
序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】
三、实验要求1研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;2研究两种中文分词算法,填写相应的表格,表格必须填写完整;3研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;
2
f4研究两种网页去重算法,填写相应的表格,表格必须填写完整;5研究PageRa
k算法和MapReduce算法,填写相应的表格,表格必须填写完整;6提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;7严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;8使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。
四、实验步骤1通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关
资料r
好听全球资料 返回顶部