竭诚为您提供优质文档双击可除
课程设计实验报告
篇一课程设计综合实验报告格式
课程设计报告
20XX20XX年度第一学期
名称题目院系班级学号学生姓名指导教师设计周数
成绩日期《软件设计与实践》课程设计计算机系软件设计与实践教学组
20XX年1月14
日
《软件设计与实践》课程设计
任务书
一、目的与要求
1了解网络爬虫的架构和工作原理实现网络爬虫的基本框架
2开发平台采用JDK160eclipse集成开发环境。
f二、主要内容
1了解网络爬虫的构架熟悉网页抓取的整个流程。
2学习宽度优先和深度优先算法实现宽度crawler应用程序的编写、调试和运行。
3学习主题爬行及内容分析技术。
4实现网络爬虫的基本框架。
三、进度计划
四、设计成果要求
1要求按时按量完成所规定的实验内容
2界面设计要求友好、灵活、易操作、通用性强、具有实用性
3基本掌握所采用的开发平台。五、考核方式
平时成绩验收实验报告。
学生姓名于兴隆指导教师王蓝婧20XX年1月2日
一、课程设计的目的与要求1目的
11掌握crawler的工作原理及实现方法12了解爬虫架构
13熟悉网页抓取的整个流程及操作步骤
14掌握宽度优先深度优先算法并实现宽度crawler应用程序的编写、调试和运行15掌握主题爬行及内容分析技术16实现一个最基础的主题爬虫的过程17理解pageRa
k算法并编程验证二、设计正文
网络爬虫研究与应用
f摘要本文通过对网络爬虫研究的逐步展开讨论了
爬虫的相关概念与技术并通过实验设计了简单的基于宽度优先的爬虫和主题式爬虫。最后讨论了pageRa
k算法。关键词网络爬虫爬虫应用pageRa
k算法1引言
随着网络技术的迅速发展万维网已经成为人们获取信息的重要渠道如何高效地提取并利用这些信息成为一个巨大的挑战。现阶段的搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是这些通用性搜索引擎也存在着一定的局限性如
1统一的返回不能满足不同用户的检索需求。
2搜索引擎提高覆盖面的目标与膨胀的网络信息之间
的矛盾日益加深。3搜索引擎大多提供基于关键字的检索难以支持根据语义信息提出的查询。
为了解决上述问题定向抓取相关网页资源的主题爬虫应运而生。主题爬虫是一个自动下载网页的程序它根据既定的抓取目标有选择的访问万维网上的网页与相关的链接获取所需要的信息。与通用爬虫不同主题爬虫并不追求大的覆盖而将目标定为抓取与某一特定主题内容相关的网页为面向主题的用户查询准备数据资源。2网络爬虫
21I
ter
et上的网页关系建模
如下图所示r