南京邮电大学通达学院毕业设计论文任务书
题专学班生级姓学
目业名号
基于pytho
的网络爬虫系统的设计与实现软件工程
指导教师签字指导教师职称指导单位高级工程师计算机学院、软件学院
单位负责人签字学院领导签字日期2015年12月30日
1
f题
目
基于pytho
的网络爬虫系统的设计与实现理论研究□工程设计□产品开发■实验研究□课题类别软件■硬件□软硬结合□其他□
课题类型
设计内容:网络爬虫,即WebSpider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找设计内容与技术要求、成果形式网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。本系统运用pytho
语言编写爬虫程序,通过Mysql数据库的安装和使用,完成网络爬虫系统。技术要求:学习了解并熟练掌握pytho
的语法规则和基本使用,对网络爬虫的基础知识进行了一定程度的理解,提高对网页源代码的认知水平,学习用正则表达式来完成匹配查找的工作,了解数据库的用途,学习Mysql数据库的安装和使用,及配合pytho
的工作。成果形式:1完成基于pytho
的网络爬虫系统的设计方案,包括所需获取的信息,以此作为设计爬虫程序的基础;2实施方案,包括用pytho
伪装成浏览器访问所需爬虫的网站,获取网站代码,最后获取相应的网站信息;3完成毕业论文的撰写。
2016182016224开题报告阶段学生在指导教师指导下,完成开题报告。阶段重点:1学生对指导教师下达的课题任务进行学习和理解;设计进度2阅读文献资料,进行初步调研;3根据任务书的任务及文献调研结果,初步拟定执行(实施)方案(含具体进度计划)。2016225201641中期检查阶段:完成基于pytho
的网络爬虫系统的设计方案,并做好相应的中期检查准备工作。阶段重点:1熟悉pytho
语言的开发环境,掌握Mysql数据库操作技术;2运用pytho
语言编程技术实现基于pytho
的网络爬虫系统;3用pytho
伪装成浏览器访问所需爬虫的网站,获取网站代码,最后获取相应的网站
2
f信息;4将所获得的信息存放在txt文本中;5做好中期检查准备。20164112016425技术实现阶段:完成基于pythr