记住最好的方式是去系统的学习一遍Pytho
,去哪儿学习?Pytho
教程
假设已经熟悉了最基础的Pytho
知识,那么进入第二步:知道网页信息如何呈现?你首先要知道所需要抓取的数据是怎样的呈现的,就像是你要学做一幅画,在开始之前你要知道这幅画是用什么画出来的,铅笔还是水彩笔可能种类是多样的,但是放到网页信息来说这儿只有两种呈现方式:1、HTML(HTML简介)2、JSON(JSON简介)HTML是用来描述网页的一种语言JSON是一种轻量级的数据交换格式
假设你现在知道了数据是由HTML和JSON呈现出来的,那么我们紧接着第三步:数据怎么来?数据当然是从服务器反馈给你的,为什么要反馈给你?因为你发出了请求。
f“Hi,服务器我要这个资源”“正在传输中”“已经收到HTML或者JSON格式的数据”
这个请求是什么请求?要搞清楚这一点你需要了解一下http的基础知识,更加精确来说你需要去了解GET和POST是什么,区别是什么。也许你可以看看这个:浅谈HTTP中Get与Post的区别hyddd博客园
很高兴你使用的是Pytho
,那么你只需要去掌握好快速上手Requests2100文档,requests可以帮你模拟发出GET和POST请求,这真是太棒了。
饭菜已经备好,两菜一汤美味佳肴,下面就是好好享受了。现在我们已经拿到了数据,我们需要在这些错乱的数据中提取我们需要的数据,这时候我们有两个选择。
第一招:万能钥匙Pytho
正则表达式指南,再大再乱的内容,哪怕是大海捞针,只要告诉我这个针的样子我都能从茫茫大海中捞出来,强大的正则表达式是你提取数据的不二之选。
第二招:笑里藏刀BeautifulSoup420文档,或许我们有更好的选择,我们把原始数据和我们想要的数据的样子扔个这个Beautifulsoup,然后让它帮我们去寻找,这也是一个不错的方案,但是论灵活性,第二招还是略逊于第一招。
第三招:双剑合璧最厉害的招式莫过于结合第一招和第二招了,打破天下无敌手。
基础知识我都会,可是我还是写不了一个爬虫啊!客观别急,这还没完。
以下这些项目,你拿来学习学习练练手。
一些教学项目你值得拥有:
03豆瓣电影TOP25004另一种抓取方式
还不够?这儿有很多:
知乎你需要这些:Pytho
3x爬虫学习资料整理如何学习Pytho
爬虫入门篇?知乎专栏知乎Pytho
学习路径及练手项目合集
f(四)Pytho
爬虫进阶
爬虫无非分为这几块:分析目标、下载页面、解析页面、存储内容,其中下载页面不提。
1分析目标所谓分析就是首先你要知道你需要抓取的数据来自哪里?怎么来?普通的网站r