全球旧事资料 分类
许多爬虫pytho
的小伙伴因为没有经历过面试所以在找工作之前难免有些抓不住重点,总结以下面试常见问题,为想要转爬虫的小伙伴提供一些参考。一项目问题:
一般面试官的第一个问题八成都是问一下以前做过的项目,所以最好准备两个自己最近写的有些技术含量的项目,当然一定要自己亲手写过的,在别的地方看的源码,就算看的再清楚,总归没有自己敲的了解的多。以下是抽出的几点1你写爬虫的时候都遇到过什么反爬虫措施,你是怎么解决的2用的什么框架,为什么选择这个框架我用的是scrapy框架,所以下面的问题也是针对scrapy
二框架问题(scrapy)可能会根据你说的框架问不同的问题,但是scrapy还是比较多的1scrapy的基本结构(五个部分都是什么,请求发出去的整个流程)2scrapy的去重原理(指纹去重到底是什么原理)3scrapy中间件有几种类,你用过那些中间件,4scrapy中间件再哪里起的作用(面向切面编程)
三代理问题1为什么会用到代理2代理怎么使用(具体代码,请求在什么时候添加的代理)3代理失效了怎么处理
f四验证码处理1登陆验证码处理2爬取速度过快出现的验证码处理3如何用机器识别验证码
五模拟登陆问题1模拟登陆流程2cookie如何处理3如何处理网站传参加密的情况
六分布式1分布式原理2分布式如何判断爬虫已经停止了3分布式去重原理
七数据存储和数据库问题1关系型数据库和非关系型数据库的区别2爬下来数据你会选择什么存储方式,为什么3各种数据库支持的数据类型,和特点,比如:redis如何实现持久化,mo
godb是否支持事物等八pytho
基础问题基础问题非常多,但是因为爬虫性质,还是有些问的比较多的,下面是总结
f1pytho
2和pytho
3的区别,如何实现pytho
2代码迁移到pytho
3环境2pytho
2和pytho
3的编码方式有什么差别(工作中发现编码问题还是挺让人不爽的)3迭代器,生成器,装饰器4pytho
的数据类型
九协议问题爬虫从网页上拿数据肯定需要模拟网络通信的协议1http协议,请求由什么组成,每个字段分别有什么用https和http有什么差距2证书问题3TCPUDP各种相关问题
十数据提取问题1主要使用什么样的结构化数据提取方式,可能会写一两个例子2正则的使用3动态加载的数据如何提取4jso
数据如何提取
十二算法问题这个实在不好总结,比较考验代码功力,大部分会让你写出时间复杂度比较低的算法。小伙伴们要善用pytho
的数据类型,对pytho
的数据结构深入了解。
f以上就是总结内容,欢迎小伙伴们共同探讨。每个公司各有特点,r
好听全球资料 返回顶部