【Pytho
爬虫学习笔记(3)】BeautifulSoup库相关知识点总结
1BeautifulSoup简介
BeautifulSoup是将数据从
HTML和XML文件中解析出来的一个pytho
库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减少爬虫程序的运行时间。BeautifulSoup自动将输入文
档转换为U
icode编码,输出文档转换为utf8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,BeautifulSoup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。BeautifulSoup已成
为和lxml、html6lib一样出色的pytho
解释器,为用户灵活地提供不同的解析策略或强劲的速度。2BeautifulSoup安装利用pip可以迅速安装,目前最新版本为安装后,
BeautifulSoup4。1pipi
stallbeautifulsoup4
import一下bs4就可以使用了。1frombs4importBeautifulSoup3创建BeautifulSoup对象测试文件来进行之后的总结。1html