5.1 使用 Urllib 网络请求库
在 Python2 中,有 Urllib 和 Urlib2 两个库可以用来实现Request的发送。而在 Python3 中,已经不存在 Urllib2 这个库了,统一为 Urllib,详细内容可以参考其官方文档
我们首先了解一下 Urllib 库,它是 Python 内置的 HTTP 请求库,它包含四个模块:
request,它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。
error ,即异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。
parse ,这是一个工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等等的方法。
robotparser,主要是用来识别网站的 robots.txt 文件,然后判断哪些网站可以爬,哪些网站不可以爬的,其实用的比较少。
在这里重点对前三个模块进行下讲解。