第五章 网络请求库
学习爬虫,最初的操作便是来模拟浏览器向服务器发出一个请求, 可能我们一开始无从下手,不过 Python 的强大之处就是提供了功能齐全的类库来帮助我们完成这些请求,最基础的 HTTP 库有 Urllib、Httplib2、Requests、Treq 等。
比如拿 Urllib 这个库来说,有了它,我们只需要关心请求的链接是什么,需要传的参数是什么以及可选的请求头设置即可,不用深入到底层去了解它到底是怎样来传输和通信的。有了它,两行代码就可以完成一个请求和响应的处理过程,得到网页内容。
接下来,我们开始了解这些库的使用方法。