爬虫学习文档（python3）

本文是 python3 爬虫文档的开篇，顾名思义，本文档默认使用 python 语言进行讲解。在开始学习之前，你需要掌握 python3 基本语法，以及 linux 基本命令。同时掌握计算机网络基本原理以及常用sql操作将是你学习之中的加分项。如果你还对python基本语法和linux基础命令有所陌生的话，可以先去学习相关内容，再开始本文档的阅读，好了，让我们开始吧。

（1）知识准备

学前必备

python3 基本语法：廖雪峰 python3 教程
linux 基本(初级)命令：慕课网 Linux 教程

补充知识

数据库：mysql,mongo,redis
部署工具：docker
网络知识：tcp/ip
前端：html/css/js 入门

（2）python3 爬虫优点

很多语言都可以写爬虫， java ， python ， node ，甚至 C 等等。但是要考虑到这点，爬虫往往要同时写很多网站，而网站变化了，程序也要及时修改，所以选一个你自己熟悉的，写的快的，修改方便的语言就好了，用 python 写爬虫的大概是： python 写起来比较快！

关于为什么用 python3 写爬虫。简单总结了一下：

1）抓取网页本身的接口

相比与其他静态编程语言，如 java，c#，C++，python 抓取网页文档的接口更简洁；相比其他动态脚本语言，如 perl，shell，python 的urllib包提供了较为完整的访问网页文档的 API。（当然 ruby 也是很好的选择）

此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模 user-agent 的行为构造合适的请求，譬如模拟用户登陆、模拟 session/cookie 的存储和设置。在 python 里都有非常优秀的第三方包帮你搞定，如 requests，aiohttp。

2）网页抓取后的处理

抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoup提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。同时，相对于 python2，python3 对于字符编码的处理更加友好。

其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。Life is short，and I use python !

前言

爬虫学习文档（python3）

（1）知识准备

（2）python3 爬虫优点

results matching ""

No results matching ""