第十章模拟登录与验证码

网站的登录在我们平时访问知乎，微博，豆瓣等相关站点时，是一件司空见惯的事情，所以，要进行相关站点的数据采集工作，利用程序进行模拟登录就是一件必不可少的事情了。

同时，我们在初次访问一些网站时，服务器并没有存储相关的信息，面对这种情况，网站往往需要我们输入相关的验证码来进行检验。而且，在部分网站检测到爬虫行为时，也往往会强制要求输入验证码，比如搜狗微信搜索，新浪微博，或者是淘宝网(通过强制登录的形式表现)。所以验证码在爬虫工作之中也是必不可少的。

进行验证码的识别，可能需要我们掌握一些机器学习算法，了解计算机视觉的一些原理。但如果从工作效率的角度考虑，对于小规模的爬虫，专门通过机器学习算法进行训练，时间成本可能比较高，而且验证码识别的准确率也较难把握，一般建议通过 OCR 识别或者借助打码平台的力量来进行验证码处理。