第十章 模拟登录与验证码
网站的登录在我们平时访问知乎,微博,豆瓣等相关站点时,是一件司空见惯的事情,所以,要进行相关站点的数据采集工作,利用程序进行模拟登录就是一件必不可少的事情了。
同时,我们在初次访问一些网站时,服务器并没有存储相关的信息,面对这种情况,网站往往需要我们输入相关的验证码来进行检验。而且,在部分网站检测到爬虫行为时,也往往会强制要求输入验证码,比如搜狗微信搜索,新浪微博,或者是淘宝网(通过强制登录的形式表现)。所以验证码在爬虫工作之中也是必不可少的。
进行验证码的识别,可能需要我们掌握一些机器学习算法,了解计算机视觉的一些原理。但如果从工作效率的角度考虑,对于小规模的爬虫,专门通过机器学习算法进行训练,时间成本可能比较高,而且验证码识别的准确率也较难把握,一般建议通过 OCR 识别或者借助打码平台的力量来进行验证码处理。
在本章中,除了介绍一些经典网站的登录方法,我们还会基于图片验证码的识别进行着重讲解,而关于一些新型验证码,比如九宫格验证码,极验验证码,就不再进行具体讲解。