第八章 动态页面爬虫

有时候我们在用 Requests 抓取页面的时候,得到的结果可能和在浏览器中看到的是不一样的,在浏览器中可以看到正常显示的页面数据,但是使用 Requests 得到的结果并没有,这其中的原因是 Requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是页面又经过 JavaScript 处理数据后生成的结果,这些数据的来源有多种,可能是通过 Ajax 加载的,可能是包含在了 HTML 文档中的,也可能是经过 JavaScript 经过特定算法计算后生成的。

随着 Web 网络的不断发展,使用动态页面的网站也越来越多,网页原始 HTML 文档不会包含任何数据,数据通过 JS 控制然后再呈现出来,这样在 Web 开发上可以做到前后端分离,而且降低服务器直接渲染页面带来的压力。

results matching ""

    No results matching ""