第六章网页数据解析

在上一部分，我们简单讲解了3大网络请求库，但爬虫除了网络解析的功能外，还需要能够从页面提取相关基本信息。

对于网页的节点而言，其不见见可以定义一系列 CSS 属性，而且网页节点还有层次关系，我们可以通过 Xpath 或者 CSS 选择器来定位、选取一个或多个节点，然后在调用相应的方法去获取我们所需的文本。

在 Python 之中，有许许多多的解析库，其中比较优秀的有：BeautifulSoup、LXML、PyQuery 等，就以 LXML 库为例，其完整支持 Xpath 语法，相比于其他语言，比如 Java，LXML 的语法十分适合进行数据的精抽取，是一款强大的解析工具。