第六章 网页数据解析

在上一部分,我们简单讲解了3大网络请求库,但爬虫除了网络解析的功能外,还需要能够从页面提取相关基本信息。

对于网页的节点而言,其不见见可以定义一系列 CSS 属性,而且网页节点还有层次关系,我们可以通过 Xpath 或者 CSS 选择器来定位、选取一个或多个节点,然后在调用相应的方法去获取我们所需的文本。

在 Python 之中,有许许多多的解析库,其中比较优秀的有:BeautifulSoup、LXML、PyQuery 等,就以 LXML 库为例,其完整支持 Xpath 语法,相比于其他语言,比如 Java,LXML 的语法十分适合进行数据的精抽取,是一款强大的解析工具。

results matching ""

    No results matching ""