第四章 数据采集策略

在进行网络数据采集之前,我们还要进行数据采集策略的制定,如何制定数据采集策略,还要结合目标站点的特征、数据采集需求以自身采集资源预算进行分析。

目标站点特征

  1. 单纯静态页面,反爬弱
  2. 可以获取 json 输出数据
  3. 需要登录才能访问数据
  4. 其他

数据采集需求

  1. 计划采集的数据规模
  2. 数据存储的结构类型
  3. 其他

采集的预算资源

  1. 现有机器的数量与性能
  2. 人力成本
  3. 可获取的资金,技术,人力支持等等

工作(时间、任务)估算

  1. 普通站点,小批量采集
  2. 普通站点,大批量采集
  3. 强反爬网站,小规模采集
  4. 强反爬网站,大规模采集

所以,针对具体问题进行具体分析,特别是大型爬虫项目,合理制定数据采集策略是十分重要的。

results matching ""

    No results matching ""