第四章 数据采集策略
在进行网络数据采集之前,我们还要进行数据采集策略的制定,如何制定数据采集策略,还要结合目标站点的特征、数据采集需求以自身采集资源预算进行分析。
目标站点特征
- 单纯静态页面,反爬弱
- 可以获取 json 输出数据
- 需要登录才能访问数据
- 其他
数据采集需求
- 计划采集的数据规模
- 数据存储的结构类型
- 其他
采集的预算资源
- 现有机器的数量与性能
- 人力成本
- 可获取的资金,技术,人力支持等等
工作(时间、任务)估算
- 普通站点,小批量采集
- 普通站点,大批量采集
- 强反爬网站,小规模采集
- 强反爬网站,大规模采集
所以,针对具体问题进行具体分析,特别是大型爬虫项目,合理制定数据采集策略是十分重要的。
