作者:探码科技, 原文链接: http://www.tanmer.com/dyson/651
面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要 了。如果采用原始的手工收集处理方式,费时费力且毫无效率,面对越来越多的信息资源,工作强度和难度可想而知。因此,政府和企业都需要一种能够提供高质量和高效运作的信息采集解决方案。
Dyson 网络数据采集系统针对不同行业用户的需求,适用于多源数据采集,定制化开发并私有化部署的大规模网络数据采集系统。提供从数据采集,爬虫撰写,任务调度,数据清洗合并到数据存储一站式服务,让政府和企业能够快速获取海量的目标数据。
Dyson 网络数据采集系统整个部署后工作流程如下:
通过对既有数据源进行分类整理、栏目划分、字段拆解,形成一个完整的数据源分析报告,以及对采集到的信息数据进行智能分析最终通过数据源的分析,发现数据之间的关系、规律和取值范围,为数据采用任务做准备。
采用Docker微服务模式挂载每个采集爬虫程序,通过实时任务调度系统对微服务进行任务调度,实时数据采集,实时错误监控。
编写数据清洗正则,对多源异构数据进行清洗和合并操作,将采集的数据打包导出或者API形式对接到业务平台。
可视化展示采集任务的实时数据。
采集页面栏目的增加、删除、修改以及栏目数据源查看。
爬虫任务可增加、删除、修改;同时可以手工启动或停止爬虫程序,设置每个爬虫程序的定时启动、停止时间。