详解探码Dyson大数据采集系统功能

在《定制化大规模网络数据采集的一站式解决方案》一文中,已经介绍过关于Dyson大数据采集平台的工作流程,以及展示了部分的案例实图。本文将详解探码Dyson大数据采集平台的详细功能。

Dyson 网络数据采集系统适用于多源数据采集,可以定制化开发并私有化部署的大规模网络数据采集系统。系统提供从数据采集,爬虫撰写,任务调度,数据清洗合并到数据存储一站式服务,让政府和企业能够快速获取海量的目标数据。

系统整体功能

系统可做公开互联网数据采集、全文检索、操作日志,同时考虑到实施中可能会与多个其他系统数据对接,因此提供数据交换和数据治理的相应功能支持,预留相应API接口。本系统提供丰富的配置选项,可根据实际业务进行灵活调整。

采集系统主要包含了以下功能:

  • 一是采集任务的统筹计划、自动执行、统一管理、执行情况的趋势分析。
  • 二是提供灵活的任务自动化编排引擎,可进行灵活配置,对采集任务进行细粒度管理。
  • 三是提供丰富的接口,保证数据采集的具备高拓展性。
  • 四是提供详细的监管操作日志,对任务执行可追溯。
  • 五是对采集结果进行智能化分析筛查。

功能详细介绍

一、数据采集任务

系统可以执行的任务:

  • 概况:系统支持展示系统用户管理信息、创建任务数、运行任务数、出错任务数以及采集任务运行趋势图,支持自定义采集任务概况展示内容;系统支持根据某个用户来切换相应的任务,直观展示该任务的时间波状图 ; 
  • 采集任务管理:系统具备采集任务组创建、采集任务创建、任务编辑删除、任务查看查询、任务启动停止、任务导入导出等功能;系统支持根据采集任务名称、接口分类、采集任务状态、创建时间 、创建人员等条件搜索相应的数据采集接口;系统支持根据信息更新频次,设置每周、每天或间隔执行 ,也可自定义设置执行时间;系统支持对不同类型事件数据资源进行分类存储和检索。

二、采集规则灵活配置,支持自动化编程采集任务

  • 可根据人员日常操作习惯,设置数据采集规则,如打开网页、点击元素、输入文本、循环、提取数据、鼠标悬浮、判断等;
  • 能够对采集任务进行测试,检查配置是否正确;
  • 支持从页面中提取数据固化到数据库, 可将采集的页面整体生成采集;
  • 通过编程,对获取的数据进行字段格式化、字段合并,支持触发器判断并根据判断结果进行数据存储、数据更新、数据清洗去重。

三、丰富的借口和扩展性

  • 系统支持接口分类管理,集中展示接口类型,调用时间、调用人员、调用结果等信息; 
  • 支持数据接口适配,实现从一个渠道端请求接口数据到服务标准请求数据之间的转换;
  • 提供每个任务采集数 据的查看功能及相应数据的导出功能,可导出为Excel、Json、CSV等格式;
  • 开放数据提供接口,外部系统可通过接口获取本系统数据。

四、详细的监管操作日志

  • 系统支持对数据采集任务的执行情况、信息的采集情况及采集网站的请求情况进行统一的监控; 
  • 能够暴露API 接口,让外部程序可调用日志; 
  • 提供接口服务调用的记录等相关监控数据;
  • 设置邮件接收,可实时接收采集数据出错、汇总报告邮件。

五、采集结果智能分析筛查

  • 对不同渠道数据进行智能去重合并处理;
  • 将网页中的内容同步采集,并提供采集附件等功能。

探码Dyson数据采集系统具有实时的数据采集、海量的存储和计算能力、全流程的采集服务能力,从而打破数据孤岛、打通业务数据与用户行为数据、可视化分析,助力用户实现实时分析、一站式分析,实现企业数据化运营。

蜀ICP备15035023号-4