Data+Ruby数据ETL处理分析

数据ETL即是对不同源、不同类型的数据,通过收集、治理、转换到分享、使用的过程。这里包含数据源、数据集成、数据呈现三部分内容。

探码科技

Skyvia是一个比较值得研究的案例,这个案例简单的描述了数据集成处理的整个生命周期,的ETL执行过程: Connection, Integration, Query, Connect, Backup探码科技

Skyvia的数据集成方式: 从目标数据源,到目标数据源,以导入任务的方式启动,每一次导入可以手动完成或者自动通过Schadule实现自动化。

探码科技

而且支持集成的数据源可以很多类型:

下面通过了解Kiba的使用过程,实现Ruby方式的数据ETL, Kiba lets you define and run such high-quality ETL (Extract-Transform-Load) jobs using Ruby.

Data + Ruby的数据ETL解决方案

探码科技

多源数据集成情况

探码科技

数据导入

探码科技

ETL流程

探码科技

另外,数据的ETL过程可以集成机器学习,使数据处理更加智能化,机器学习一张图:

探码科技

蜀ICP备15035023号-4