大数据之数据分析&数据挖掘方法

基础平台技术数据处理流程图是以数据处理过程为导向,选择合适的技术架构平台解决方案,最终实现数据处理的整体流程架构。

作为数据处理的最底层数据源,主要是三大类数据:

一类是应用产生数据

主要内容的满足应用需求所需要的数据,作为监察系统所需要的是实时流式数据(交易系统实时数据)和批量块(结算系统批量数据),数据类型的是文件数据和关系型文本数据。此类数据量占总数据只有10%,传统基于小型机的关系型数数据处理系统可以处理此类数据,基于大数据平台技术的实时处理计算系统也可以处理此类数据。

另一类是行为产生数据

主要是应用系统衍生的行为产生的数据,即与监察系统相关的企业行为数据,互联网产生的关联数据等等,数据类型的是XML, html, log, tag...。此类数据量占总数据量是30%,传统基于小型机的关系型数据处理系统可以处理此类数据的一小部分结构化数据;大量半结构化和非结构化数据只能由目前新兴的大数据平台技术进行处理。

最大的一类是机器产生的数据

主要是运行机器时时刻刻产生的大量日志数据(syslog日志数据),互联网网络爬虫爬取大量非结构化文本数据等等。这些数据在以往传统架构的解决方案中,由于数据量巨大都被忽略了,此类数据量占总数据量是60%;目前新兴的大数据平台技术完全可以采集分析处理这些数据,揭示数据背后的关联关系。

基础数据平台主要的数据采集源是关系型数据库的实时交易数据和监察数据,以及其他辅助数据,数据类型主要涵盖了结构化的关系型数据,半结构化的数据和非结构化的文档、图片影像等数据。

三类数据通过统一的数据采集处理平台,进行数据的采集、清洗、预加工等处理后,分别进入传统的关系型数据库架构处理平台和大数据架构计算平台。

进入传统的关系型数据库架构处理平台的数据经过数据仓库的加工处理,通过高性能的小型机处理系统对外提供实时数据处理和历史数据处理,实现统一数据访问接口,满足业务应用需求。

进入大数据架构计算平台的数据完全可以通过实时计算处理平台和历史计算处理平台,实现传统架构下的数据加工处理。并且可以通过ETL数据交换处理平台实现两个平台之间的数据交换,共享数据,充分发挥每个平台的优势,更好的服务上层应用。

大数据技术架构还提供了数据挖掘分析处理平台、复杂网络处理平台和自然语言处理平台,实现对行为数据和机器数据进行全量数据建模分析,分析发现监察风险,充分利用数据,挖掘更深的关系网络。

大数据技术架构提供统一运维管理、服务调度平台,是所有平台统一管理,更好利于平台的管理。

加工处理后的数据通过系统提供统一的数据接口处理层,对外提供数据访问和各类应用访问,最终实现应用系统的方便统一调用每个平台的数据。

报表展示工具

报表展示工具是一个以工作流为核心的、强调面向解决方案而非工具组件的BI套件,整合了多个开源项目,目标是和商业BI相抗衡。它偏向于与业务流程相结合的BI解决方案,侧重于大中型企业应用。它允许商业分析人员或开发人员创建报表,仪表盘,分析模型,商业规则和 BI 流程。

蜀ICP备15035023号-4