简析大数据发展趋势及Datale大数据平台与技术展示

大数据是信息时代技术创新的产物,大数据与云计算、物联网等新技术相结合,正日益深刻地改变着人们的生产生活方式。大数据产业的出现和发展是现代信息技术与互联网时代海量信息发展到一定阶段的必然结果,必将对当今社会的信息技术、商业模式和相关的法律法规产生深刻影响。大数据经历了基础理论研究和产业应用探索,与行业应用结合已成为大数据发展的新机遇。

大数据技术发展趋势

混合数据存储是大数据技术的基础

在大数据环境下,数据量达到了PB级甚至EB级。大数据存储一方面需要提供超大容量的存储空间,另一方面需要支持对海量数据的智能检索和分析。为了兼容各种类型的大数据应用,大数据存储需要提供混合的数据存储模型,支持文件、对象、键值、块等多种访问接口,作为大数据技术的基础。

            

融合数据库架构是大数据发展的趋势

随着大数据业务的发展,除了面向强关系型的结构化查询语言(SQL)数据库之外,面向各类应用的接口灵活、功能丰富且高效的NoSQL数据库也得到了蓬勃发展。在应用类型多样、数据种类繁多的大数据平台中,融合关系型数据库、列数据库、内存数据库、图数据库等多种数据库的混合数据库架构,能够满足多种场景下的数据处理需求,是大数据发展的必然趋势。

异构数据关联是大数据平台的关键

当前,各行业、企业、系统、平台都累积了海量的数据,这些数据结构不同且相对独立,在没有建立起关联关系的情况下,难以展现出数据的优势。将这些多源异构数据进行关联和融合,挖掘数据之间的相关性,能够为数据分析奠定坚实的基础,最大限度地发挥数据价值,是大数据平台的关键所在。

行业知识库是产业互联网发展的要素

随着“互联网+ ”战略的实施,各产业尤其是传统产业,纷纷进行互联网化转型。在“互联网+ ”的浪潮下,面向多个行业,深挖行业知识详情,构建行业知识库,形成完整的行业知识体系,能有效推动数据应用与价值落地,是产业互联网发展的关键。

深度标签是大数据挖掘的核心技术之一

数据挖掘越来越多地应用到各个行业应用领域,使用数据挖掘技术而打造用户深度标签,已经逐渐成为大数据挖掘的热点。通过针对大数据场景的数据挖掘,深入分析用户行为,打造多层次、多角度的用户深度标签。深度标签是大数据挖掘的核心技术之一,它使得大数据应用更加精准,业务能够更加贴近用户,更好地满足用户的需求。

Datale大数据平台

Datale大数据行业应用平台总体架构

            

Datale大数据行业应用平台简介

Datale大数据应用平台是一款基于Hadoop开源计算框架,集成了Apache社区几十个成熟的Hadoop子项目,整合了数据ETL和流程管理功能模块,融合了十几个可直接调用的应用模版而最终形成的面对大数据进行存储、计算、查询、挖掘四大应用方向的基础平台产品。面对各行业用户的大数据应用场景提供了稳定、高效、安全、低成本、可扩展、易使用、快速部署、便于维护的整体解决方案。产品完全兼容各种x86架构的硬件服务器和所有主流Linux操作系统,可以无缝对接上层多种主流应用产品,如SAS、Pentaho、Talend、Tableau、R Studio等先进的商业智能和数据挖掘工具。

Datale大数据行业应用平台所应用到的技术

混合数据库

在大数据库中,存在多种数据库,如融合关系型数据库、列数据库、内存数据库、图数据库。在众多数据库中,需要提出面向不同存储过程和计算需求的混合数据库模型,这样可以满足多种场景下的数据处理需求,解决单一数据库模型无法满足大规模数据训练、高频高实时性计算、网状结构计算等不同场景下的数据处理问题。

           

       海量数据计算使用非关系型数据库(NoSQL)来支持;网状结构数据的机器学习训练依靠图数据库(Neo4j)来支持;高频高实时性计算对接内存数据库    (Redis);小规模顶层数据查询与展现对接关系型数据库(SQL)。

用户深度标签

       根据用户上网行为、使用机器学习和模式识别等算法,如树状增强型朴素贝叶斯(TAN)分类算法等,推断用户的性别、年龄等基础人口属性,并打造消费偏好、消费能力等其他深度标签,用于支持用户行为分析的大数据应用。

分布式数据采集

       基于分布式爬虫进行数据采集。爬虫DTSpider基于开源技术 WebMagic与内存数据库技术Redis而研发,搭建在云主机上,提供行业知识库数据采集解决方案。

             

面向垂直行业构建的知识体系。

行业知识库面向如电商、新闻、影视等不同的垂直行业,分别构建树状知识体系,能够直接对接标签能力应用。例如,电商行业的树状知识体系,可按照商品类别进行构建,如图书、服饰、运动健康等。

           

统一数据采集与存储

面向互联网公开数据和企业自有数据等多种数据类型,分别构建数据采集能力,并定义了统一的数据采集接口与存储接口,解决了多源异构数据的采集与存储的相关问题。

在基层分局进行一次采集与清洗,在业务平台进行二次采集与存储。经过规则匹配预处理,从DPI中抽离并编码得到业务所需的数据,以标签形式传输(二次采集)并入库至业务平台,提供给PaaS层的生成数据能力,最终对接软件即服务(SaaS)层的数据应用。

            

       

大数据的二次采集采用实时或离线模式。实时流处理模式是通过 K-V 查询接口,以流处理模式,逐条传输、ETL、融合并入库至业务平台。离线批处理模式是通过安全文件传送协议(SFTP)传输接口,将数据离线批量采集至业务平台缓存中,再进行批量抽取、加载、转换(ETL)、融合并入库至业务平台。

作为快速发展的新兴产业,大数据已经上升到国家战略层面,成为整个社会最有价值的资产。大数据已经渗透到各个行业领域,其行业应用具有广阔的发展空间。
 

蜀ICP备15035023号-4