作者:探码科技, 原文链接: http://www.tanmer.com/blog/503
数据湖概念的产生,源自企业在面临数据应该以何种方式处理、存储与使用过程中所遇到的问题。在企业生产运作的过程中,每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。
随后数据集市应运而生,应用程序产生的数据存储在一个集中式的数据仓库中,可根据需要导出相关数据传输给企业内需要该数据的部门或个人。然而数据集市只解决了部分问题。剩余问题,包括数据管理、数据所有权与访问控制等都亟须解决,因为企业寻求获得更高的使用有效数据的能力。
而数据湖不但能存储传统类型数据,也能存储任意其他类型数据,并且能在它们之上做进一步的处理与分析,产生最终输出供各类程序消费。因此数据湖就此诞生!
“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”
数据湖的价值
现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。
数据湖促进云计算发展
云计算凭借着低成本、高性能的优势,为企业带来了便捷性与经济性。传统的大数据建设由于其在应对多业务类型弹性计算资源需求以及计算性能和存储容量增幅差异化较大的情况下,既不够灵活,同时性价比也较低。这时利用云化技术与数据湖相结合,将大数据计算部署在云上,把存储资源与计算资源独立开来,能够实现计算和数据各自独立扩展,弹性伸缩。当前数据湖架构已经在公有云上得到了教完美的实现和应用。
数据湖促进人工智能发展
当下人工智能技术在飞速的发展,因此需要强大的数据源作为支撑,这些数据集通常是视频、图片、文本等非结构化数据,来源于多个行业、组织、项目,对这些数据的采集、存储、清洗、转换、特征提取等工作是一个系列复杂、漫长的工程。数据湖则会为人工智能程序提供数据快速收集、治理、分析的平台,同时提供极高的带宽、海量小文件存取、多协议互通、数据共享的能力,可以极大加速数据挖掘、深度学习等过程。
数据湖对组织或企业的发展将会产生巨大的推进作用,如何构建一个适合的数据湖则成了组织或企业管理者需要解决的当务之急!
成都探码科技有限公司是一家应用云计算、大数据和人工智能技术实现数据资产化运营的高新技术企业。我们采用先进的技术,实现数据从采集,处理到应用的全生命周期管理。打造有价值的数据湖,真正做到了将大数据完美的与商务结合起来,聚云化雨,将数据资产化的运作起来!
当数据湖成为重要的活动中心时,跟踪使用情况至关重要,这样才有可能了解哪些数据变得重要。使用数据时,很多事情都是可能的,例如:
探码数据湖能将数据分析信息自动添加到数据目录中。
允许人工策划并支持协作的数据目录。
支持各种存储库以提供和操作数据。
探码数据湖提供对最先进的大数据SQL引擎及其提供的扩展功能的访问。
探码数据湖通过一系列高功率自助服务工具为分析师提供对大数据的直接访问。
探码数据湖应该能够分析数据集的内容和语义,以便找到它们之间的关系。
探码科技,业务覆盖多个行业,致力于大数据产业生态链的构建。优秀的解决方案已成功应用到金融、政府、智能制造、互联网等领域。