Hadoop创始人Doug Cutting谈未来大数据的技术

Author Tanmer Tanmer
Tanmer · 2024-10-18发布 · 617 次浏览

在Doug Cutting十年前创建Hadoop架构的时候,他从未想过这会为企业界带来如此超大规模的计算。“毫无疑问,我当初预想的情况比我们现在所看到的要...

       Cloudera首席架构师就内存及云计算相关技术发表讨论,Hadoop将如何在大数据方面发挥更大价值。

       在Doug Cutting十年前创建Hadoop架构的时候,他从未想过这会为企业界带来如此超大规模的计算。“毫无疑问,我当初预想的情况比我们现在所看到的要稍微保守一些。“他在近期伦敦的Strata+Hadoop World大会上说。

       在今天,Hadoop被很多家喻户晓的名字使用,它帮助Facebook分析其每月超过16亿的用户流量,帮助VISA发现了数十亿美元的金融欺诈。

       Hadoop的吸引力在于,它使大数据处理更便宜,从某些方面来说,更加简单。这个平台提供了一系列技术,允许大型数据集分布在商业服务器的大型集群中,对数据进行并行处理。

       然而该平台还有一定的局限性。如今,Hadoop集群能处理大型数据集的速度受到二级存储(SSD或更慢的旋转磁盘)与计算机内存及CPU之间的数据传递率的限制。这种输入/输出(I/O)瓶颈的发生,是因为处理器速度和效率的增长要快于存储读写速度。

       内存中的PB数据

       但是现在的存储技术将经历一次重大变革,对此Doug Cutting表示这将有利于释放大数据处理的潜力。

       今年,Intel计划发布其3D XPoint存储芯片,可以比通常用于SSD中的NAND闪存快1000倍的速度来检索数据,同时也能以超过现今常用的内存类型DRAM 十倍的密度存储数据。

       Xpoint将在一开始以Optane品牌SSD的形式提供存储,而Intel也计划推出XPoint内存模块以便跟进。由于Xpoint以比传统DRAM有更高的密度来存储数据,这些模块将会使服务器具备远远大于现今标准的内存空间。Intel将在明年推出Intel Xeon服务器,含6TB内存,由DDR4 DRAM和Xpoint结合组成。也就是说,Xpoint在性能上并不会与DDR4 DRAM相匹配。预发行的Xpoint SSD有七微秒延迟以及78,000读/写IOPS,要慢于DRAM,并且据估计比高性能SSD快不到20倍。

       Doug Cutting预测,尽管如此,Xpoint的使用以及Hadoop集群的其他非挥发性内存将会使Hadoop平台面向更多新的用例,允许用户在内存中处理更大的数据集,这样也可以分流从磁盘获取数据的过程中的延迟。

      “如果内存中有1PB的数据,并且可以从循环中的任一节点访问这些数据,如果是用于各种算法的,这就会是跨越几个级别的性能提升。”Doug Cutting如此说道,他目前是Cloudera的首席架构师,Cloudera提供自有版本的Hadoop,即非常流行的CDH。

      “图像运算等等各种五花八门的迭代机器学习算法、集群等这些在传统上意义上花费了很长时间、非常昂贵的事物,现在都能基于大量的数据快速实现。

      “过大的数据集以及太慢的计算依然存在,但我认为现在已经有了很大的改变。“Doug Cutting补充说道,远程直接管理访问及千兆以太网交换也能减少与网络流量有关的延迟。

       2014年,Intel对Cloudera进行了大约7.4亿美元的投资。作为双方合作的一部分,Intel会告知Cloudera其在研发安排中新的特性和硬件,确保Cloudera的Hadoop版本能够充分利用这些新技术。

       “对于在内存中访问数据架构方面,我们非常努力的令CPU使用达到最小。”Doug Cutting说道,并指出Cloudera尽量防止不必要的操作,这些操作会引起CPU成为内存数据处理的瓶颈。

       Hadoop和云计算

       Doug Cutting也希望简化Hadoop集群在云计算中的部署,让更广泛的人群能够使用Hadoop。在各种云平台上构建Hadoop集群已经成为可能。举例来说,运行CDH(Cloudera的Hadoop发行版),就可以使用Cloudera Director来部署AWS和Google云平台上的虚拟服务器集群。

       然而,Doug Cutting也说到,如何使处理进程变的更为简单,仍然有很多限制需要解决,而Cloudera也在计划改进从AWS S3及其他云存储向Hadoop数据处理引擎中输入数据的支持。

      “我们需要对Hadoop做一些调整,使其能够更好地适应云计算。我们需要重视像亚马逊S3这样的存储,配合HDFS(Hadoop分布式文件系统)来进行输入输出,这样人们就可以动态地部署集群。”他说。

       在云计算环境中,集群更有可能被启动和关闭,Cloudera还要改进缩短启动时间。

       另一个需要解决的问题,在于简化Hadoop在不同云平台之间的迁移,Doug Cutting对现阶段的云平台锁定表示失望。

     “我们应该让人们在云供应商之间能够实现转移,这在我们看来是非常有价值的。现在,如果你开始是在某云平台上开发的应用,那么很快就被锁定在这个云平台上了。”

       Doug Cutting表示,在CDH上,Cloudera正在构建“一个软件层,可以决定工作负载是运行在本地,还是放到亚马逊、谷歌、微软或其他云供应商上”。

       今天,这一功能在某种程度上来说可通过Cloudera Director实现,他说,“这正是我们要继续推进并使其更加无缝”。

       Doug Cutting相信,最终,Hadoop的传承将会扮演重要角色,让大数据成为常态、让开源成为软件的标准选择,让关系型数据库逐渐成为小众市场。

 

       “我们将不会再讨论大数据,而是探讨数据系统。开源架构将不再是新鲜事物,它将成为主流。关系型系统将基本等同于Cobol语言,而成为历史。我们在十年的时间中向前迈出了一大步。“

 

提交反馈

博客 博客

专注数字内容治理,助力数字体验升级

自助服务门户:4大策略提升客户体验

自助服务门户:4大策略提升客户体验

81%的客户在联系人工客服前会先尝试自助解决问题。有效的自助服务门户不仅能降低成本,还可创造收入、统一支持中心、构建用户社区并推动主动响应。企业应基于组织目标与客户需求,制定清晰的自助服务策略。

Author 4-ways-you-can-improve-cx-with-digital-self-service
By Lisa
发布:2026-04-01
词元经济到来,AI 主导世界

词元经济到来,AI 主导世界

在数字化的浩瀚星空中,我们正见证着一场前所未有的范式转移。如果说互联网时代的核心是“连接”,那么人工智能(AI)时代的核心则是“理解”与“重构”。

Author ciyuan
By 巴克励步
发布:2026-03-27
数字体验平台解决的五大IT管理难题

数字体验平台解决的五大IT管理难题

本文探讨了企业如何利用数字体验平台(DXP)解决五大核心IT管理难题:精准客户定位、高效内容管理、降低运营成本、支持远程工作与优化流程、以及打造全渠道体验,助力企业数字化转型。

Author dxp-solves-it-management-problems
By Lisa
发布:2026-03-23
如何计算网页内容管理系统的投资回报率

如何计算网页内容管理系统的投资回报率

本文通俗讲解如何计算网页内容管理系统(WCM)的投资回报率。通过分类任务与资源、对比新旧系统耗时与成本,并结合“软性回报”(如员工满意度),帮您做出客观评估。核心是用实际数据,关注团队增效而非单纯减员,为采购或升级系统提供可靠依据。

Author calculate-wcm-roi-guide
By Lisa
发布:2026-03-20
数字化转型的三大障碍及解决方案

数字化转型的三大障碍及解决方案

本文探讨了企业在数字化转型过程中面临的三大核心挑战:紧迫感缺失、客户价值忽视以及文化变革困难。通过Baklib的实践经验,为企业提供从技术到组织的全方位转型指导,助力实现真正的业务变革。

Author three-hurdles-to-digital-transformation
By Lisa
发布:2026-03-20
客户体验保持一致性的三大关键策略

客户体验保持一致性的三大关键策略

企业面临用户期望高、渠道多的挑战。本文提出移动优先设计、单一平台方法及单一客户视图三大策略,帮助企业整合触点、统一体验,构建连贯的客户旅程,在竞争中脱颖而出。

Author 7b6b
By Lisa
发布:2026-03-10
如何让网站具备数字敏捷性?AI+低代码+多站点管理实战

如何让网站具备数字敏捷性?AI+低代码+多站点管理实战

数字化转型时代,网站僵化将成为业务增长的最大阻碍。本文详解如何通过AI智能、低代码开发、多站点统一管理和头分离架构,让企业网站获得真正的数字敏捷性,快速响应市场变化,提升用户体验与运营效率。

Author digital-agility-website-guide
By Lisa
发布:2026-03-05
Baklib DXP七大优势:简化技术栈,赋能企业数字化转型

Baklib DXP七大优势:简化技术栈,赋能企业数字化转型

本文深入剖析了超过1200家企业选择Baklib DXP的七大核心原因。从简化技术栈、随需应变的演进能力,到多场景解决方案、减轻IT负担,再到高度安全性及灵活的部署方式,全面展示Baklib如何帮助企业构建AI-Ready的数字体验平...

Author 7-reasons-why-our-customers-choose-baklib-dxp
By Lisa
发布:2026-03-04
Baklib|内容中心:企业全渠道增长引擎

Baklib|内容中心:企业全渠道增长引擎

在信息过载与注意力稀缺的时代,内容中心成为企业提升营销效率与品牌一致性的关键基础设施。通过集中管理内容资产、强化治理机制、实现全渠道分发与个性化推荐,企业能够提升协作效率、保障品牌安全,并持续增强用户参与度与转化能力。

Author content-hub-digital-marketing-upgrade
By Lisa
发布:2026-02-27
如何衡量知识库投资回报率(ROI)及其业务影响

如何衡量知识库投资回报率(ROI)及其业务影响

本文结合权威研究数据,解析企业因信息质量与知识孤岛造成的隐性成本,系统拆解知识库ROI的核心衡量指标,包括工单减少、处理效率、可发现性、客户体验与产品采用率,并提供向管理层证明ROI的实用框架,帮助企业将知识库从成本中心转变为可衡量的...

Author measure-knowledge-base-roi
By Lisa
发布:2026-02-24