数据集成消除“数据孤岛”-释放数据价值

商业智能应用程序可以利用通过数据集成提供的全面信息,从公司的历史和当前数据中获取重要的业务洞察。通过为管理人员和管理人员提供对公司当前运营的深入了解,以及市场面临的机遇和风险,数据集成可以产生直接的底线影响。

随着数据访问方式的多样化,致使了很多数据保留到了不同的系统中,这就导致“信息孤岛”现象的存在。“信息孤岛”是指不同软件间,尤其是不同部门间的数据信息不能共享,造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,严重地阻碍了企业信息化建设的整体进程。为解决这一问题,人们开始关注数据集成研究。

什么是数据集成

数据集成就是将若干个分散的数据源中的数据,集成到一个统一的数据集合中。将互相关联的分布式异构数据源集成到一起,使用户更方便的访问数据源。集成从摄取过程开始,包括清理,ETL映射和转换等步骤。数据集成最终使分析工具能够生成有效,可操作的商业智能提高信息共享利用的效率;实现数据集成的系统称作数据集成系统。(见下图)

数据集成的优势

改善系统的协作和统一

每个部门的员工 - 有时在不同的物理位置 - 越来越需要访问公司的共享和个人项目数据。IT需要一个安全的解决方案,通过所有业务线的自助服务访问来提供数据。此外,几乎每个部门的员工都在生成和改进其他业务所需的数据。数据集成需要协作和统一,以改善整个组织的协作和统一。

节省时间并提高效率

当公司采取措施正确整合其数据时,它会大大减少准备和分析数据所需的时间。统一视图的自动化消除了手动收集数据的需要,员工不再需要在需要运行报告或构建应用程序时从头开始建立连接。此外,使用正确的工具, 而不是手动编写 集成,可以为开发团队返回更多的时间(以及整体资源)。在这些任务中节省的所有时间都可以用于其他更好的用途,更多的时间用于分析和执行,以使组织更具生产力和竞争力。

减少错误

关于公司的数据资源,有很多事要跟上。要手动收集数据,员工必须知道他们可能需要探索的每个位置和帐户 - 并在开始之前安装所有必需的软件 - 以确保他们的数据集完整和准确。如果添加了数据存储库,并且该员工不知道,则他们将拥有不完整的数据集。此外,如果没有同步数据的数据集成解决方案,则必须定期重新报告以应对任何更改。但是,通过自动更新,可以在需要时实时轻松地运行报告。

提供更有价值的数据

数据集成工作实际上可以提高业务数据的价值。随着数据集成到集中式系统中,可以识别质量问题并实施必要的改进,最终产生更准确的数据 - 质量分析的基础。


数据集成常见分类

企业应用程序集成(EAI)。通常简称为应用程序集成,该子类别支持不同应用程序之间的互操作性,是通过使用面向服务的体系结构和行业标准(如电子数据交换)创建的Web或数据服务实现的。企业服务总线是实现EAI功能的常见架构方法。

大数据集成:该技术专注于将数据加载到NoSQL数据库以及Hadoop,Spark和其他大数据平台。NoSQL数据库的每个类别 - 列,键值,图形和文档 - 都有不同的集成接口和集成工具需要适应的用例。通过Hadoop数据集成,流程通常与各种Hadoop分发组件(如Spark,MapReduce,Hadoop分布式文件系统,HBase,Hive,Pig和Sqoop)连接。除了Hadoop之外,像Spark这样的处理引擎也越来越多地被使用,并且需要相应的集成。

企业邮件系统(EMS)。该技术专注于使用XML和JSON等结构化格式在不同应用程序之间提供消息传递。EMS工具提供轻量级集成服务,可以有效地提供来自不同数据源的实时数据更新。

企业信息集成。EII--最初称为数据联合 - 提供了不同数据源的虚拟视图,但具有有限的集成功能。当前这一代称为数据虚拟化软件,为各种来源提供数据抽象和数据服务层,包括结构化,半结构化和非结构化数据。

基于云的集成。也称为集成平台即服务,基于云的集成应用于提供基于云的应用程序和数据库之间的实时互操作性。这些工具部署为云服务,提供EAI和EMS功能。

最终,供应商将各个部分放在一起,开始提供成熟的数据集成套件,提供跨ETL,应用程序集成,基于云的集成,实时集成和数据虚拟化以及数据清理和数据分析工具的混合功能。这些套件可以通过使用Web服务以传统的批处理模式或实时或接近实时的方式支持数据集成过程。它们还可以处理内部部署和云数据以及结构化程度较低的信息,以及结构化事务数据。


数据集成面临的挑战

在单个结构中采用多个数据源并将它们转换为统一的整体对于自身来说是一项技术挑战。随着越来越多的企业构建数据集成解决方案,他们的任务是创建预先构建的流程,以便在需要的地方持续移动数据。虽然这可以在短期内节省时间和成本,但实施可能受到许多障碍的阻碍。

以下是组织在构建集成系统时面临的一些常见挑战:

如何到达终点  - 公司通常从数据集成中了解他们的需求 - 针对特定挑战的解决方案。他们经常没有想到的是到达那里需要的路线。任何实现数据集成的人都必须了解需要收集和分析的数据类型,数据的来源,使用数据的系统,将要进行的分析类型以及数据和报告需要更新的频率。

来自遗留系统的数据  - 集成工作可能需要包括存储在遗留系统中的数据。然而,这些数据往往缺少标记,例如活动的时间和日期,而现代系统通常包括这些标记。

来自更新业务需求的数据 - 如今的新系统正在从各种来源(如视频,工业物联网设备,传感器和云)生成不同类型的数据(如非结构化或实时)。弄清楚如何快速调整数据集成基础设施以满足集成所有这些数据的需求对于您的企业获胜至关重要,但由于数据量,速度,新格式都带来了新的挑战,因此非常困难。

外部数据  - 从外部来源获取的数据可能不会提供与内部来源相同的详细程度,因此很难以相同的严格程度进行检查。此外,与外部供应商签订的合同可能会使整个组织内的数据共享变得困难。

保持联系  - 一旦集成系统启动并运行,任务就不会完成。数据团队有责任使数据集成工作与最佳实践保持一致,以及组织和监管机构的最新要求。


业务整合策略

有几种方法可以集成依赖于业务规模,满足需求和可用资源的数据。

手动数据集成只是一个过程,通过该过程,单个用户通过直接访问接口手动从各种来源收集必要的数据,然后根据需要清理它,并将其组合到一个仓库中。这是非常低效和不一致的,除了最小的数据资源最小的组织之外,几乎没有任何意义。

中间件数据集成是一种集成方法,其中中间件应用程序充当中介,有助于规范化数据并将其带入主数据池。(考虑使用过时连接点的旧电子设备的适配器)。传统应用程序通常不能很好地与其他人一起使用。当数据集成系统无法独立访问其中一个应用程序的数据时,中间件就会发挥作用。

基于应用程序的集成 是一种集成方法,其中软件应用程序定位,检索和集成数据。在集成期间,软件必须使来自不同系统的数据彼此兼容,以便它们可以从一个源传输到另一个源。

统一访问集成是一种数据集成,专注于创建前端,使数据在从不同来源访问时看起来一致。但是,数据保留在原始来源中。使用此方法,可以使用面向对象的数据库管理系统来创建不同数据库之间的一致性外观。

通用存储集成是数据集成中最常用的存储方法。来自原始源的数据副本保存在集成系统中,并进行处理以获得统一视图。这与统一访问相反,后者在源中留下数据。通用存储方法是传统数据仓库解决方案背后的基本原则。