数据虚拟化有望无疑的信息统一途径

技术已经发展为实现对所有组织范围数据的单一视图的愿景。

保罗·吉林(Pau​​l Gillin)

保罗·吉林(Pau​​l Gillin)2020年6月18日

许多IT部门已经虚拟化了他们的服务器 - 也许他们的存储,网络和台式机。现在,虚拟化他们的数据呢?

努力在数字化转型基础上努力争取以分析为导向的决策的企业正在越来越多地做到这一点。Gartner项目例如,到2020年底,有35%的企业组织将实施数据虚拟化,以替代数据集成。

数据虚拟化并不是一个新概念,但是它在大数据时代获得了新的相关性,以替代艰苦的数据集成过程,根据IT服务公司NTT数据。NTT数据说,组织可以利用它来协调整个业务,甚至在外部网络和社交媒体网站上散布的数据,而没有基础架构开销和创建昂贵数据仓库或庞大数据湖泊的人工成本。

问题是,大多数企业多年来已经建立,获取或以其他方式拥有数十个甚至数百个信息筒仓,从电子表格到操作数据库不等。每个都有自己的结构框架或模式,尽管有些根本没有结构。

“数据孤岛是一个严重的业务问题……因为它们阻止了确保竞争力所必需的合作,”福布斯技术委员会成员沃尔特·斯科特(Walter Scott)。“公司需要一个运营数据层,该数据层是业务流程的核心并支持数据共享。”

没有更多的副本

Nutanix产品营销总监Mike Wronski解释说,数据虚拟化可以创建多个数据源的单一逻辑视图,而无需组织“复制数​​据并将其均匀地化为单个来源”。他说,这减少了IT组织的工作量。虚拟化还可以显着减少提取/转换/负载(ETL)的需求,这是一个费力的过程,需要昂贵的数据科学家的注意。

几乎每个公司的每个级别都有虚拟化的空间,因为没有人只有一个数据库。

数据虚拟化公司ATSCALE首席技术官Matthew Baird

这些是数据虚拟化市场蓬勃发展的原因之一;MRC分层期望到2026年,它将达到83.6亿美元,在此期间以19.5%的年度剪辑增长。某些人也部分推动了增长幻灭Hadoop,分布式处理框架被广泛归功于十年前的大数据热潮。

Wronski解释说,现在可以将来自许多不同来源的数据(包括电子邮件和Twitter对话等非结构化来源)结合到单个存储库或数据湖中进行分析。但是,这样做需要组织将大量数据复制到难以构建,更新和管理的新存储库中。

随着时间的流逝,许多项目因加工和存储成本的上升而损害了复杂性,促使一些观察者标记存储库“数据沼泽”。

复杂性是一个巨大的动力

这种复杂性已成为数据虚拟化的主要驱动力。“您只有三到四个数据库。”马修·贝尔德(Matthew Baird)数据虚拟化公司ATSCALE首席技术官。

“今天,您可能有40个[数据库]”,包括本地和云中的关系,文本,图形,搜索和键值商店。

Baird说,数据虚拟化主要是为了绩效目的而主要是为了联合查询和缓存结果,但仍取决于工程师来指定基础数据结构和来源。今天的手动方法是不切实际的麦肯锡估计缺乏多达190,000名数据科学家和工程师的短缺。

当今跨网络的技术蜘蛛在源中发现数据使用机器学习来解释查询结果并相应地优化架构。贝尔德说:“这是一个自主过程,它了解足够的基础架构来完成数据工程师会做的事情。”“您告诉我们您拥有的东西,我们找出使用它的最佳方法。”

数据虚拟化使查询能够一次跨越许多数据源,同时向用户出现是一个单一的统一资源。Baird说,数据本身永远不会移动,这会减少复杂性,较少的错误和在服务器,存储和带宽上的节省。

绩效股息

虽然似乎增加抽象层会提取性能惩罚,但专家说,这不一定是正确的。就像虚拟机可以比裸机硬件更好地发挥作用一样,数据虚拟化体系结构可以通过更有效地管理数据和查询来改善响应时间。

IBM的queryplex,例如,在基础源数据中并行的处理问题并巩固结果。

IBM Analytics副总裁Daniel Hernandez说:“它没有通过一个节点来汇总所有数据,而是利用计算网络进行查询和分析。”面试带有硅烷。“它分配了工作量。”

数据虚拟化还可以通过使耗时的ETL过程动态来减少资源需求。该软件无需在将数据加载到数据存储之前将数据加载到数据存储之前,而不是将数据加载到数据存储中,而该过程可能需要数周的时间,而是采用手术方法来进行数据移动。

但是,根据沃恩斯基的说法,ETL不仅仅是动态。“它已转变为一个'新过程',能够理解数据源,并且仅根据需求移动数据。旧方法将所有数据作为ETL的一部分移动。”

这就是Alluxio采取的方法。虚拟分布式文件系统的开发人员使用一个全局名称空间以及智能缓存和内存元数据,以在应用级别而不是存储级别上集成数据。数据移动是自动化的,因此只有绝对需要的数据才能转换。

“ ETL成为ELT,”Dipti Borkar在2018年11月至2020年2月之间,他是Alluxio产品管理和营销副总裁。

数据虚拟化是全或全无的命题吗?

贝尔德说:“那是百万美元的问题。”“几乎每个公司的每个级别都有虚拟化的空间,因为没有人只有一个数据库。”

但是,更大的收益来自给所有需要访问数据的人“单个网关,单个目录,一种对策略进行身份验证和应用政策的方法”。

这具有偶然的好处,可以提供统一的观点,即如何在整个企业中使用数据 - 组织可以使用这些信息来更有效地分配其存储和数据资源。

贝尔德说:“了解整个企业需求的网关具有巨大的价值。”“您知道哪些位置在哪些用户查询哪些数据和驱动结果。”

保罗·吉林(Pau​​l Gillin)是一位贡献者。他是Computerworld的前总编辑,也是TechTarget的创始编辑。他是有关社交媒体和在线社区的五本书的作者。在Twitter上找到他@pgillin

©2020 Nutanix,Inc。保留所有权利。有关其他法律信息,请去这里

相关文章

混合云的交互性计算
技术

混合多云互操作性的竞赛

Red Hat的Ron Pacheco解释了客户与Nutanix建立和管理私人和公共IT基础设施应用程序的需求激发了与Nutanix的新合作伙伴关系。

Baidu