行业人士需要关注2021年在大数据领域即将出现的趋势,例如增强分析和数据虚拟化等实践将产生的影响。
大数据增长的速度令人难以想象。全球数十亿人每天都在产生难以想像的数据量,研究机构对全球数据规模的预测无疑证明了这一点。问题不在于人们是否会在日常工作中使用大数据,而在于何时开始使用它(如果尚未使用的话)。大数据在可预见的未来将会继续快速增长。
在过去的十年中,数据量以惊人的速度增长。随着越来越多的组织处理大量数据并迅速采用物联网技术,数据量将会继续快速增长。
为了调查市场需求并紧跟发展潮流,以下对一些大数据发展趋势进行简要概述,如果人们对大数据的技术和市场感兴趣,则需要密切关注2021年的这些发展趋势。
在了解大数据市场正在不断发展以满足客户需求之后,Gartner公司对2020年的预测结果仍将在2021年出现。
1.增强分析
增强分析功能通过人工智能和机器学习工具及框架扩展了商业智能(BI)工具包。这是从传统的商业智能(BI)中产生的,自助式商业智能(BI)为业务用户提供基于视觉的分析。增强分析是自助式商业智能(BI)的下一个步骤。它将机器学习和人工智能元素集成到组织的数据准备、分析和商业智能(BI)流程中,以提高数据管理性能。
增强分析可以减少与数据准备和清理有关的时间,并且无需数据科学家的帮助就可以为商业人士提供见解。
2.持续智能
持续智能是将实时分析集成到当前业务运营中的过程。
根据Gartner公司的预测,到2022年,超过一半的主要业务系统将基于实时分析做出业务决策。通过将实时分析集成到业务运营中,并处理当前和历史数据,持续智能有助于在新数据到达时增强人为决策。
许多组织仍然只依靠历史数据或过时的数据。这样的组织可能会在快速变化的环境中落后。因此,组织应该不断且即时地了解其数据。这些数据将提高问题的识别和解决以及做出重要决策的速度。
3.数据操作
DataOps在发展方向上类似于DevOps的实践,但针对不同的流程。
与DevOps不同,它通过跨组织的协作实践来实现数据集成和数据质量。DataOps专注于减少数据的端到端循环,从数据摄取、准备和分析开始,到创建图表、报告和见解结束。
DataOps为不熟悉数据流的员工处理数据提供帮助。这使得他们可以更多地关注领域专业知识,而不是关注数据如何在组织中运行。
3.1无服务器的兴起
随着云计算解决方案在市场上的广泛应用,新的趋势和实践不断出现。DataOps实践旨在简化和加速数据流。这就是为什么DataOps工具包包含所谓的“无服务器”实践的原因。这种实施允许组织通过在基于云计算的基础设施中管理数据管道来减少硬件数量,轻松快速地进行扩展,并加快数据流更改。
3.2更进一步:DataOps即服务
实现数据的集成、可靠性和交付需要大量的精力和技能。数据工程师、数据科学家和DevOps工程师需要耗费时间来实施所有DataOps实践。市场上不断推出新产品,而这些产品能够利用组织的数据实施这些实践。
这些产品提供了多种可组合和可扩展的DataOps实践,允许基于组织的数据开发复杂的数据流,还为组织的数据科学部门提供了API。
4.内存中的计算
内存中计算是加快分析速度的另一种方法。
除了实时数据处理外,它还消除了缓慢的数据访问,并将所有处理流完全基于存储在内存中的数据。这使得数据的处理和查询速度比任何其他解决方案要快100倍以上,这有助于组织制定决策并立即采取行动。
5.边缘计算
边缘计算是一种分布式计算框架,可以在数据源附近进行计算。
随着传输到云计算分析解决方案的数据量的增加,原始数据的延迟和可扩展性以及处理速度等问题也随之出现。边缘计算方法允许减少数据生产者和数据处理层之间的延迟,并通过将数据处理管道的部分移近原点(传感器、物联网设备)来减少对云平台的压力。
Gartner公司估计,到2025年,将有75%的数据将在传统数据中心或云平台之外进行处理。
6.数据治理
数据治理是确保组织内信息有效使用的实践和流程的集合。
安全数据泄露法规和GDPR法规的引入迫使组织更加关注数据。像首席数据官(CDO)和首席保护官(CPO)这样的新角色已经开始出现,他们负责根据法规和安全策略管理数据。数据治理不仅涉及安全和法规,还涉及组织使用的数据的可用性、有效性和完整性。
数据量的快速增长以及法规和合规性要求的不断提高是全球数据治理市场大规模增长的原因。
7.数据虚拟化
数据虚拟化集成了不同系统的所有组织数据,管理统一的数据以实现集中的安全和治理,并将其实时提供给业务用户。
当使用不同的数据源时,例如来自数据仓库、云存储或安全SQL数据库的数据,就需要组合或分析来自这些不同数据源的数据,以便基于分析做出见解或业务决策。这与ETL方法不同,ETL方法主要从其他源复制数据。数据虚拟化直接寻址数据源并对其进行分析,而无需在数据仓库中复制数据源。这节省了数据处理存储空间和时间。
8.Spark 将超越Hadoop
市场需求总是不断变化,工具也是如此。在现代数据处理中,越来越多的工程趋势受到大数据基础设施的影响。值得关注的软件趋势之一是向云平台迁移。因此,人们看到数据处理从内部部署数据中心转移到提供数据接收、分析和存储等服务的云平台。
有了这样的转变,并不是所有的工具都能跟上市场发展步伐。例如,大多数Hadoop提供商仍然只支持数据中心基础设施,而Spark这样的框架在数据中心和云平台中都感觉非常舒适。Spark正在不断发展和快速进步,以满足市场需求,为组织提供了采用混合云或多云的更多选择。
结论
根据市场预测,大数据将继续增长。到2025年,全球大数据市场的规模将达到惊人的2500亿美元。
近年来的一些发展趋势(例如增强分析、内存中计算、数据虚拟化和大数据处理框架)仍然具有现实意义,并将对组织的业务发展产生重大影响。例如,内存中计算的速度是其他任何解决方案速度的100多倍。这有助于组织立即做出决策和采取行动。至于有助于节省数据处理存储空间和时间的数据虚拟化,到2022年,将近三分之二的组织将采用这种方法。
新的趋势也在出现。像持续智能、边缘计算和数据操作这样的强大工具可以帮助改进业务并使事情更快地发生。例如,持续智能同时考虑了历史数据和实时数据。这会显著影响组织的决策方式以及决策的效率和速度。到2022年,50%以上的主要业务系统将基于实时分析环境做出业务决策。边缘计算等方法允许在传统数据中心或云平台之外处理数据。据估计,到2025年,组织75%的生成数据将在边缘进行处理。DataOps工具包中的无服务器实践已经使组织减少硬件数量,并方便快捷地进行扩展。将近50%的组织已经或计划在不久的将来使用无服务器架构。