数据库行业深度报告:企业数字化支撑,大数据时代基石

(报告出品方/作者:中信证券,梁程加、陈俊云、许英博)

核心观点

“数据爆发+复杂度提升”是行业底层驱动力。5G 时代数据传输速率和可靠性 大幅提升,催生更多数据密集型应用,数据产生量与数据流量高速增长。IDC 和 Ovum 预计 2024 年全球数据总量和流量将分别保持 4 年 CAGR 28.1%和 27.6%的强劲增速。此外,数据复杂度仍在不断提升,非结构化数据占比超过 80%,人工智能和深度学习催生对海量非结构数据分析需求。存储之后,赋能 应用之前,数据必须经过数据库管理系统才能够进行调用、处理和分析,才能 让数据资产化并赋能企业发展。因此,数据爆发+复杂度提升将成为数据库市场 长期增长的驱动力。

云化趋势明确,云数据库引领全球数据库市场增长。数据库经历从一体机到分 布式数据库再到云数据库的技术变迁。云数据库实现了存储和计算完全解耦, 在提供近乎无限延展性和高弹性的同时保障数据一致性,并支持半结构、非结 构化数据处理。云数据库平台作为服务整体交付,节约了用户管理基础架构所 需的成本、时间和资源。2020 年, IDC 预计全球 DBMS 市场规模受疫情冲击 小幅降至 487 亿美元,但云数据库仍然保持 11.6%增速。IDC 预测 2024 年全 球数据库市场规模将稳步增长至 739 亿美元,其中云数据库市场规模达 404 亿 美元,4 年 CAGR 27.3%。Gartner 预测 2024 年云数据库占比将提升至 75%。 云化趋势下,云厂商市场份额快速提升,2018 年 AWS 云数据库收入超过其他 所有厂商云数据库收入之和。Oracle、IBM 等传统厂商数据库市场份额持续下 滑。

云数据库和国产替代双重驱动中国数据库市场增长提速,国产数据库厂商三方 竞逐,格局未定。2020 年,在云数据库和国产替代双重驱动下,我们预计中国 数据库市场规模达 200 亿元,同比增长 22%且近年来增速不断提高。随着国产 化替代的推进,传统海外巨头份额不断缩小。国内竞争格局:阿里、腾讯占据 云生态,但银行、金融、电信等国产替代重点领域客户对数据安全性要求极高, 公有云厂商优势被削弱。银行金融领域竞争激烈,中兴 GoldenDB 完成国内第 一例银行总行和信用卡核心系统完全替代。互联网领域,云厂商和新兴数据库 厂商案例数量较多,优势明显。政府领域,华为卡位政务云,传统厂商信创发 力。电信领域,万里开源等五家厂商中标中移动 OLTP 数据库联合开发项目。 国内市场三方竞逐,格局未定。

国产替代三个核心问题:1)数据库技术差距多大:作为底层软件,数据库技术难度高于操作系统,是美对华“卡脖子”技术之一。根据我们对数据库顶级学 术会议 VLDB 2020 年论文的分析,中国已在数据库技术前沿研究领域追赶上美 国,但产品落地需要不断迭代以提高成熟度和可靠性。随着国产替代进程的加 快,重点领域企业已和数据库厂商合作研发,国产数据库产品迭代开始加速, 未来可期。2)国产替代进展如何:目前处于争夺标杆案例、迭代产品以提高成 熟度和可靠性阶段。银行、金融、电信、互联网领域国产替代进程最快。3)未 来重点在哪:合作伙伴生态建设是国产数据厂商未来战略重点。生态伙伴赋能 企业在快速实现业务扩张的同时最大程度减少成本增长,使得企业能将有限的 人员和资金投入到核心技术和产品研发上。Oracle 通过 OPN 计划建设合作伙伴 生态,其中国区 90%以上收入来自 2000 多个合作伙伴,而国产数据库厂商生 态建设与 Oracle 相比仍然有较大差距。

市场规模和空间测算:基于中国爆发式增长的数据量与较小数据库市场规模错 配现象不断修正的逻辑,我们预计中国到 2024 年数据库市场规模将达到 533 亿元,4 年 CAGR 为 27.7%,占全球数据库市场比重提升至 11%。

美股数据库公司估值启示:美股市场倾向给予更符合行业演进趋势、持续获得 市场份额的数据库厂商以更高估值水平。NoSQL 引领者 MongoDB ,20E PS 为 37x,云数仓领导者 Snowfalke 的 PS 水平更是达到 139x;而份额持续下滑 的 Cloudera、Teradata 的 PS 则分别为 5x 和 1.3x,估值分化趋势明显。回归 企业价值本质,营收增速、盈利能力是决定市场对于数据库企业估值水平的主 要因素,高速成长的公司估值受营收增速驱动,而平稳增长的公司受盈利能力 改善驱动更明显。

数据库管理系统:底层支撑,时代基石

对数据库进行统一管理和控制的核心软件

数据库分为交易型数据和分析型数据库。数据库管理系统 DBMS(Database Management System)是指对数据库进行统一建立、管理和控制的大型软件,帮助企业高 效实现对大规模数据的检索、修改、查询和分析。数据库管理系统按照应用方向不同可以 分为两大类:操作型数据库和分析型数据库 (数据仓库),分别对应 OLTP(联机事务处理) 和 OLAP(联机分析处理)。操作型数据库主要面对与企业业务数据相关性强的事务场景, 例如银行转账、股票交易撮合、电子商务等,涉及对高并发数据的“增、删、改、查”操 作,对数据实时性、一致性、可靠性和安全性要求极高。分析型数据库对来自操作型数据 库和其他数据源的历史数据高效地进行大批量查询,应用在海量、复杂数据环境下为企业 决策提供数据分析。分析型数据库对数据的实时性、一致性要求不高,但高并发的数据查 询提高一个量级。

按照数据组织形式,数据库又可以分为关系型与非关系型:关系型数据库是指采用关 系模型来组织数据的数据库,具有完备的数学理论基础、完善的事务管理机制和高效的查 询处理引擎。关系型数据库的核心是数据表(行、列数据)、表内结构和表间关系,严格 遵守原子性、一致性、隔离性和持久性的标准(ADCID)。ACID 特性使关系型数据库系统 在中断的情况下也能够保证事务的准确执行。非关系型数据库(NoSQL)没有统一的关系 模型,采用分布式部署,具有处理海量数据高并发读写的能力,且扩展性较好。传统的关 系型数据库为了 ACID 的一致性原则导致其数据的高并发读写性能比较差,固定的表结构 降低了数据库扩展性。非关系型模型实际上是一种新型的数据结构化存储方法的集合,适 用于各种非结构化、半结构化数据,能够很好地满足海量数据的高并发读写需求,且因为 分布式部署而具有良好的扩展性。典型的 NoSQL 数据库包括键值数据库、列族数据库、文档数据库和图形数据库,主要应用场景为网页、IoT、移动设备、社交网络。

数据库管理系统在企业数据流管理体系中处于核心地位。业务行为相关的数据首先在 不同的操作型数据库中进行事务处理 OLTP,然后通过 ETL 工具(提取、转换、加载)汇 聚整合成面向主题的、全局的一致数据集合,存储在业务数据临时存储系统 ODS 中。ODS 的数据再次通过 ETL 工具转换集成为结构化数据进入企业统一的数据仓库。数仓数据针对 某个特定主题分类,进入到从属型数据集市。根据企业需要,基于操作型数据库、数据仓 库和数据集市也能够构建企业数据湖,存储着包括原始数据、转换数据在内的各种结构化、 半结构化、非结构化数据,实现数据的集中式管理。经过汇总后的数据通过 OLAP 操作分 析处理,并通过 BI 工具以体系化、可视化的方式直接呈现在决策者面前,为业务提供数据 支撑。

“数据爆发+数据复杂度提升”是行业底层驱动力

作为大数据时代底层支撑的数据库管理系统在企业信息化建设中正处于前所未有的 重要位置。经过六十年的发展,数据库已经成为数字经济时代的软件底座,几乎所有的企 业级数据、终端数据和边缘设备数据都需要通过数据库管理系统的管理和分析才能够赋能 上层应用或企业决策,发挥其最大的价值。随着数字经济渗透的加速,5G 网络技术逐渐 成熟,5G 应用蓬勃发展,驱动着全球数据量高速增长、数据结构的复杂度不断提高。

从 5G 基站建设进度看,5G 时代已经来临。截至 2020 年 6 月,全球已建成 70 万个 5G 基站,覆盖全球占 GDP 约 72%的地区,华为轮值董事长郭平在 2020 共赢未来全球线 上峰会预计 2020 年底全球 5G 基站规模将达到 150 万个。中国是 5G 网络建设最领先的 国家之一,2020 年中国已建成 5G 基站超 60 万个,且工信部部长肖亚庆在 28 日召开的 2021 年全国工业和信息化工作会议上表示,2021 年规划新建超 60 万站,将覆盖全国所 有地级以上城市。我们预计到 2022 年中国 5G 网络将全面建成。

5G 通信技术迭代,数据传输速率和可靠性大幅提升,催生更多数据密集型应用,驱 动数据产生量与数据流量高速增长。根据IDC和 Ovum 数据,2020年全球数据量高达 40ZB (相当于 429亿块1TB 容量的硬盘),同比+22.5%,其中中国数据总量达到 12ZB,同比 +50%;全球数据流量达到 2.07ZB,同比+29.9%。与前几代网络相比,5G 网络能力拥有 质的飞跃,大大降低了数据传输的延时并提高整体网络效率。5G 时代给用户带来了超越 光纤的传输速度、超越工业总线的实时能力以及全空间的连接,推动云 AR/VR、车联网、 智能制造、无线医疗、智慧城市等数据密集型应用的蓬勃发展,也将驱动全球数据量和数 据流量未来持续高速增长。IDC 预计 2024 年全球数据总量将实现 4 年 CAGR 28.1%的强劲增长到132ZB;Ovum 预计到 2024 年全球数据流量将保持 4 年 CAGR 27.6%的高速增 长到 5.49ZB。

数据结构复杂度不断提升,半结构化、非结构化数据占比不断提高。数字经济时代每 分每秒都在产生大量的语音、图像、视频等非结构化数据。不同场景、不同应用、不同来 源的数据都汇聚在数据库中等待分析,数据结构本身的复杂度不断提升。此外,非结构化 数据占比持续提高,但价值仍然没有被充分发掘。根据 Ovum 数据,视频类数据流量占据 超过 77%的总流量比例。根据 IDC 数据,非结构化数据占整体数据量比重高达 80%以上, 在排除一定比例的半结构化数据后,现阶段真正用于大数据分析支撑企业决策的只有占较 小比例的结构化数据,这意味着绝大部分非结构化数据的价值还未被充分发掘。

存储技术和云计算的发展使企业能够存储海量非结构数据,人工智能技术极大地提高 对非结构数据的需求并最终赋能应用。过去由于存储技术、资源和数据库技术的限制,非 结构化的数据无法有效保存和调用。但随着存储技术和云计算的不断发展,企业可以拥有 充足的、可扩展的存储资源和存储方法。机器学习、自然语言处理、图像识别等人工智能 技术也增加了对海量非结构化数据的需求。在存储非结构化数据之后,赋能应用之前,必 须经过数据库管理系统才能够对非结构化数据进行调用、处理和分析,才能让数据资产化 并赋能企业发展。

云趋势明确,云数据库引领全球数据库市场增长

数据库技术变迁:从本地一体机到分布式部署再到云化

数据库经历从一体机到分布式数据库再到云化的过程:

第一阶段:数据库一体机。传统的本地数据库以 Oracle、IBM、Microsoft、SAP、Teradata 等厂商提供的方案为代表,数据库管理系统自诞生以来一直主导着数据库市场。数据库系 统运行在预配置的设备之上,这些高度优化的设备具有固有的可扩展性和容量限制,通常 只能通过更换更高性能的硬件设备以进行纵向扩展;而高度耦合的存储和计算亦使得数据 库缺乏弹性,设备只能根据峰值需求预先购买,但非峰值运行的状态下部分计算资源只能 闲置。

第二阶段:非关系型数据库 NoSQL+分布式架构 Hadoop。2005 年,随着互联网时 代数据规模爆炸式增长以及摩尔定律延缓,企业开始探索分布式数据库,非关系型数据库 NoSQL 应运而生。基于 Hadoop 分布式架构的 NoSQL 数据库将昂贵的数据库一体机替换 为大量廉价的硬件集群,降低成本的同时使得性能能够线性扩展,同时也支持结构化、半 结构化、非结构化数据的处理。以 HBase 为代表的 OLTP 和以 Cloudera 为代表的 OLAP 是 Hadoop 分布式架构生态的重要产品。但 Hadoop 架构的数据库亦有其天然的不足:1) 分布式架构在可扩展的同时会牺牲数据的一致性,对 OLTP 支撑不足,也使得 Hadoop 架构之后更多用于数据仓库领域;2)Hadoop 架构所谓的可扩展仍然需要购买、安装和配置 硬件,无法迅速完成;3)存储和计算仍未实现完全解耦,扩展后的计算资源在非峰值运 行的状态下仍会闲置,该架构下的数据库仍然缺乏弹性;4)Hadoop 架构不支持 SQL 查 询,易用性相对欠缺。

第三阶段:关系型数据库与可拓展性融合,即分布式的关系型数据库 NewSQL。2012 年-2013 年,Google 发布 Spanner 和 F1 两套数据库系统,将关系模型和过去只有 NoSQL 才拥有的扩展性融合在一个大规模生产系统上。Spanner 和 F1 仍然基于分布式存储系统,但创造性地引入 GPS 时钟+原子钟的方式解决时钟同步问题。分布式数据库从此拥有 SQL 支持、ACID 事务性、水平扩展、多机房异地容灾的特性。

第四阶段:完全基于云的数据库。OLTP 以 AWS Aurora、Google Cloud SQL & Cloud Spanner 和 Microsoft Azure Database for MySQL 为代表;OLAP 则以 AWS RedShift、 Google BigQuery、Microsoft Azure Synapse Analytics 和 Snowflake 为代表。依托公有云 的存储和计算资源,云数据库实现了存储和计算的完全解耦,在提供近乎无限的延展性和 高弹性的同时,亦保障了数据的一致性,并支持结构化和半结构化数据的处理。同时,云 数据库平台作为服务整体交付,节约了用户管理基础架构所需的成本、时间和资源。目前, 数据管理软件向云端的迁移亦成为明确趋势,并不断挤占传统 on premise 模式下的产品空 间。

规模及增速:500 亿市场稳步增长,云数据库贡献最大增量

云数据库引领全球数据库市场稳步增长。根据 IDC 统计数据,在数据爆发式增长、数 据复杂度提升的驱动下,2019 年全球 DBMS 市场规模高达 493 亿美元,同比增长 18.2%。 2020 年,全球 DBMS 市场规模小幅降至 487 亿美元,主要原因是数据库市场受到疫情冲 击,本地部署的数据库项目被推迟,同比下滑 6.2%,但同时云数据库仍然保持 11.6%的 增速。长期来看,数据量高增叠加数据结构复杂度提升是长期驱动因素,预计云数据库将 成为未来数据库部署方式。根据 IDC 预测,2024 年全球数据库市场规模将稳步增长至 739 亿美元,2020-2024 年 CAGR 将达 8.7%。其中云数据库市场规模将达到 404 亿美元,占 比提升至 55%。

操作型数据库和分析型数据库并行发展。数据库管理系统诞生最初便是关系型的操作 型数据库,在进行业务数据的事务操作同时承担简单的数据分析工作。1990 年后,企业 对海量数据分析的需求提升,传统的操作型数据库在高并发数据查询时效率太低,因此数 据仓库诞生并完全承接企业的数据挖掘、数据分析功能。此后,两个数据库细分市场并行 发展,一般认为操作型数据库偏传统数据库领域,而数据仓库偏大数据分析领域。但无论 是操作型数据库还是数据仓库,云化都是两个细分市场确定的发展方向,且随着 HTAP 技 术的发展,OLTP 与 OLAP 界限将变得更加模糊,市场重合度将持续提升。

细分市场规模及增速:操作型数据库市场更大,数据仓库增速更高。在云化趋势下, 预计未来云操作型数据库和云数仓都将保持 25%以上的高速增长。

操作型数据库:根据 IDC 数据,2019 年全球操作型数据库市场规模为 325 亿美 元,其中云操作型数据库规模 81 亿美元。IDC 预计 2024 年全球全球操作型数据 库市场规模将达到 482 亿美元,2019-2024 年 CAGR 为 8.2%;其中云操作型数 据库市场规模将达到 253 亿美元,2019-2024 年 CAGR 为 25.6%。

数据仓库:根据 IDC 数据,2019 年全球数据仓库市场规模为 168 亿美元,其中 云数据仓库市场规模为 59 亿美元。IDC 预计 2024 年全球数据仓库市场规模将达 到 297 亿美元,2019-2024 年复合增速为 12%;其中云数据仓库市场规模将达 到 181 亿美元,2019-2024 年复合增速为 25.3%。

竞争格局:从市场份额、产品矩阵和竞争策略看全球市场三极

数据库市场三极:传统巨头包括 Oracle、IBM、Microsoft 和 SAP,它们的数据库产 品发展历史较长、产品成熟度相对较高、云原生属性较弱、在传统关系型数据库市场中占 据垄断地位;云厂商包括亚马逊 AWS、Microsoft Azure 和谷歌,其数据库产品核心特点 为部署在云端,依靠云生态冲击传统竞争格局;纯数据库厂商包括 Cloudera、Teradata 等发展时间较长的数据服务商和 MongoDB、MarkLogic、DataStax、RedisLabs、Neo4j、 Snowflake、MapR 等专注于非关系型和分析型数据库业务的新兴厂商。

产品矩阵:传统巨头深耕关系型数据库,云厂商从关系型OLTP 向非关系型 OLTP 和 关系型 OLAP 延伸,纯数据库厂商在非关系型 OLAP 领域发力。在产品矩阵的颜色分布图 中,我们可以看到代表传统巨头的黄色只出现在关系数据库中,而代表云厂商的红色则出 现在三个产品象限里,分别是关系型交易数据库、关系型分析数据库、非关系型交易数据 库。除 PostgreSQL、MySQL、MemSQL 三个开源数据库以外,关系型 OLTP 市场被传 统巨头和云厂商瓜分,这也是数据库市场最大的细分板块。而更靠近大数据分析的非关系 型 OLAP 领域中,包括 Cloudera、Snowflake、DataBricks 等纯数据库厂商占据优势。

市场份额:2018 年,Oracle、Microsoft、AWS、IBM、SAP 市场份额位列前五。传统巨头仍然占据较大份额但面对来自云厂商的激烈竞争,以 AWS 为首的云厂商市场份 额排名迅速提升。2018 年,Oracle 依托市场积累优势和数据库迁移壁垒保持市场份额第 一的位置,但份额逐年下滑;Microsoft 凭借云数据库收入近 140%的增长超越 IBM 和 SAP, 位居第二;AWS 凭借高达 63 亿美元的云数据库收入成为第三大数据库厂商,其云数据库 收入超过其他主流厂商云数据库收入之和,且保持极高同比增速 74.7%。AWS 和 Microsoft 两家公司的云数据库收入增长贡献数据库市场总增长的 75.5%;中国公有云厂商阿里云和 腾讯云市场份额显著提升:2018 年阿里云数据库实现收入 4.6 亿美元并首次进入 Gartner 魔力象限领导者位置,腾讯云数据库实现收入 2.5 亿美元,同比增长 2.5 倍。

未来发展趋势:DBaaS、HTAP 混合事务分析、容器和微服务技术

趋势一:数据库即服务(DBaaS)

DBaaS 极大地简化企业对数据库的管理、维护和更新,真正做到开发者只“使用” 数据库,而不是被数据库繁琐的工作所困扰。传统数据库需要数据库管理员耗费大量精力 承担数据库的安装、升级、管理、测试、安全等任务,并且随着企业业务规模的扩大,数 据爆发式增长,维护工作将变得越来越复杂,对数据管理员的能力和时间要求更高。实际 上,难以维护是传统数据库最大的痛点之一,而云数据库恰好能够解决这一痛点。此外, 按需购买、极高的扩展性以及将资本开支转化为每年营运成本的商业模型等优势都吸引着 企业使用 DBaaS,就像 IaaS 和 SaaS 一样。

毫无疑问,云数据库对数据库市场的冲击是巨大且持续的。几乎所有的数据库厂商, 包括传统巨头和纯数据库厂商,都提供数据库产品的云化版本或是推出云原生数据库产品。 但显然,云厂商将会是 DBaaS 最大的受益方。它们依托 IaaS 生态强大的粘性和激进的数 据库迁移策略吸引着企业,而使用云数据库又进一步地提高客户粘性,形成对生态的持续 正向反馈。根据 IDC 数据,2020 年本地部署 DBMS 市场规模 333 亿美元,同比下滑 6.2%, 绝大部分是维保费以及软件许可的续费,几乎没有新增的软件授权费。与此同时,云数据 库市场规模 154 亿美元,预计 2024 年规模将高速扩张至 404 亿美元,5 年 CAGR 21.2%, 占比 55%。而 Gartner 甚至大胆预测,2024 年云数据库市场规模将占到数据库市场的 75%。

安全性和可靠性是企业使用云数据库的最大阻碍。虽然分布式技术使得单一节点的故 障几乎不会影响整体系统,同时各大公有云厂商不断更新技术以确保自身的安全和可靠性, 但实际上公有云宕机事故仍然在发生。基于云数据库开展核心业务的客户无法承受哪怕极 短时间的业务中断。三大公有云厂商均发生过大规模的宕机事故,最近的一起事故发生在 2020 年 12 月 14 日,Google 云服务遭遇全球大面积宕机,旗下的云服务中断近 30 分钟, 而这一严重事故发生的原因仅仅是因为简单的磁盘存储空间不足。而此事件发生的 5 天前, 谷歌的欧洲云业务刚刚出现事故,宕机 84 分钟。

趋势二:混合事务分析 HTAP

HTAP 混合事务分析是指可以同时执行实时交易处理和海量数据分析的数据库架构, 以打破 OLTP 和 OLAP 之间的隔阂。HTAP 既可以应用于操作型数据库场景,亦可以应用 于分析型数据库场景。传统的数据架构是 OLTP 执行各类业务后数据通过 ETL 过程进入数 据整合层 ODS,再通过 ETL 进入数据仓库,再经由 OLAP 对数据仓库沉淀的数据做分析 处理。HTAP 避免了昂贵且耗时的 ETL 操作,可以更快地对实时数据进行分析处理。在 HTAP 架构下,业务执行过程中的数据在产生之初便可以用来进行分析,数据也不需要在 经过不同操作时进行重复拷贝存储。HTAP 混合事务分析将赋能企业提高对数据的态势感 知能力和业务敏锐度。

HTAP 已成为数据库技术的热点研究方向。2020 年,数据库顶级期刊 PVLDB 发表五 篇和 HTAP 相关的论文,包括 Google 的《F1 Lightning: HTAP as a Service》、PingCAP 的《TiDB: a Raft-based HTAP database》、IBM 的《Replication at the speed of change: a fast, scalable replication solution for near real-time HTAP processing》、阿里的《hologres: a cloud-native service for hybrid serving/analytical processing》和 Databricks 的《Delta lake: high-performance ACID table storage over cloud object stores》。HTAP 系统可分成 两大类:

单一 HTAP 系统承载 OLTP 和 OLAP。PingCAP 的 TiDB 属于单一 HTAP 系统, 从架构设计之初将 TP 和 AP 紧耦合,并针对 HTAP 进行整体优化,可采用行列 混合存储引擎,提高性能。但单一 HTAP 系统的缺点是 OLAP 部分容易对 OLTP 部分形成干扰。

松耦合的 OLTP 和 OLAP 系统。Google F1 团队最新发表的 Lightning 系统属于 松耦合的 TP 和 AP 系统。相对于既有的 HTAP,Lightning 的优势在于在尽可能少地入侵 TP 系统的情况下建设 HTAP;拥有只读的列存副本,提供更好的执行 效率;更简洁地配置和去重;较强的扩展性,可以对接 F1 DB 和 Spanner 以外 不同的 TP 数据库。

趋势三:容器/微服务技术

容器/微服务技术是指将软件打包为标准化单元,以用于开发、交付和部署。容器是轻 量的、可执行的独立软件包,包含软件运行所需要的所有软要素:代码、运行环境、系统 工具、系统库和设置。容器化的软件能够在任何环境中始终如一地运行,适用于任何基于 Linux 和 Windows 的应用。容器赋予了软件独立于外部环境的特性,免受开发、预演、运 行环境差异的影响。

容器技术和虚拟化技术有相似的资源隔离和分配优势,但容器虚拟化的是操作系统而 不是硬件,因此容器更容易移植、效率也更高。传统虚拟机技术是虚拟出一套硬件后,在 其上运行一个完整操作系统,在该系统上再运行所需应用进程;而容器内的应用进程直接 运行于宿主的内核,容器内没有自己的内核,也没有进行硬件虚拟。因此容器要比传统虚 拟机更为轻便。但两者并不是互斥关系,而是互补关系。客户完全可以同时虚拟化硬件, 同时虚拟化操作系统,即基于虚拟化技术使用容器技术。

未来,使用容器技术开发微服务的开发者可以在每个容器开发时选择最适合的数据库, 而不是像过去一样开发所有应用都依赖某个单一的大型数据库。更具体地说开发人员可以 根据应用对性能、可用性、一致性和可靠性的不同要求采用最适合微服务的数据库。这有 助于确保应用程序的平稳运行,并防止数据流出现瓶颈(严重妨碍应用程序的性能)。例 如,关系数据库的缓慢性能使其不适用于依赖微秒级延迟访问数据的、基于微服务的应用 程序。

国内数据库市场空间巨大,云+国产替代促增长提速

规模及竞争格局:百亿市场,海外主导,四方角力

综合各方数据(IDC、Gartner、智研咨询、赛迪顾问),2020 年中国数据库市场规模 预计将达到 200 亿元,同比增速超 20%,且近年来增速呈现不断提高趋势。2020 年,预 计我们预计中国关系型数据库规模约 160 亿元,同比增长 17.6%,占比高达 80%。非关 系型数据库规模约 40 亿元,同比高速增长 43.5%,占比约 20%。虽然在海量非结构数据 分析需求的驱动下,非关系型数据库高速增长,但现阶段关系型数据库仍然占据主导地位, 与全球趋势保持一致。

国内数据库市场四方角力,海外巨头占据最大市场份额。国内市场主要参与者为海外 巨头(Oracle、Microsoft、IBM、AWS 等);国内公有云厂商(阿里云、腾讯云);设备商 (华为、中兴通讯);传统四大数据库厂商(武汉达梦、人大金仓、南大通用、神州信息) 以及新兴数据库厂商(巨杉大数据、PingCAP 等)。海外巨头仍然占据最大市场份额,但随着云趋势和国产化替代推进,传统海外巨头的份额不断缩小。阿里云和腾讯云依靠本土 生态优势在云数据库竞争中领先于 AWS 和 Microsoft。传统四大数据库厂商和新兴厂商主 要受益于国产替代。新兴数据库厂商技术领先,产品创新,势头强劲,巨杉大数据、PingCAP 等厂商纷纷拿下银行金融领域标杆案例。

产品布局:云厂商和设备商产品线完整,传统四大和新兴数据库厂商聚焦于细分领域 产品。在 OLTP、OLAP 和 HTAP 场景中,传统数据库厂商均有对应的产品或解决方案; 云巨头和设备商的数据库产品线更完整,在 OLTP、OLAP、关系型数据库和非关系型数据 库领域均有布局,工具生态方面也很丰富;而大部分新兴数据库公司则聚焦于细分领域产 品,拥有独特的竞争优势。国内传统数据库厂商专注于关系型数据库产品,只有武汉达梦 拥有图数据库产品。

流行程度:按照云和恩墨的墨天轮数据库流行度,新兴数据库厂商 PingCAP 的 TiDB 超越阿里的 OcaenBase 排名第一,且维持 2020 年一整年的热度。其次分别为武汉达梦、 阿里的 OceanBase、南大通用 GBase、腾讯 TDSQL、阿里的 PolarDB、华为 GaussDB、 中兴 GoldenDB 和阿里的 AnalysticDB。(墨天轮的流行度综合考虑了第三方机构、市场份 额排名、搜索引擎条目数、趋势指数、博本指数等,反映数据库产品的热度。)

云数据库:驱动国内数据库市场迎来结构性机遇,行业β显现

全球云数据库趋势明确,国内云厂商产品竞争力强且具有比较优势。参考全球数据库 市场,近两年海外巨头之间份额变化均主要受云数据库收入驱动。Oracle、IBM 因为 IaaS 劣势而在云数据库竞争中落入下风,导致排名下滑。AWS 凭借云数据库收入成为全球第 二大数据库厂商。微软云数据库贡献其收入增量的绝大部分。几乎所有领先的数据库厂商 均将新数据库产品部署在云端,并推出云原生数据库。国内阿里云、腾讯云和华为云数据 库产品竞争力强,且在中国市场具备比较优势。根据 Gartner 数据,2018 年,阿里云数据 库收入高达 4.61 亿美元,同比增长 115.77%,排名仅次于 AWS 和 Microsoft 成为全球第 三大云数据库厂商。腾讯云数据库收入达 2.47 亿美元,同比增长 123.09%,排名第六。 华为凭借混合云优势,实现数据库收入 1.38 亿美元,同比增长 94.22%,排名第七。2018 年和 2019 年,阿里云连续两年入选“挑战者”象限。2020 年,阿里云首次挺进全球数据 库魔力象限的领导者象限,这也是中国数据库首次进入全球顶级数据库行列,此外腾讯云、 华为云进入“特定领域者”象限。

我们预计 2020 年国内云数据库增长 33.2%至 104 亿元,贡献国内数据库市场增量的 71.7%,同时国内云厂商将占据中国云数据库主要增长红利。根据 IDC 的报告,2019 年 国内关系型云数据库市场,国内云厂商占据约 3/4 的市场份额,其中阿里、腾讯、华为分别占据市场的 48.1%、20.4%、10%。我们认为未来云数据库高速增长趋势明确,中国数 据库市场未来增长将持续受益于数据库云化,行业β显现。基于国内云厂商数据库收入极 高的增速,我们保守估计,到 2024 年,中国云数据库市场规模将增长至 395 亿元,4 年 CAGR 39.6%,占国内市场比重提升至 74%。

国产替代:技术差距多大、替代进展如何、未来重点在哪

问题一:国内外数据库技术有多大差距

数据库管理系统属于美国“卡脖子”技术。数据库技术一直以来被认为是计算机基础 软件中技术难度最高的领域,纯论技术难度甚至高于操作系统(操作系统的难度更多是在 于生态)。在 2020 年中美争端升级的背景下,中科院提出一份美国对中国关键技术的“卡 脖子”清单。根据科技日报梳理,中国被美国卡脖子的关键核心技术一共设计 35 个领域,数据库管理系统领域便位列其中。在 2020 年 9 月中国科学院“率先行动”计划第一阶段 实施进展情况发布会上,中科院表示将把卡脖子清单变成科研清单,全面攻克技术难题。

在数据库技术的前沿研究领域中,中国已成为影响力最强的国家之一。我们分析了数 据库领域三大顶级期刊之一的 VLDB(Very Large Data Base)2015 到 2020 年发表的论 文,发现中国在数据库技术研究的前沿领域中进步速度很快。VLDB 是数据库管理系统领 域最杰出研究和成果的实时传播场所,也是各科研院所和企业数据库技术的试金石。2020 年 VLDB 一共刊登 63 篇论文,涉及的数据库技术热点方向包括异常检测、数据库存储、 云数据库、机器学习等方向。其中来自中国的学者和研究人员发表 23 篇,排在所有国家 第一位,论文数占比 36.5%。2020 年共有 234 位作者在 VLDB 发表论文,其中中国学者 23 位,占比 9.8%。而如果范围扩大到华人作者,则占比提高至 38.4%。从业界发表论文 角度,阿里和腾讯能够较好代表中国数据库技术的最高水平,其中阿里发表三篇论文,与 谷歌、微软、IBM 发表论文数相同。中国新兴数据库公司 PingCAP 也成功在 VLDB 发表 论文,其最新产品 TiDB 4.0 的 HTAP 关键模块 TiFlash 正是基于此论文推出。从顶尖会议 论文发表数角度看,中国已成为数据库技术前沿研究领域影响力最强的国家之一。

从数据库管理系统产品角度看,中国与国外仍然存在较大差距,但随着国产替代进程加快,预计中国产品成熟度将会迅速提升。中国在数据库技术的前沿研究中已具备较强的 影响力,但数据库管理系统是一项庞大的软件工程,需要与客户业务场景进行打磨,不断 迭代成品,积累代码。Oracle 数据库 12.2 版本有接近 2500 万行代码。产品不断的积累和 迭代造就了国外知名数据库公司产品较高的成熟度和可靠性。而国内的数据库产品往往在 诞生之初就面对 Oracle、IBM 的激烈竞争,难以拥有接触客户核心业务场景的机会,因此 产品迭代困难。阿里、腾讯的数据库产品之所以能够成为国内代表,依靠的是与自身电商、 支付、社交等核心业务场景的不断打磨,而其他数据库公司之前难以拥有这样的机会。但 随着中美贸易争端加剧、国产替代进程加快,越来越多的国内企业开始提供核心业务场景, 与数据库公司共同推进数据库产品研发。我们认为,随着底层代码积累与产品迭代,中国 数据库产品的成熟度和可靠性将会迅速提升。

问题二:国产替代进展程度如何

国产数据库的明确目标是替代 Oracle 和 IBM 数据库,电信运营商、银行金融、电力等重点领域进展较快。根据智研咨询数据,2017 年国产数据库仅占 14.27%的市场份额, 有巨大的替代空间。数据库行业国产化替代从制高点运营商、金融等往下展开。目前,金 融和电力的国产数据库替换已有一定数量案例,而运营商的国产化替代刚刚开始。

目前国产替代仍处于争夺标杆案例阶段,短期内数据库厂商并不依靠授权费盈利,而是待数据库产品成熟并正式上线后收取维保费以及升级服务费。由于目前国内数据库技术 仍在发展中,在性能、稳定性和安全性上还与 Oracle 有一定差距,因此银行金融、电信、 电力等国产替代重点领域的客户先提供核心业务场景,数据库厂商则暂时免费提供软件许 可。数据库产品上线以后不断做测试、验证、迭代和匹配,客户和数据库厂商双方都需要 不断进行投入。等到数据库产品成熟并正式上线后,数据库厂商再收取维保费以及升级服 务费(参考 Oracle 每年收取约授权费 22%的维保费)。

从标杆案例来看,不同类型数据库厂商现有客户群体略有不同,国产替代银行金融领域竞争较为集中。各家数据库公司均瞄准银行金融领域客户,云厂商、新兴厂商客户范围 更广,华为、传统厂商与政府关系更为密切。云厂商阿里和腾讯主要针对公有云生态客户, 通过云生态粘性和云数据库迁移策略吸引客户替换原有数据库产品。阿里客户范围更广, 凭借蚂蚁金服的金融业务场景打磨出关系型 OLTP 数据库 OceanBase 瞄准国内银行金融 客户,落地案例包括中国人保健康、南京银行等。华为 GaussDB 和中兴通讯 GoldenDB 同样分别有招商银行和中信银行案例落地。万里开源客户包括国家电网、中国移动和光大 银行。新兴数据库厂商 PingCAP 客户包括中通快递、微众银行、西山居、OPPO,巨杉数 据库客户包括渤海银行、广发证券、广发银行、恒丰银行和中国电信。传统厂商武汉达梦 在公安、国土、司法、检查、审计等各个政务领域均有垂直型解决方案落地。

中兴通讯 GoldenDB 实现对中信银行核心系统的完全替换,已经成为金融和电信领域国产数据库的代表。经过两年时间的产品打磨,中兴通讯 GoldenDB 实现对中信银行总 行核心系统和信用卡核心系统的完全替换,成功完成中国金融行业难度最高、挑战最大的 核心业务数据库迁移改造工程。GoldenDB 完全上线后,已经平稳运行半年。在中信银行的标杆案例推动下,GoldenDB 又成功在上半年中标浦发银行信用卡系统、东莞农商行信 用卡系统,下半年中标渤海银行,并将在贵州银行、赣州银行的核心业务系统投产。中兴 通讯还与银联数据服务有限公司达成合作,将 GoldenDB 用于银联数据的信用卡系统,而 值得注意的是银联数据承载了国内 247 家银行的信用卡核心运营。在银联数据成功投产意 味着 247 家银行的信用卡业务都将跑在 GoldenDB 上。此外,GoldenDB 还成功拿下中国 移动 OLTP 分布式数据库 40%的招标份额,势头强劲。

问题三:国产数据库公司未来战略重点在哪

对于非开源数据库厂商,合作伙伴生态的核心就是渠道伙伴建设;对于开源项目,生态建设的核心是开发者社群维护和渠道伙伴建设:

合作伙伴生态是 Oracle 早期占领中国市场的核心要素之一,也是国产数据库厂商未来的战略重点。数据库管理系统是数据管理架构的底层产品,每个客户核心系统架构都不 同,意味着需要针对不同客户做大量定制化的开发。集成商、二次开发商、IT 咨询公司都 是数据库厂商生态伙伴体系中的重要参与者。生态伙伴体系建设能够帮助企业快速实现业 务扩张,同时最大程度减少成本的增长,使数据库厂商能将有限的人员和资金投入到数据 库技术和产品的开发上。早在 2009 年,Oracle 就推出合作伙伴网络计划(OPN),在当 时被认为是十年以来最重大的进展。Oracle 通过 OPN 计划提升合作伙伴对 Oracle 跨产品 线数据库产品的理解,并通过建立认证体系提升合作伙伴实施和支持服务的技术和能力。 Oracle 的合作伙伴体系划分为钻石级、白金级、黄金级、白银级、分销商五个等级,其中 钻石和白金级合作伙伴可以得到 Oracle 最高级别的合作和支持,并可以将自己公司的 Logo 放在 Oracle 的官网上。目前国内厂商生态体系建设与 Oracle 相比有一定差距,主要 体现在合作伙伴数量以及服务支持能力上。2013年Oracle大中华区 OPN成员已达到 2412 家,超过 90%的收入是通过合作伙伴取得的。而 2020 年中国拥有合作伙伴最多的武汉达 梦也仅仅只有 101 家合作伙伴。其他的数据库厂商合作伙伴均低于 50 家。

对于数据库开源项目,开发者社群维护和渠道伙伴建设均处于核心地位。开发者社区 是开源项目活力的来源,也是立身之本。国外著名的数据库 MySQL、PostgreSQL 经过多年发展仍然保持强大的生命力,不管是个人开发者还是企业开发者都保持持续的贡献。开 源数据库项目对管理者的社群维护能力提出极高的要求,也带来技术更新快、产品迭代快、 人才聚集、风险分散等优势。国内开源数据库项目以华为 GaussDB 和 PingCAP TiDB 为 代表,其中 PingCAP TiDB 项目在 GitHub 上已总计获得超过 25000 颗星,近 1200 位开 源代码贡献者。全球知名开源组织云原生计算基金会 CNCF 在 2019 年年度报告提到, PingCAP 在 2019 年 CNCF 全球代码贡献排行榜中名列第六。此外,开源数据库项目在注 重开发者社群维护的同时,也同样需要重视商业合作伙伴的建设,才能实现开源项目商业 化的目标。

市场空间测算: 预计 2024 年中国数据库市场达 533 亿元,国产替代空间超 400 亿元

1. 中国整体数据库市场规模测算

中国庞大数据量与较小数据库市场规模之间明显错配。2020 年中国数据库市场规模 在 30 亿美元/200 亿元左右,同比增速 22%,且增速不断提升。根据 IDC 预测,2020 年 亚太数据库市场规模 87.2 亿美元,中国占亚太市场比重为 30%;全球市场规模 487 亿美 元,中国占全球市场比重 5.35%;而 2020 年全球数据量为 49ZB,中国的数据量达到 8ZB, 占全球比 16%。中国数据量庞大,但数据管理的核心基础软件数据库市场占比却较低,出 现明显的错配。

为了更好地解释这种错配现象以及测算未来空间,我们引入单位数据管理投入的概念。单位数据管理投入=数据量/数据库软件投入=数据量/数据库市场规模。根据 IDC 和希捷数 据,2019 年全球产生数据量 40ZB,对应数据库市场规模 493 亿美元,则 2019 年管理每 ZB 数据需要投入 12.33 亿美元。根据 IDC 数据,我们测算得到 2019-2024 年全球单位数 据管理投入,以及 2019 年和 2020 年中国单位数据管理投入。

从数据我们发现,中国单位数据量管理成本远低于全球。有两种可能:一种是数据库 技术先进,数据管理效率高,单位数据管理投入低,还有一种可能是对数据管理程度不够、 数字化建设不足,所以单位数据管理投入低。我们认为第二种原因更符合中国的现实情况。

假设:中国单位数据投入将在未来和全球单位数据投入趋同,即全球单位数据投入/中国单位数据投入的倍数减小并趋近为 1。

基于以上逻辑,我们预测到 2024 年中国数据据库市场规模为 533 亿元,2020-2024 年 CAGR 为 27.7%,单位数据管理投入 16.51 亿元,中国市场占全球数据库市场比重提 升至 11%,全球/中国单位数据投入比值减小到 2.2。其中,关系型数据库市场规模达到 383.5 亿元,占比 72%;非关系型数据库市场 149.2 亿元,占比 28%。而在部署模式上, 预计 2024 年中国云数据库市场规模将增长至 395.5 亿元,4 年 CAGR 39.6%,占国内市 场比重提升至 74%。预计传统部署数据库市场规模为 137.2 亿元,4 年 CAGR 9.3%,增 速和占比均逐渐减小。此外,假设未来在稳态情况下,中国与全球单位数据管理投入比值 为 1,则中国数据库市场规模估计可达 1172 亿元。

2. 国产替代空间测算

2019 年仅关系型数据库市场就有约 65 亿元的国产替代空间。根据智研咨询数据, 2019 年中国关系型数据库市场规模约 136.4 亿元,占总数据库市场 83%。根据 IDC 数据, 2019 年传统部署模式的关系型数据库市场占比 59%,云模式部署的关系型数据库市场占 比 41%。传统模式部署下国外厂商市场份额占比为 66.8%。公有云模式下,国外厂商市场 份额占比 19.9%。则假如完全替代,仅 2019 年关系型数据库市场的国产替代空间约 65 亿元。根据上一节中国数据库市场整体规模的测算,预计 2024 年中国数据库市场规模 533 亿元。假设 2024 年国产数据库占比提升至 80%,则国产替代空间高达 426 亿元。

美股数据库公司估值启示

估值现状:美股市场目前倾向给予更符合行业演进趋势、持续获得市场份额的数据库 厂商以更高水平的估值:根据彭博一致预期,NoSQL 云数据库的引领者 MongoDB 目前 的 PS(CY2020E)为 37x,云数据仓库的领导者 Snowfalke 的 PS(CY2020E)水平更 是达到 139x;而份额持续下滑的 Cloudera、Teradata 的 PS(CY2020E)水平则分别为 5x 和 1.3x,估值分化趋势明显。

估值方法:与其他软件/SaaS 企业类似,根据企业在不同发展阶段所表现出来的财务 特征差异,需要我们对应采用相应的、能够反映企业盈利本质的估值定价方法。在企业发 展早期,在 FCF、运营利润等盈利指标缺失或者阶段性参考意义不足的情况下,营收规模 &增速是一个较好的替代指标;而进入平稳增长阶段之后,现金流、运营利润则是更为合 理的指标;在增长停滞阶段,投资者则可能更为关注股东回报(回购、派息)等。

估值水平影响因素:而回归企业价值本质,我们认为营收增速、盈利能力同样是决定 市场对于数据库企业估值水平的主要因素。1)当企业处于高速增长阶段时,企业盈利能力通常不足,成长性为估值水平的核心驱动因素。我们可以看到,当 Cloudera 的营收同 比增速由 40%显著下降至近期 10%左右的水平时,公司股价亦伴随大幅下跌;而得益于 MongoDB 营收持续快速的增长,公司股价同样保持快速上行。此外,相较于 MongoDB, 市场也愿意给予成长性更为突出的 Snowflake 以更高的估值水平。2)当企业到达平稳增 长阶段时,我们认为盈利能力将成为估值水平主要驱动因素。参照 Salesforce、ServiceNow 等公司的发展历程,我们可以看出,对于稳定增长的企业,盈利能力的提升对于估值端的 驱动作用会更为明显。

相关企业分析(详见报告原文)

中兴通讯 GoldenDB:覆盖银行金融领域客户全系列产品。

华为 GaussDB:高斯数据库已开源,培养国内数据库生态。

万里开源:MySQL 团队再出发。

PingCAP(平凯星辰):雄心的一半是耐心。

云和恩墨:专注 DT 大数据技术,围绕数据资产持续创新。

星环科技:涵盖云基础平台、分布式关系型数据库、数据开发与智能分析、超融合一体机的综合大数据厂商。

巨杉数据库:深耕银行金融领域,超 50 家银行客户。

阿里云:全球数据库领导者。

腾讯云:云数据库厂商中 IaaS 增速最快。

投资建议

全球数据库市场受到云数据库驱动,稳步增长,IDC 预计 2024 年全球数据库市场规 模达 739 亿美元,其中云数据库市场规模将达到 404 亿美元,占比提升至 55%。云化趋 势明确下,重点推荐占据云时代卡位优势的云厂商亚马逊、微软;一直引领全球数据库技 术进步的谷歌、云原生数据仓库厂商 SnowFlake 和非关系型云数据库代表 MongoDB。

中国数据库市场受到云数据库和国产替代双重催生迎来结构性机遇,增长提速,行业 β显现。国产化替代赋能国产数据库厂商抢占行业增量,同时能够对存量进行替换,未来 空间巨大。我们预测到 2024 年中国数据据库市场规模为 533 亿元,国产替代空间高达 426 亿元。建议关注国产数据库龙头公司,重点推荐完成中国目前最大难度银行核心系统替换 项目的中兴通讯,重点关注万里开源和公有云厂商阿里巴巴、腾讯,以及分布式数据库技 术领先、产品创新的一级市场优质数据库厂商 PingCAP、巨杉数据库、云和恩墨、星环科技。

风险因素:云数据库发展不及预期,国产替代进程不及预期,国产替代案例出现重大事故,开源数据库协议修改等。