科技芯资讯是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

首页 >  科技资讯大全 正文

2022爱分析· 中国分析型数据库市场研究报告 _ 爱分析报告

juzi 1970-01-01 08:00:00 科技资讯大全 0℃

报告编委爱分析黄勇合伙人兼首席分析师张合伙人兼首席分析师洪逸群高级分析师任理分析师中国信息通信研究所云大研究所中国信息通信研究所云计算与大数据研究所副所长魏凯前言在数字时代,数据使用场景呈现出多样化的趋势,数据规模也呈爆炸式增长。海量异构数据的爆炸式增长对数据库的存储和计算能力提出了更高的要求。近年来,分析数据库因其在处理大量实时数据时具有出色的计算能力和管理能力而受到市场关注。分析数据库最早的定义是指从分散的数据源中提取、清理和聚合各种结构化数据,形成一个反映相对稳定的历史变化的数据集合,然后通过OLAP(在线分析处理引擎)对这些数据进行分析。OLAP数据库的概念最早是由关系数据库之父E.F.Codd在1993年提出的,他认为用户决策分析需要对关系数据库进行大量计算才能得到结果,并提出了OLTP。由于(在线事务处理)不能满足最终用户对数据库查询分析的需求,E.F.Codd提出了多维数据库和多维分析的概念。OLAP数据库的建议引起了很大的反响,OLAP数据库与OLTP数据库有明显的区别。在此后近30年的进化中,分析型数据库相继出现了共享存储架构的数量孤岛、大规模并行处理(MPP)架构的数据仓库、数据雷克等技术架构。近年来,随着企业数据分析需求的不断提高,智能湖仓库,它可以通过流批集成和存储隔离以及元数据层实现数据湖上的数据管理功能,这使得分析数据库进入了一个新的阶段。随着企业数字化转型战略的深化,分析数据库的内涵也在不断扩大,目前分析数据库已成为传统数据仓库、云数据仓库、数据仓库、数据分析师、数据科学家等企业管理、数据分析师等对数据分析和应用的需求。我们认为它提供了各种数据存储和计算引擎,包括数据湖等。在后流行时代,分析数据库在更多的业务场景中得到了更广泛的应用,如流量跟踪、时空分析等,分析数据库市场也在经历爆发式增长。近年来,国内分析数据库创业企业兴起,产业资本不断涌入,融资企业数量和规模大幅增加。据官方统计,2013年至2021年,有11家拥有主要数据分析场景的数据库企业,占数据库企业总数的24%,融资次数近40次,融资总额约50亿元。竞争激烈的市场,真正有潜力的企业。当前的市场只是泡沫吗?在“智慧湖仓库”阶段之后,分析数据库将向哪个方向发展,本报告将逐一梳理并给出详细答案。中国ICT研究院云计算与大数据研究所副所长魏凯简介:为什么研究分析数据库随着数据成为推动社会经济发展的核心生产要素,作为重要的数字基础设施数据库,其技术趋势和市场环境正在发生巨大变化。一方面,数据规模的快速增长和大量创新数据分析和应用场景的出现,对分析数据库的存储和计算能力提出了更为复杂的要求。另一方面,为应对新趋势,国内外各厂商,如传统数据库厂商、现代数据库厂商、公有云厂商等,近年来都加大了对分析数据库的投入和布局,推出了新一代智能湖仓库产品或传统数据仓库等。我们正在对数据湖进行重大升级。为了发掘在该领域具有潜力的代表性企业,本报告详细梳理了分析数据库的发展趋势和技术演进趋势,突出了我国分析数据库市场的价值和发展空间,建立分析数据库厂商的评价模型,分析了重点企业的产品技术、研发能力、商业模式和行业落地情况。分析数据库的定义与发展分析数据库的诞生分析数据库是从事务数据库派生出来的。在数据库诞生和发展的早期阶段,其应用场景主要是数据的统一存储、管理和访问,因此用户需要数据库能够实现数据的添加操作、删除操作,即在线事务处理(OLTP)这样的数据库被称为事务数据库(也称为事务数据库)在20世纪80年代,数据仓库开始出现,从用户对单个事务数据的需求演变为对事务数据进行汇总、比较等分析需求。关系数据库之父Edgar F.Codd于1993年正式提出在线分析处理(OLAP)的概念,由此产生了分析数据库的概念。分析数据库的最早定义是从分布式数据源中提取、清理和聚合所有类型的结构化数据。它指的是形成一个数据集合,反映了相对稳定的历史变化,并通过OLAP引擎对这些数据进行分析。随着企业数据分析需求的变化和技术的不断发展,分析数据库的定义和影响也在不断扩大。今天的分析数据数据库是指提供的数据存储和计算引擎,以满足企业管理员,业务,数据分析师,数据科学家和其他人的数据分析和应用需求,包括传统的数据仓库,数据湖,以及现在兴起的智能湖。分析数据库经历了几十年的发展,在此期间提出了一些关键概念,许多厂商推出了重要产品,这些事件已经成为串行分析数据库发展的重要节点,并概述了分析数据库的发展趋势。图1国内外分析型数据库发展的重要节点

分析数据库的技术演进趋势及其驱动因素分析数据库自诞生以来,经历了共享存储架构数据仓库、MPP数据仓库和数据湖三代发展,目前正朝着第四代智能湖仓库迈进。在这一发展过程中,驱动分析数据库代际演进的因素主要包括应用场景、数据和计算环境三个层面的持续变化,分析数据库各代在技术架构、功能和性能层面上存在着根本差异。表1:分析数据库的代际演变

第一代分析数据库--共享存储架构数据仓库基于数据库的共享存储架构数据仓库是分析数据库中最古老的一种形式,可以追溯到Oracle和DB2在20世纪70年代末和80年代初的诞生。现阶段企业数据分析的应用场景比较简单,主要是为管理层提供一些固定的报表。数据类型是结构化数据,数据量相对有限。在技术架构层面,对于这一阶段的数据分析需求,企业通常会建立历史数据库进行分析查询,并将来自不同事务数据库的原始数据聚合起来。在功能层面上,共享存储架构数据仓库具有很强的稳定性,支持各种SQL标准和ACID功能(即数据库原子性、一致性、隔离性、持久性)在性能层面上,共享存储架构的几个筒仓计算节点可以访问任何存储节点,因此必须配备自己的物理硬件,其性能得到了很好的优化。但共享存储架构的缺点是可扩展性差,一般扩展到10个节点,当数据量达到数千万甚至数亿级时,数据计算就会延迟。第一个MPP数据仓库是Teradata于1984年推出的专有、基于硬件的非共享架构MPP数据仓库,后来出现了Greenplum、Vertica和基于x86通用服务器的MPP数据仓库。在这个阶段,企业数据分析用例正在从针对少数管理人员的固定报告转向更广泛的批处理报告、BI和可视化,以帮助他们做出业务决策。与此同时,企业处理的数据类型是结构化数据,但数据量正在迅速增长到GB或TB。在技术架构层面,为了满足上述数据分析需求,OLAP专用的分析数据库与事务数据库分离,形成了至今仍在使用的数据仓库。数据仓库的设计是为了支持快速的数据查询和数据分析任务而设计的,其技术架构是通过预定义的模式,将事务数据库中的结构化数据通过ETL操作,形成一个“表”结构,写入数据仓库。与此同时,数据仓库也开始使用列存储,一般来说,数据仓库中的数据仓库取代事务数据库中的行存储。由于列存储具有自动索引、减少总I/O和数据压缩等优点,因此可以显著提高查询性能。图2:数据仓库体系结构

在功能层面,MPP数据仓库的底层数据仍然由事务数据库提供,经过长期的发展,SQL标准和ACID功能的稳定性和可靠性得到了提高。MPP只处理结构化数据,不处理半结构化或非结构化数据。在性能层面上,MPP存储不采用共享存储架构,每个计算节点都有独立的存储节点,因此并行处理和扩展能力较好,数据量大。它可以满足(GB或TB级别)下的高并发性和高性能要求,其可扩展性与共享存储架构相比有了很大的提高。但是,一旦集群扩展到数百个节点,MPP存储仍然存在性能瓶颈,扩展成本也很高。第三代分析数据库--数据湖以Hadoop为代表的数据湖出现于2005年以后。现阶段,随着互联网的兴起,企业需要处理的数据呈现出多类型、大规模的特点。另一方面,数据类型包括大量结构化数据,以及半结构化数据(如CSV、XML、日志)和非结构化数据(如文档、图像、音频、视频)另一方面,数据量从GB或TB级别增加到TB或PB级别。同时,企业数据分析的应用场景也越来越丰富,除了传统的数据查询、固定报表之外,还有大量的自助分析用于业务监控和洞察,还有具体的实时数据分析场景。在技术架构层面,为了承载大量结构化、半结构化和非结构化数据的存储和处理,Hadoop系统可以使用HDFS进行数据存储,以低成本灵活地存储任何类型的原始数据,并可以使用MapReduce、Spark等引擎进行大数据计算。随着Hive和Spark SQL等大数据组件的出现,企业可以实现基于Hadoop的数据仓库(SQL-on-Hadoop)功能。这意味着数据湖中的数据通过ETL转换为数据仓库,以支持BI和其他应用程序。同时,Storm、Flink等流处理引擎也可以在一定程度上满足企业实时数据处理的需求。自2015年以来,AWS S3等云提供商提供的对象存储在私有部署中已经大大取代了HDFS,大大降低了存储成本,但基于数据湖的大数据架构基本保持不变。图3:Data Lake Architecture

在功能级别,数据湖中的各种类型的数据都是按原样存储的。因为它使用的是(schema on read)schema分析,数据湖的SQL标准,对ACID功能的支持较差,其数据版本控制和索引功能不足,Hive本身不支持单个记录的更改;数据湖很难取代MPP数据仓库来处理结构化数据的能力。在性能层面上,SQL-on-Hadoop实现了软件上存储节点和计算节点的独立性,并且可以独立扩展,因此节点可以扩展到数千个规模。实际上,Hadoop的企业部署主要基于物理机,因此在硬件层面上,计算资源和存储资源仍然绑定在一起。在分析第四代分析数据库在技术架构、功能和性能水平上的特点之前,首先需要了解近年来数据分析应用场景、数据和计算环境的重大变化趋势,以及现有分析数据库应对这些变化的主要缺点。首先,企业数据分析的应用场景越来越广泛。在数据分析的基础上,企业可以通过预测客户行为、提供个性化的客户体验、预测市场趋势、制定业务战略来提高竞争力。与此同时,随着进入数据分析壁垒的降低,企业中的许多商务人员都成为了数据消费者,并逐渐演变为“人人都是分析师”。在此背景下,企业中的数据分析和应用程序数量急剧增加,除了传统的结构化数据库BI应用程序外,对实时数据处理和分析的需求也在迅速增长。与此同时,许多创新的AI/ML应用程序正在涌现。根据AI分析的预测,头部企业潜在AI/ML应用场景的数量可能达到5000-10000个,长尾企业AI/ML应用场景的数量可能达到100-1000个。图4:企业中潜在的AI/ML用例

估计逻辑:场景是指人工智能技术可以应用的最小单点应用,如订单应用的智能推荐,潜在应用场景是通过(内部系统数量)*(每个系统可以应用人工智能的人工操作或规则模型数量)来估计的。表2:主要行业数据智能创新典型应用场景

其次,企业的总数据量和实时数据正以前所未有的速度爆炸式增长。随着互联网的深入发展以及云、5G等基础设施的成熟和兴起,大规模应用、移动设备和边缘设备的联网将导致数据规模的激增,许多企业需要处理的数据量将超过PB。IDC预测,到2025年,全球数据量将达到175ZB,其中25%以上是实时数据。图5:到2025年的全球数据量和构成

最后,企业业务和分析系统上的云计算正在加速发展。随着企业的业务系统和分析系统逐渐迁移到云端,数据分析系统也部署到云端,充分利用了云端的可扩展性和相关技术资源。IDC预测,到2025年,全球49%的数据将存储在公共云中。在国内市场,由于政策监管、企业接受度等原因,国内企业云计算的步伐不如国外那么激进,但从长远来看,这一趋势不会改变。在实践中,许多企业正在使用传统的数据仓库或基于数据湖的大数据解决方案,许多企业正在并行部署多个数据系统,以满足不同的数据分析需求。然而,由于许多原因,这些解决方案有一些主要缺点,例如:存储计算资源难以灵活扩展,限制了大量数据下数据分析的性能和速度。无论是MPP数据仓库还是内部部署的Hadoop大数据解决方案,存储和计算资源都是耦合的。这种设计通常存在存储资源冗余、计算资源不足、扩展成本高、节点扩展上限等问题。对于大型数据集,企业查询数据可能需要数小时或更长时间,这限制了大数据分析的性能和速度。缺乏优化的性价比,资源消耗大,成本高。另一方面,在数据湖和数据仓库的两层架构中,数据首先被ETL到数据湖,然后被ETL到数据仓库。这给系统带来了额外的复杂性,这不仅增加了ETL运营成本,而且将数据从数据湖复制到数据仓库的存储成本也会增加一倍。另一方面,由于dexwarehouse使用自己的数据格式,将此数据或工作负载迁移到其他系统时会产生额外的成本。对人工智能和机器学习等高级分析的支持不足。目前流行的机器学习系统,如TensorFlow、PyTorch和XGBoost,很难在现有的分析数据库上高效运行。这些系统在从数据仓库或数据湖加载大型数据集时需要编写非常复杂的非SQL代码,并且数据湖本身缺乏丰富的数据仓库管理功能,如ACID功能,数据索引和数据版本控制,这使得读取数据更加困难。系统架构复杂,稳定性差,管理和维护成本高。在过去几年的发展中,由于技术能力,资源和系统流程等方面的限制,企业采用了许多临时数据解决方案。一方面,企业根据自身的需求,不断升级和修补现有的多孤岛和大数据系统。另一方面,由于数据仓库和数据湖各有各自的缺点,为了满足不同的数据处理和分析需求,企业往往会建立独立的系统来处理数据,如独立的数据仓库、数据湖、流数据处理平台等。由于这些因素,企业实际的数据系统架构非常复杂,技术债务积累起来,系统管理和维护成本非常高。图6:并行多个系统的典型企业数据平台

第四代分析数据库“智能湖仓库”的诞生通过分析近年来数据分析应用场景、数据、计算环境等方面的变化,以及现有分析数据库在应对这些变化方面的主要缺点,我们认为下一代分析数据库必然会朝着提高分析性能、提高易用性和降低使用成本的方向发展。在这些技术趋势下,Databricks于2016年推出Delta Lake,以支持数据湖中类似DBMS的数据管理功能,而Databricks在2020年首次推出LakeHouse概念,标志着智能湖孤岛的兴起。在海外市场,Snowflake推出了Data Cloud产品,将数据湖的功能添加到云中的数据仓库中。Amazon Cloud Technology基于Amazon S3构建了一个数据湖,并集成了数据仓库、大数据处理、日志分析和机器学习数据服务,以在湖泊周围创建智能湖仓库。在国内市场,华为云、阿里云等公有云厂商,以及Tip Pu Technology等最新数据库厂商,近年来也推出了智慧湖仓储产品,赢得了一批行业领先客户。图7:Smart Lake Warehouse Architecture

智能湖仓库在技术架构、功能和性能水平上具有以下主要特点:通过元数据层实现数据湖上的数据管理功能。智能湖仓库采用标准文件格式(如Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,在元数据层实现ACID事务处理、版本控制等数据管理功能,使多个计算引擎共享统一的数据存储。同时,由于缓存、辅助数据结构(索引、统计等)和数据布局的优化,智能湖具有良好的SQL性能。流批量集成,简化系统架构。智能湖仓库可以实现批处理和流处理的统一,通过CDC(Change Data Capture)将业务系统数据实时提取到数据湖中,实时加工后传输到OLAP系统内的外部服务,实现端到端进程的分级延迟。同时,简化了系统架构,大大降低了系统维护和数据开发工作的难度。云原生,存储隔离。基于云本机架构,智能湖仓库存储和计算资源有效分离,企业可以根据需求灵活地分别扩展存储和计算资源,且扩展需求几乎没有限制,从而实现对大规模数据查询和分析的高性能。并且显著降低了TCO(Total Cost of Ownership)3.中国分析数据库市场规模中国分析数据库市场发展的最新驱动因素:企业数据处理和分析需求的升级分析数据库市场发展的最新驱动因素是企业数据处理和分析需求的升级。面对新的数据处理和分析需求,企业原有的数据系统存在诸多局限性,因此分析数据库的功能也需要相应的升级。针对这些需求,超大规模结构化数据查询:满足数百万、数千万表单数据查询的高性能。实时数据处理:满足大规模实时数据处理的需要。AI/ML应用:为大规模AI/ML应用开发提供数据读取和相关功能支持。集成存储和孤岛隔离:解决数据孤岛问题,根据不同的业务需求进行孤岛建设;现有系统架构维护维护复杂:现有数据平台多个系统并行,管理维护成本高。受行业特点、行业和企业发展阶段、企业数字化程度等因素的影响,国内企业的实际需求差异很大。对此,我们调查了各行业企业的相关需求,发现金融、能源、先进制造、零售等行业企业在数据处理和分析需求升级方面存在一些因素。图8:主要行业数据处理和分析需求升级的因素

长期因素:分析数据库的全面迭代企业对分析数据库功能升级的需求,在不久的将来,将有两条路径:利用传统数据仓库或数据湖进行功能升级,以及新型智能湖仓库。从长远来看,未来企业将高度数字化,需要处理的数据大小和数据分析场景的广度也趋于统一,企业需要构建统一的数据存储和计算基础,传统的分析数据库由于自身的局限性逐渐被智能湖所取代。企业将完成分析数据库的全面迭代。图9:企业未来的数据平台架构

分析数据库包括数据仓库、数据湖和智能湖,因此分析数据库的市场规模是这三个市场的总和。IDC数据显示,2021年中国数据仓库市场规模为87.1亿元,大数据平台软件市场规模为162.8亿元。IDC定义的大数据平台存储计算引擎包括两大类:数据湖和智能湖。因此,2021年我国分析数据库市场规模可以看作是数据仓库和大数据平台市场规模总和249.9亿元。同时,IDC预测数据显示,到2024年,中国数据仓库市场将达到168.5亿元,中国大数据平台软件市场将达到352.9亿元。综合数据,到2024年,中国分析数据库市场规模预计将达到521.4亿元,复合年增长率为27.7%。未来,智慧湖将逐步取代传统的数据仓库和数据湖,潜在的可触及市场是整个分析数据库市场。作为下一代分析数据库,智能湖可以直接在数据湖的低成本存储上实现类似数据仓库的数据结构和数据管理功能,将传统数据仓库和数据湖的数据存储和计算能力结合在一起,在功能、性能和成本方面都具有显著优势。因此,我们认为,从长远来看,随着企业数据量的进一步增长和分析场景的更加丰富,智慧湖将逐渐取代传统的数据仓库和数据湖,潜在的可触及市场规模将是数据仓库和大数据平台软件市场规模的总和。图10:中国分析数据库市场规模和增长率

数据仓库和大数据平台软件市场规模数据包括两种模型:内部部署和云部署。大数据平台软件还包括运营管理工具,如数据开发、数据资产管理和平台监控管理。由于数据湖和智能湖供应商通常也提供这些软件服务,因此大数据平台软件的市场规模可能是这些供应商能够达到的市场规模。分析数据库市场的众多参与者,为了更准确地判断市场格局,了解关键厂商的竞争优势,我们从制造商背景、自我研究能力、技术架构、商业模式、行业落地五个维度对分析数据库厂商的关键竞争因素进行了梳理。制造商背景:团队背景和产品定位制造商背景主要集中于成立时间、团队背景、产品定位等信息,可以反映制造商在相关领域的传承、研发实力、发展战略等。制造商成立时间较早,一般意味着他们在数据库市场上有着深厚的积累,这类制造商的市场知名度较高,产品通常成熟稳定,服务客户数量也较多,近年来,新制造商通常在产品技术水平上有较大的创新。它可以满足企业快速变化的数据处理需求。团队背景反映了厂商在数据库产品方面的技术积累和研发经验,而数据库厂商核心团队成员通常来自国内外老牌数据库厂商、公有云厂商或顶尖高校。产品定位反映了供应商在分析数据库领域的产品能力、服务客户群、服务范围等。技术架构:技术路线和场景应用能力厂商分析数据库产品采用不同的技术架构,代表技术路线和场景应用能力的差异。目前市场上主流供应商提供的分析数据库包括前面提到的第二代到第四代,即MPP数据仓库、数据湖(基于Hadoop生态系统)和智能湖。表3:不同技术架构分析数据库的主要指标

自主研究能力:制造商具有较强的自主研究能力,提高功能,提高稳定性,保证安全性,可以掌握分析数据库的核心代码,在数据库的功能迭代和管理维护方面提供原始水平的服务,具有较强的竞争优势。供应商可以从源代码中掌握核心代码来解决软件核心问题,领导产品的功能迭代,并根据不同客户的个性化需求定制功能。另一方面,供应商可以在网络存储计算资源、安全控制等方面进行更深入的优化,提供原始级别的数据库管理和维护工具,以提高数据库的性能,提高数据库的稳定性和安全性。分析数据库供应商的自我开发能力主要有两种方式:自行开发数据库内核,或者基于开源技术进行源代码级别的更改,并回馈开源社区。数据库内核的自我开发在数据仓库制造商中很常见,而国内外主流数据湖和智能湖仓库制造商通常都是基于开源技术进行二次开发的。例如,智能湖仓库厂商主要是基于Netflix开源的Iceberg和Uber开源的Hudi做商业版,还有典型的厂商产品,比如基于Iceberg的Dipp FastData、基于Hudi的华为MRS、基于Flink + Iceberg的网易北极平台。DataBricks目前正在开源Delta Lake,但除了DataBricks之外,没有其他主要的商业产品。图11:分析数据库供应商的自我发展方法、目标和价值观

要在开源技术的基础上进行二次开发,关键在于供应商要继续为开源社区做出贡献,并在开源社区中拥有高技术影响力。如果供应商对源代码的更改不能被主流社区接受,那么就有可能与产品技术和主流社区脱节,导致产品稳定性不足。因此,对于分析数据库供应商,尤其是智能湖供应商,我们需要专注于与开源社区的密切关系。随着开源社区的技术影响力,只有厂商二次发展的开源技术不断反馈到主流社区,在主流社区中确立了领先地位,在一定程度上才能影响开源社区的技术发展路径,可以被认为具有较强的自我研究能力。商业模式:在提供数据平台全栈产品和服务的商业模式层面,国外厂商主要提供数据库产品,而在国内市场,企业的数字化基础设施整体落后,因此企业通常会选择数据库产品,数据平台所需的工具组件,并要求供应商提供相关的实施和咨询服务。国内厂商根据分类不同,商业模式也不同。传统的数据库供应商只向企业提供数据库产品、数据库操作工具和部署服务。除了提供数据库产品外,大数据解决方案提供商(包括数据湖和智能湖供应商)还提供数据平台构建所需的工具组件,如数据开发、数据治理和数据资产管理,以及数据平台构建实施和咨询服务。其中,供应商之间的主要区别在于,与各供应商数据平台相关的工具组件数量和功能完整性有一定的差异,受到服务客户范围和经验积累的限制,在实施和咨询服务的效率和经验方面也有优缺点。为了满足更多的客户需求并获得更多的市场份额,我们建议专注于能够提供完整数据平台的全栈产品以及实施和咨询服务的供应商。此外,在商业模式中,公共云供应商也可以提供数据平台相关的产品、实施和咨询服务,但其重点是为企业提供标准化数据库产品的云部署,通常是:它将数据库产品与自己的云基础设施服务绑定并销售,而定制的服务通常只针对行业内的主要客户。图12:分析数据库供应商的典型商业模式

分析数据库对行业的落地,反映了厂商产品技术能力得到行业客户的验证,以及在行业内积累的经验。不同行业的企业需要处理的数据量、数据类型和分析场景各不相同,因此对分析数据库的功能、性能、成本等要求也各不相同。例如,金融、能源等行业的龙头企业通常拥有PB级规模的超大规模数据,数据库需要高性能的1000万个单表查询,对数据的实时处理能力要求也很高,因此分析数据库厂家可以更好地了解更多的财务、如果能得到能源行业的主要客户的使用,那就意味着厂商在超大规模数据的计算查询中,实时数据处理水平都有较好的表现,数据库产品的稳定性更高。由于零售行业企业存在大量的探索性分析场景,对数据存储和处理的成本比较敏感,如果制造商积累了更多的零售行业企业,他们对零售领域有深入的行业了解,可以满足这些企业个性化分析场景的需求,产品具有较高的性价比。分析数据库市场竞争环境分析数据库市场有许多参与者。经过几十年的发展,分析数据库已经经历了四代的演进,传统数据库供应商仍然是市场上的主要参与者,通过产品迭代满足用户的需求。近年来,随着数据成为企业最重要的生产要素,企业的数据存储和处理变得更加复杂,国内外市场上涌现出了一批采用最新一代Lakeware集成架构设计的前沿数据库厂商,领先的公有云厂商纷纷推出了..。针对不同应用场景推出分析数据库产品。图13:国内外分析数据库市场代表厂商

注:近年来,一些推动传统MPP数据仓库和数据湖产品的新数据库供应商也被归类为传统数据库供应商。由于企业背景、技术路线等原因,不同类型的厂家在产品技术能力、商业模式、客户积累等方面存在诸多差异,相应的优缺点。传统数据库供应商主要有两种类型:提供传统MPP数据仓库的供应商和基于Hadoop生态系统的数据湖服务。这些供应商中的许多都有着悠久的历史,并伴随着几代数据库的开发,例如Oracle和Teradata。高稳定性和安全性。长期建立的传统数据库供应商通常具有很高的稳定性和安全性,因为他们的产品经过长时间的打磨迭代,已经被大量客户使用和验证。例如,基于Hadoop生态系统,Cloudera推出了大数据平台CDH和CDP,特别是目前发布的产品CDP,包括计算引擎、各种分析功能、管理工具、资源调度等,都做了很多深度优化,Cloudera在全球拥有700多名研发工程师。我们确保用户获得稳定的使用体验。同时,CDP中的Shared Data Experience Technology(SDX)以及安全和治理功能使CDP能够在不同云中实现企业数据的安全性、隐私性和合规性一致性。良好的客户基础。在分析数据库开始兴起的早期,传统数据库厂商凭借先进的产品和技术、完善的管理工具和服务占据了大量的市场份额,并一直延续到现在。以Oracle为例,在国内市场,很多金融、电信等企业都在使用基于Oracle数据库构建的数据仓库。在海外市场,大多数财富500强企业和许多中小企业都是甲骨文的用户。随着分析数据库技术的发展,Oracle不断跟上时代,推出云数据仓库产品Oracle ADW,以满足更多客户的需求。缺点:技术结构传统。传统的数据库供应商通常采用原有的技术架构,并针对新的功能需求进行技术升级或大规模补丁,这使得系统架构越来越复杂,管理和维护成本也越来越高。以Cloudera CDP为例,最新版本的CDP在混合云和多云部署、存储分离、多功能分析等方面提供了更多支持,但CDP仍然使用Hadoop生态系统技术,目前CDP包括存储、计算、流处理、编排、SQL等。它包含多达39个开源项目,涵盖NoSQL和其他组件。同时,这种传统的架构不支持一些新功能,例如数据库上的完整数据链路。领先的数据库制造商的主导技术架构满足了各种分析场景。许多领先的数据库供应商采用了新一代技术架构设计,包括Lakeware、StreamBatch、Cloud Native等,存储计算引擎也经过优化,能够以低成本、高性能满足企业不同的分析需求。 以Tipp Technology为例,其智能湖仓储产品FastData采用统一数据存储,通过集成技术元数据层实现完善的数据管理功能,对接多种分析引擎,实现多模数据集成存储处理、批处理、流式计算、交互分析等功能。它满足了机器学习和其他分析需求。同时,FastData采用流批处理集成架构,每秒可以实时分析PB级数据。客户的接受度没有提高。虽然领先的数据库供应商在产品技术层面处于领先地位,但企业用户对新一代分析数据库的接受度仍有改进的空间。一方面,大中型企业通常具有较高的数字化程度,在传统的多孤岛、数据湖建设上投入较大,数据平台上已经有大量的业务应用和ETL任务,直接迁移的工作量和成本非常高。因此,企业通常会在新的数据存储和处理需求大量出现时部署智能湖仓库。另一方面,与国外企业在云计算上的积极步伐不同,国内企业在云计算上的步伐总体上缓慢加快,很多企业仍在采用本地部署模式,难以发挥云原生带来的敏捷性、弹性、低成本等优势。公有云供应商的优势产品类型丰富,可满足不同的应用场景。公共云供应商提供多种类型的分析数据库,以满足企业的分析需求。阿里云分析数据库产品包括云原生数据仓库AnalyticDB MySQL版本、AnalyticDB PostgreSQL版本、实时数据仓库Hologres、大数据计算服务MaxCompute、基于Hadoop的大数据平台E-MapReduce、智能湖数据湖形成等。云服务销售不足,缺乏中立性。在IaaS、PaaS和SaaS层提供丰富产品和服务的公共云供应商通常销售与IaaS层存储、计算资源和相关运营服务捆绑在一起的数据库产品,从而减少了企业的选择并增加了使用成本。服务能力不足。公有云供应商的业务重点是为企业用户提供标准化的产品,国内许多企业现在都倾向于使用私有部署模式来满足这样的需求,公有云供应商通常会与生态合作伙伴合作,外包实时部署服务。缺乏原始服务会导致项目质量的不平衡。此外,对于一些企业的定制功能需求,公共云供应商往往难以满足。分析数据库的典型产品分类侧重于提供下一代分析数据库的国内供应商。一方面,由于厂家的传承、定位等方面的差异,国内外许多厂家都会提供各种分析数据库产品。我们相信新一代的分析数据库产品架构在处理大数据,支持多种分析场景,未来将逐步成为分析数据库市场的主流。另一方面,由于创新政策的影响,国内企业,特别是金融、电信、能源等国有企业,在应对未来分析数据库升级需求时,将基本选择国内厂商的相关产品。图14:国内外分析数据库中典型产品分类

6.2004自成立年以来,国内代表厂商分析南大通用一直专注于数据库软件的自主创新,维护产品的核心技术和底层代码,保持自身可控性,分析数据库和交易数据库产品完全依靠自主研发,并于2014年通过导入Informix数据库源代码。推出高端事务数据库,逐步形成了完整的数据库产品和服务技术堆栈。图15:GNU GBase8a开发的亮点

在技术架构层面,NTU通用核心产品GBase系列数据库随着客户需求场景的变化,开发了多种架构来支持不同的业务需求。对于数据分析市场,主要有分析数据管理系统GBase8a和集成数据平台GBaseUP。GRBase8a基于大规模并行处理、列存储、高压缩和智能索引技术,能够满足数据密集型行业对数据分析、数据挖掘、数据备份和临时查询日益增长的需求。GBase8a MPP Cluster是最新的超大规模群集版本,可在单个群集中部署300多个数据节点,并在整个群集中处理超过15PB的数据。GBase UP是一个大数据平台产品,它集成了专有的MPP数据库、事务数据库和开源Hadoop生态系统,考虑到大规模分布式并行计算、稳定高效的事务处理、Hadoop结构化和非结构化数据处理技术的多样性,并考虑到了OLAP、OLTP、它可以适应NOSQL的三种计算模型。在商业模式层面,通过构建产品的上下游生态系统来提高市场竞争力,使自己的数据库产品与国内云平台、操作系统、处理器、中间件等深度适应,完善产品,创新商业模式,推出适合行业的销售策略。截至目前,NTU通用GBase系列数据库已完成国内数千款主要厂商软硬件产品的兼容性合格认证,并继续加强与集成商、云厂商、软件开发商和开源社区的生态合作,深化产品整合优化。GBase8a以中国移动、中国联通、中国电信、银监会、公安部、安全部、工业信息部、国税总局、国家海洋局、中国石油等重要部门和大型国有企业为中心,为金融、电信、能源等行业2000多家企业提供服务,部署25,000多个节点,管理200PB以上的数据。Dipp Technology成立于2018年,是国内领先的数据智能产品和服务提供商,其核心产品云原生数据智能平台FastData,包括核心实时湖孤岛引擎DLink,旨在为企业构建湖孤岛和流批分析数据库。公司研发人员占比超过85%,核心成员是多年来来自华为、阿里、AWS、IBM、甲骨文等顶级厂商的数据库产品技术专家。在技术架构层面,FastData统一了底层技术堆栈,实现了湖仓与流批的整合。FastData在数据存储中采用统一的数据存储格式,统一元数据层与Hive Meta Store接口兼容,可实现Flink、Trino、Hive等常用大数据分析、计算引擎的无缝访问和良好的互操作性。并使用统一的SQL编辑器支持各主流SQL类操作。同时,FastData在Iceberg、Flink和Trino引擎的基础上进行了技术优化,实现了数据采集、转换、存储和分析的实时功能(以分钟为单位)图16:Tipp Technology FastData DLink架构

在自我研究能力层面上,Tip Technology与开源社区紧密相连,在元数据管理、数据存储格式、数据分析性能等方面做了大量工作,结合客户在客户服务流程中的实际场景和需求。例如,Tip Technology和Iceberg社区对索引和维度表等技术进行了增强和优化,大大提高了数据查询性能。整合元数据后,Triple Technologies在Trino和Flink之上构建了统一的ANSI SQL层,提供了一致的体验,并进一步提高了易用性。Tip Technology将Flink、Iceberg、Trino等开源组件的优化和新功能逐步回馈给开源社区,在开源社区中具有很高的活跃度和影响力。在商业模式层面,除了数据库产品外,Dipp Technology还为企业提供数据平台的全栈产品及相关服务。FastData可以为企业提供全栈数据运营管理能力,包括提供完整的数据治理系统和数据资源盘点工具。通过开发、发布、维护的全链流水线管理,实现清洁、统计、存档等ELT任务的高效开发和智能维护。提供数据资产管理工具,对数据资产进行可视化管理、处理和服务,通过指标/标签/模型等要素实现企业业务场景的数据化,提供数据资产的创建和运营能力。同时,Tip Technology还可以为客户提供实施和咨询服务,为企业提供优质、性价比高的原创服务,满足客户定制化发展需求。在精益制造、商业流通、生物医药、金融科技、能源双碳等领域,公司已与深圳龙华区、佛山顺德区、枝花东区等政府机构合作,服务100多家主要客户。FastData可以满足不同行业企业对分析数据库的需求。例如,在零售行业,FastData的湖仓功能支持探索性和自助分析,帮助企业实现数据驱动的管理和业务创新。面对先进制造业和半导体等行业面临的海量数据快速重重的问题,FastData可以满足高并行性、低延迟的PB级数据处理需求。Huawei Cloud MRS是Huawei Cloud于2020年推出的原生数据湖服务,是Huawei Cloud大数据云服务产品FusionInsight的存储计算引擎。华为Cloud FusionInsight专注于打造企业级数据湖,提供完整的数据存储、计算和运营管理产品及解决方案服务。在技术架构方面,MRS云原生数据湖主要部署基于云原生存储和计算的分离架构的大数据环境,为离线、实时、逻辑三大数据湖构建统一的底层架构,实现了湖仓整合。云原生数据湖解决方案。在数据处理层面,我们引入了Hudi来简化数据链路,并采用增量处理框架来实现数据的增量更新和T+0实时增量化。增强了自主开发的HetuEngine数据虚拟化引擎,实现跨源跨域集成SQL访问,实现不同主题数据间的协同分析。使用Clickhouse进行自助式OLAP分析。MRS的缺点是,它将华为内部产品(如GaussDB数据库)与第三方厂商产品(如永红BI工具)集成在一起,是一个涵盖数据基础设施和大数据处理过程各个阶段的完整解决方案,不同产品组件的连通性和集成管理功能不完善。图17:Cloud MRS架构

FusionInsight保持着开放的路线,为开源社区贡献了大数据组件,如CarbonData和openLooKeng,并在Hadoop社区中排名前2位,在Spark社区中排名前4位。在客户服务水平上,MRS的客户群覆盖全球60多个国家和地区,3000多家企业和企业客户,目前专注于政府、金融、运营商、大型企业等行业,并连续三年在IDC发布的中国大数据平台市场份额评估中排名第一。结论:国内分析数据库供应商的机遇随着国内企业数字化转型的加速,分析数据库市场有望迎来巨大机遇。在不久的将来,金融、先进制造业、能源、零售业等行业龙头企业将率先更新和升级分析数据库功能,因为数据量大,分析场景多样化,实时性要求高。从长远来看,大多数企业都将高度数字化,其主要业务是数据驱动的,这意味着它们需要满足更多样化的分析需求,并采用具有高性能、低成本等特点的新一代数据存储和计算引擎。由于这些因素,分析数据库在四代中不断发展,并在架构、功能和性能方面不断发展。包括数据仓库在内的传统分析数据库和数据湖,即使是现在也能满足部分企业的需求,并将在市场上持续很长时间,但下一代分析数据库智能湖由于其诸多优势,必然会成为大多数企业的核心数据库。在这一趋势下,国内数据库市场也将随着智能湖仓库的兴起实现曲线超车,数据库领域的龙头企业将诞生,有望改变交易数据库时代数据库市场由国外巨头主导的局面。为了实现这一目标,国内数据库厂商需要积极拥抱分析数据库的发展趋势,继续大力投入技术研发,抓住行业发展机遇。

Tags: 数据库 仓库 数据 分析 企业