标题:4年融资1亿美金,ProtonBase 王绍翾揭秘 Data Warebase 核心技术
当一位操盘过Facebook在线Infra,阿里搜索数据和机器学习平台,阿里云实时计算平台,以及达摩院机器智能工程的技术领军人,带着1亿美金融资与团队杀入市场,数据库行业的游戏规则注定要被颠覆。
2025AICon大会·上海站,小质科技CEO王绍翾在接受某知名媒体的采访中首度介绍:团队历时4年打造的ProtonBase堪称“六边形战士”。它既是一个支持行列混合存储的分布式数据库和实时数仓,实现了真正的实时HTAP;同时也支持半结构化数据检索、文本检索和OLAP分析,让数据可视化能力得到了质的提升。更为关键的是,它通过实时增量物化视图技术取代了Flink,重新定义了流批一体的计算范式;支持向量检索,构建了AIAgent所需的完整数据底座;更打通了湖上数据的高效导入导出和外表查询实现了湖仓一体。
这款产品不仅可以让金融量化交易决策和风控系统实现“亚秒级决策”,又能在车联网数百万级高并发信号写入的场景下,实现实时数据检测的秒级分析。其技术突破的底层逻辑,源于对“未来应用只需一个DataAPI和一个AIAPI”的精准预判,而ProtonBase已率先拿下“多模数据库+AI数据查询入口”的生态船票。
这场从硅谷到阿里再到打造ProtonBase的技术革命,究竟隐藏着哪些颠覆行业的密码?本文将深度解构其技术架构、场景落地与未来趋势,揭开小质科技的进化逻辑。
Q1:首先感谢王老师来参加AICon大会上海站,请您做一下自我介绍。
王绍翾:大家好,我是王绍翾,在美国博士毕业后,加⼊了Facebook做在线Infra,参与的项目包括Memcache,RocksDB,以及Facebook自研的在线图数据库TAO等项目。
2015年,我回国加入阿里,主要有两段工作经历,第一段在搜索事业部,负责搜索的数据和机器学习平台;第二段在达摩院,负责整个机器智能工程,包括视觉/语音/NLP等AI技术的模型训练、推理、以及向量检索技术。
2021年,我离开阿里创建了小质科技,和团队一起打造了核心产品ProtonBase。因为之前的技术积累和团队的口碑,我们得到诸多头部基⾦的认可,顺利融资近1亿美金。目前,公司已经成立4年,服务了数十家客户,产品历经反复打磨和验证,正处于商业化的全球扩张期。
Q2:⼩质科技的核心产品ProtonBase,是多云原生、兼容PostgreSQL的分布式DataWarebase。想请您分享⼀下,公司打造这款产品的初衷是什么?是基于怎样的⾏业背景和痛点洞察,才决定研发这样⼀款产品来解决行业问题的?
王绍翾:我们创业之初就预见到未来的所有应用服务都将主要建立在两个API之上,一个是DataAPI,一个是AIAPI。
过去,DataAPI的实现极为复杂,用户若想搭建一个应用的底层,往往需要使用非常多数据系统。例如,数据库横向扩展可能采用MongoDB或HBase,文本检索使用Elasticsearch,还可能需要向量检索,分析型数据库等。如此一来,用户最终必然会面对A、B、C、D、E等诸多数据产品,硬件开销以及运维和开发成本急剧上升。
ProtonBase产品研发之初是想让业务的架构回归简单(Simple),解决架构不得不从A到B,从B到C,从C到D不断膨胀的问题。随着产品面世之后,在与市场不断磨合的过程中,我们发现ProtonBase最强的PMF(产品与市场的匹配度)在于满足那些对实时决策(InstantDecision)有需求的业务,例如金融量化交易和风控、车联网、以及数据可观测性等场景,这些场景的数据既需要具备极高的端到端的实时性,同时也要支持在这些实时数据之上的高并发复杂查询——而这正是ProtonBase的优势所在。
Q3:在ProtonBase的研发过程中遇到的最⼤技术挑战是什么?团队是如何突破这些难题,确保产品顺利推进的?
王绍翾:挑战非常多,因为要把ProtonBase打造成一个强大、统一的DataAPI平台,必须具备五大核心能力:OLTP、文档数据库、文本检索、向量检索,以及OLAP。
许多客户会问我们:“你们是如何将这些本质上差异巨大的能力整合到一个系统中的?”其实,我们整个团队经历了数据库,大数据,再到数据库的时代,积累了大量的工程经验。我们今天的产品其实就是集成了数据库和大数据的最重要的三个能力,第一是存储,第二是索引,第三是在高速存储上做到数据库级别的存算分离。
·存储层:ProtonBase支持数据的行存、列存以及行列混存;
·索引层:ProtonBase实现了数据库最重要的全局二级索引(GlobalSecondaryIndex),以及搜索所需要的倒排索引、向量索引、分析所需要的列存索引等等;
·存算分离:实现数据库级别的存算分离的挑战非常大。大数据的存算分离是基于公有云上高可用的对象存储,而数据库系统不能选用对象存储,因为它需要更高的吞吐和更低的延迟。要做好一个实时或者近实时的数据库级别的存算分离,难度和挑战很大,但我们实现了。
Q4:企业在选择一款数据库产品时要考虑的因素很多,ProtonBase最优势的场景是什么,在哪些技术场景下,企业适合考虑使⽤ProtonBase?
王绍翾:ProtonBase在数据DataAPI上,几乎实现了中间层的所有功能,但我们并不希望客户将ProtonBase仅用于单一模式,更希望把它视为多模数据库,发挥出1+1>2的化学效果。目前我们至少在三个方向上看到了这种因为多模的能力带来的1+1>2的场景。
一是真正的HTAP场景。如果一个数据系统仅将TransactionData存放在OLTP数据库,再将数据同步到OLAP数据库去做报表业务,那并非真正的HTAP。真正的HTAP首先要实现写入即可见(OLTP和OLAP的查询),其次要支持较为复杂的偏分析类查询,且查询吞吐较高,我们将这种场景称为真正的HTAP,例如金融量化交易。
二是可观测性和实时数仓场景。我们发现一个有意思的事情,数仓并不等同于OLAP,越来越多的场景在数仓上提出了对数据库能力的需求。例如,用户在做OLAP分析后发现了一些规律,就想去查看明细数据,按某些主键PK进行全部数据召回,甚至有时不仅需要对PK进行过滤召回,还需对非PK的主键进行过滤召回。此时,就需要OLTP数据库的全局二级索引的能力——而这是所有OLAP引擎所不具备的。
第三是AIAgent场景。因为AIAgent背后需要对接MCP(ModelContextProtocol),假设一家公司有多个服务和数据系统,当把数据存在3~5个数据系统之上,就会有3~5个MCP,大模型想去对接MCP做一些决策的时候就非常复杂。用一个数据库,一个MCP服务,可以大幅降低LLM的负担和推理复杂度。所以Agent天然期望用一个多模数据库来⽀持业务。
所以,真正的HTAP、可观测性+实时数仓、以及AIAgent这三个大场景,非常适合使用ProtonBase这种多模数据库。在这些场景下,企业可以借助ProtonBase多模融合、实时响应、高并发查询的能力,获得远超传统架构所带来的业务回报。
Q5:从2021年成立至今,小质科技的客户已经涵盖金融、电商、⻋联网与物联网、制造、游戏、广告、快消、教育等行业。能否简单介绍下这些行业是怎么使用ProtonBase的,并从中挑选一两个最具代表性的客户案例,详细分享一下合作过程、解决的问题以及最终取得的成效?
王绍翾:经过4年发展,公司已服务几十个客户,我们始终聚焦于最能发挥ProtonBase产品特性的场景去打磨与落地。我们有两个核心PMF:
第一类PMF:秒级Freshness+高吞吐InstantDecision(也就是我上面提到的真正的HTAP)。具体应用包括:
·金融场景:金融行情的量化分析和交易、金融的反作弊;
·广告/推荐系统:广告/推荐决策算法复杂且吞吐高,全链路越实时越有效;
·车联网与IOT:车机数据每秒更新,需即时进行规则匹配和安全分析。
第二类PMF:Simplicity,有些应用期望数据库天然具备Hybrid的能力。例如AIAgent场景中,系统希望直接对接一个统一的数据接口MCP,所以All-in-One的多模数据库是非常适合于AIAgent的,另外在可观测性的场景下也越来越需要数据库要具有Hybrid的能力。
下面我们挑选两个最具代表性的落地案例,分别来自金融和车联网行业,帮助大家具体理解ProtonBase的实际价值:
【案例一】金融客户:支撑秒级实时决策的AI交易系统
这家客户来自金融证券行业,需求非常典型:整个交易行情数据需要非常实时的写入数据库系统,写入即可见,然后有大量的交易者或者分析师甚至AI,对这些实时的数据做复杂的分析,然后做交易决策,所有过程都需要在几秒内甚至亚秒级完成(AITrading)。同时,这个客户内部有很多数据需要做可观测透出,他们最早使用的是TSDB这一类时序数据库,但是TSDB不支持update,客户转而使用Elasticsearch/ClickHouse这些OLAP系统,但是这些系统不能很好地支持复杂查询,在冷热分离和弹性方面也有诸多诟病。最终这家金融客户选用了ProtonBase。
【案例二】车联网客户:支撑数百万辆车并发的实时异常检测系统
该客户是头部车企,该车企每辆车每秒上传更新很多车机信号,需要系统快速应用各种规则分析数据,检测是否存在软件更新故障或其他突发问题。检测出问题后,需要立即按照某些特定列值召回某辆车或某批车的某些数值,这就天然形成了一个对OLTP和OLAP要求极高的场景。最终这家公司也是选用了ProtonBase。
Q6:ProtonBase作为⼀款基于DataWarebase理念的产品,既是⼀个数据库,也是⼀个数仓,还⽀持数据实时加⼯计算和数据湖上的查询加速计算。那么它和HTAP、流批⼀体、以及湖仓⼀体架构的关联和区别是什么?
王绍翾:很多人都会问到类似的问题。简单来说,ProtonBase用创新性的架构和实现,解决了数据库和大数据领域诟病已久的诸多问题,能力覆盖了HTAP、流批一体、湖仓一体等若干多模场景。客户对数据产品的需求往往只需要使用ProtonBase这一款产品就够了。
DataWarebase与HTAP的区别
首先HTAP不是一个数据库的概念,因为SQL天然就是一种既能支持OLTP,也能支持OLAP的语言,但当数据量变大、系统负载变复杂时,很多系统不得不在两者间做取舍。这也是传统数据库和数仓系统割裂的根源。所以HTAP要求的是一个系统能同时在OLTP和OLAP这两个场景下都拥有很好的写入和查询的性能。ProtonBase作为一个DataWarebase,既是Database也是DataWarehouse,所以天然就能满足HTAP这个场景。
但是光有HTAP是不够的,未来是一个多模数据库的时代,首先要有很好的OLTP和OLAP的能力和性能,其次要支持实时增量物化视图做数据的InstantTransform、文本搜索、向量搜索、文档数据存储和查询,甚至还要支持对湖上数据的查询,因此我们提出了DataWarebase的概念,它是Database+DataWarehouse的合集,是未来多模数据库的一个新范式。
DataWarebase与流批一体的区别
流批一体这个概念其实最早就是我们提出的。2015年我加入淘宝的时候负责商品搜索的数据加工,当时很多商品的属性和指标是非实时的,我们引入Flink解决了数据实时性的问题,还用Flink的Batch能力解决了批计算问题,在那个场景下将实时增量计算和批计算做到了计算引擎和SQL的统一,初步实现了流批一体化。
但这并不是最优的架构,因为Flink的运维和成本比较高,我们认为物化视图是解决流批一体的最佳方案,用户可以根据对每个物化视图的freshness需要来决定它们的刷新频率。这样就完美地实现了实时、近实时、以及T+1离线计算的SQL与引擎的统一,且运维和开发的易用性极好。
可惜的是,当前大部分的数据库或数据仓库提供的物化视图都不支持增量刷新,导致实时刷新物化视图的成本很高。ProtonBase投入大量精力实现了物化视图的增量刷新,成功打造了一款性价比极致的流批一体计算引擎。
DataWarebase与湖仓一体的区别
按照我的理解,湖仓一体只需要满足两个条件:第一是要打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动;第二是数据仓库能够对接标准的湖存储,做外表的查询、计算和写入。ProtonBase支持Iceberg,DeltaLake,以及Hive(ORC/Parquet)等主流湖存储的互联互通和外表查询,这意味着DataWarebase同时也是支持湖仓一体的数据引擎。
Q7:随着AI技术的⻜速发展,数据与AI的融合越来越紧密,这将为企业数据管理和应用带来全新的变革。在AI时代,您还洞察到企业对数据库和大数据的需求有哪些变动?
王绍翾:我分享两个观察,一是在数据库领域,PostgreSQL会变成非常主流的数据库。首先全球几乎所有的新兴数据库都是基于PostgreSQLAPI的。包括被Databricks收购的Neon、被Snowflake收购的CrunchyData、刚融资的Supabase、以及最近爆火的DuckDB、还有CockroachDB、Yugabyte等新型分布式数据库公司,无一例外的都选择了PostgreSQL作为查询API。所有的AI公司也几乎无一例外都选用了PostgreSQL,如OpenAI、Cursor、Notion、Perplexity、Anthropic等。
大家选择PostgreSQL的原因很简单,PostgreSQL非常标准且拥有强大的Extension,一套API几乎定义了DataAPI所需要的所有能力:OLTP、OLAP、JSON、GIS、全文检索、向量检索。这正是AI时代应用和Agent所需要的终极All-In-One数据库解决方案。ProtonBase从创立之初就预见到这个趋势,并基于PostgreSQLAPI构建,提前布局AI时代的标准接口。OpenAIo1发布之后AI的reasoning变得非常强大,加上Anthropic提出MCP的规范后,使得languagetoSQL成为可能。在ProtonBase上使用PG标准的MCP再配合强大的AI模型就可以直接实现很丰富的languagetoSQL的应用场景。
二是在大数据领域,未来数据湖的标准是Iceberg。我们看到世界上两个最大的数据巨头,一个是Snowflake,主推的是Iceberg,另一个是Databricks,以前主推DeltaLake,后来收购了ApacheIceberg背后的公司Tabular。所以我们可以预见到未来企业的数据湖基本都会围绕着Iceberg构建,ProtonBase也很好地对接了Iceberg数据湖,完善了湖仓一体的能力。
Q8:创业4年,您对其他AI和数据的同行或者创业者有哪些建议分享?
王绍翾:一路走来还是学到很多,边做边学。有几个感触最深的点:
第一点就是需要想清楚作为创业公司自己的产品PMF是什么?客户是谁?如何卖给客户?在这个过程中你的产品能力一定要在这个领域最好是第一,最差也要在前三。ToB是ValueSelling(价值销售)和SolutionSelling(解决方案销售),对一家创业公司而言,想清楚自己产品的PMF和打造好产品的竞争力至关重要。
其次,前期要专注于服务大客户。因为大客户的挑战和场景非常多且复杂,他们往往代表了其所在行业最大的挑战,如果能解决好大客户的问题,也会极大提升你在此行业中的影响力和公信力。
最后就是ToB业务绕不开的话题:全球化和出海。这是一个必选项,中国有大量卓越的软件工程师能够做出世界一流的产品,我们需要把这些产品和能力输出,在全球做生意,把利润带回来,“MadeinChina,SoldGlobal”是我们这代人的使命。
请输入验证码