买到一块芯片,并不等于拿到了它的全部算力。
模型真正跑起来,还要经过模型、框架、编译器、算子和工具链的层层适配。任何一层没有配合好,纸面参数都很难变成业务里的实际吞吐。
这不是国产芯片独有的问题。智能本身正在成为新的生产力,对计算的需求一路高涨,而硬件靠制程和堆芯片来提性能,成本越来越高,也越来越贴近物理极限。算力的增长追不上需求,计算效率能不能再上一个台阶,就成了整个计算产业绕不开的命题。
用软件把已经造出来的硬件用得更充分,是其中最现实的一条路。而智子芯元正在做的事情——AIforComputing,恰恰是从根来解这道题:用AI来优化AI计算本身,让软件真正把硬件深处没释放的算力抠出来。
三层矛盾,指向同一个答案
为什么必须用AI来优化AI计算?答案藏在三层递进的矛盾里。
第一层,软硬件加速迭代,适配永远追不上变化。应用和模型大多原生在英伟达的CUDA生态里,需要做额外迁移适配;不同框架适配于不同的使用场景,各类框架对不同模型和硬件的支持参差不齐;再往下,算子的实现能在多大程度上贴合硬件特性,直接决定了芯片的算力能释放几成;更底下,不同芯片在指令、内存和并行架构上的差异,让统一适配变得困难。任何一层没打通,理论性能就卡在那里下不来。
第二层,能同时吃透这几层的工程师极度稀缺。模型、框架、算子、编译器到硬件这一整条链的协同,牵一发动全身。而能同时吃透这几层的工程师极少,一个复杂任务调下来动辄数周。英伟达用近二十年构建了编译器、算子库、开发工具和框架支持的成熟软件生态;国产芯片起步晚、技术路线多,节奏被推得更急。
第三层,计算任务的复杂度已逼近甚至超出人的处理极限。功能对只是及格线——在功能都正确的成千上万种需求实现里,如何挑出在某块芯片的某个实战场景中跑得最快的那一个?性能差异藏在巨大的组合空间里,靠人一点点试,既慢又碰运气。
三层矛盾指向同一个结论:必须用AI来接管计算系统的复杂度。
KernelCAT:不是大模型,是能“自动驾驶”的智能体
通用编程智能体解决的是“怎样把需求变成可运行的代码”。智子芯元对付的是更加系统的问题——如何在计算系统的复杂度中找到需求实现的卡点,并且在成千上万种实现里挑出最快的那一个。
打个比方,通用编程助手更像辅助驾驶,需要人提出想法和把控流程;智子芯元想做得更接近自动驾驶,让智能体自主完成搜索、验证和迭代。
智子芯元构建的核心产品是KernelCAT——一个自动化计算加速平台。它通过国内首个“大模型+运筹优化+算法自动发现”的技术范式,构建可自动设计、执行、验证和迭代的计算加速智能体。
这套系统的内核是“数学思维”:
大模型负责理解任务、给出候选方案;运筹优化负责在硬件的硬约束里搜最优的参数和调度。每个方案最终都要放到真实芯片上编译、运行、做性能分析——代码对不对、快不快,由实测结果说了算,再据此修正下一轮。
KernelCAT并非单一编译器,而是一个将芯片特征等效建模、并利用AI进行搜索决策的优化框架。它的目标是把模型从“能够部署”推进到“能够在目标芯片上高效、稳定地运行”。
团队的理念是让智能体接管九成以上的工作——从识别硬件、配置环境,到编码、调试、调优、出测试报告,整条流程自己跑完,人只留在设定目标和最后验收这两头。
跨榜单验证的底层泛化能力
KernelCAT凭借通用的底层能力,自然地在多个主流benchmark上取得领先表现。
在评估AI自动生成算子能力的经典榜单KernelBench上,KernelCAT取得SOTA成绩——正确率100%、平均加速比211.9%、几何平均加速比288.5%,三项核心指标均为榜首。
在面向昇腾算子的CANN-Bench上,KernelCAT跑的53个任务里只有1个报错,同等条件下最顶尖的几个通用大模型分别报错6个、13个和42个。
更重要的是,这套系统不止做工程上的排列组合,而是能“用数学思维”自主探索新解法。一个例子是,开发GELU算子时它先用了硬件内置的数学函数,发现在极端数值下精度不达标,没等人提示,就自己改用手写的多项式逼近,反复测到精度过关。这种“自主发现问题、自主更换方案、自主验证”的能力,正是智能体超越传统自动化工具的关键。
不止算得更快,更是让“不能”变为“能”
KernelCAT的能力分两层。
第一层,让计算更快、成本更低。在DeepSeek-OCR-2模型迁移至昇腾平台的案例中,KernelCAT准备阶段5分钟自动定位迁移问题、自动配置环境、形成迁移方案;执行阶段从框架适配、算子优化到硬件在环验证一路打通,38分钟跑通,4小时完成基于Vllm框架的高性能适配。原本以月计的人工投入,KernelCAT已加速至2-3天甚至几个小时,并在多家国产芯片上完成验证。
第二层,让更多高价值场景可被“计算”。用软件释放算力这件事,往远看不只关乎AI计算——科学计算、工业仿真、金融建模这些计算密集的领域都需要同样的能力。KernelCAT生成和优化的算子已合并至昇腾官方CANN算子库,目前已广泛服务于AI计算、科学计算、工业仿真等关键领域。
这两层加在一起,才是“计算效率提升”的真正含义——计算能力跃迁改变的,是“能”与“不能”的边界。过去无法建模、无法仿真、无法规模化的高价值场景,现在可以被计算拿下。
高价值产业越来越被计算能力重新定义。算得更快、成本更低、效率更高,就是产业创新速度的决定项。持续提升计算效率,才是释放下一代生产力的关键。
客户端
媒体矩阵
企业邮箱