首页 / 

郑纬民院士:国产芯片主要问题在于生态系统不够好,生态做好了,硬件稍弱也行

发表时间:2023-12-07 13:43
分享到:
  在12月5日举办的2023世界5G大会先导论坛上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民,围绕中国算力“破局”现状分享了自己的观点。
  他介绍,当前共有三种支持大模型训练的算力系统:其一是基于英伟达公司的GPU系统,也是很多人使用的;其二是基于国产AI芯片的系统;另一个是基于超级计算机的系统。
  他展开分析道,英伟达的GPU系统优点是硬件性能好,且编程生态好,因此很多人喜欢用这个系统做大模型。但可惜的是,美国政府不允许它的芯片再卖到中国,现在能买到的(芯片)从12月开始涨了一倍,关键是一卡难求,买不到。
  在科技制裁的情况下,中国加快了自研芯片的步伐。他表示,国内现在差不多有30家公司生产类似的芯片,但关键问题在于国内卡的生态系统不太好,国产的卡用户不喜欢用。
  郑纬民解释道,所谓生态系统好与不好,关键要看软件是否易于移植,以及可调用的库是否全面。
  “比如原来一个软件是基于国外系统写的,现在想把它移植到国内系统来,如果移植起来比较顺利那说明系统还不错,否则这个生态系统就是不好。另外,如果想写一个软件,写起来比较顺利,不要让我一写没这个库,一写没那个调用方法,那这个系统就是好的。”
  谈及如何能把国产系统芯片升级到更好,郑纬民列出了一些关键要素,包括要做好编程框架、提高卡的并行加速能力、还要做好通信库、算子库、编译器、调度器、内存分配系统、容错系统以及存储系统。
  他表示,并不是说国内的30家公司都没有做这些,而是说功能做的还不够齐,性能还不够好。他强调,“一定要下功夫把这些做好,才能真正叫做好了生态。”
  “我们不要求国产芯片一下子要比别人的更好,如果国产AI芯片硬件性能可以达到国外芯片的60%,并把以上列举到的关键点做好,将会让更多的用户满意。因为大多数用户不会因为60%的性能感到不满意,不满意的是生态系统做的还不够好。如果生态做好了,硬件稍微弱一点也行。生态不好,硬件很行也没有用。”他补充道,“当然硬件也很重要,硬件都没做出来的话,生态就更谈不上了。”
  对于超级计算机系统而言,郑纬民认为这也是可以用来训练大模型的一种方式。他表示,国内现在有14个国家一级超算中心,有些地方机器用的还不是很满,完全可以以租用的方式进行训练大模型,费用成本基本是英伟达的六分之一。
  最后,郑纬民指出,除了要发展算力系统外,加强程序员对现有多种类软硬件系统的认知能力也非常重要,这样才能做好任务分配,将现有设备性能发挥出最大作用。
  他表示,过去一台机器,基本就是“CPU+内存+硬盘”的模式,但现在除了CPU以外,还有GPU、TPU等各种各样的模式。硬盘也是,有很多新的存储器件出来。软件也不一样了,不管是人工智能应用软件,还是基于图数据的图计算应用,其实都在发生变化。
  “10年前,做天气预报系统的人懂‘FORTRAN语言’,懂数据结构,知道如何把软件写好就行。但现在需要更深度地理解现有的这些更复杂的软硬件系统,了解怎么将软硬件更好地做匹配,不然编出来的软件要么转不起来,要么转起来了但性能会很差。”(邢丹)
 
编辑:李芊诺
责编:邢丹
审核:陈雪辉
分享到:
评论一下
评论 0人参与,0条评论
还没有评论,快来抢沙发吧!
最热评论
最新评论
已有0人参与,点击查看更多精彩评论
热门文章