新浪新闻客户端

挑战云端AI训练领域,中国芯「邃思」背后的故事 | 专访燧原科技张亚林

挑战云端AI训练领域,中国芯「邃思」背后的故事 | 专访燧原科技张亚林
2020年10月28日 21:30 新浪网 作者 36氪

  从1到N,在每一个战略客户、应用高地上进行生态的打磨。

  2020年,人工智能应用范围继续扩大,而算力作为承载人工智能应用的驱动力,推动了整个人工智能产业的演进。AI 芯片为云、边、端多方协同提供了必要的算力支持,自然成为国内外工业界和学术界共同角逐的热点。

  AI 云端训练芯片设计难度大、行业垄断程度高,能独立完成设计、流片,并实现量产和落地商业化的国产芯片企业屈指可数。燧原科技就是其中一家。

  10月28日,燧原科技专为人工智能应用开发的云端训练加速芯片“邃思”(DTU, Deep Thinking Unit),获评由中国电子信息产业发展研究院评选的“中国芯”年度重大创新突破产品奖。这一奖项面向“有重大技术创新、填补国内技术或市场空白,对完善自主供应链具有较大贡献且产生较显著经济社会效益的单款芯片产品”,邃思芯片是仅有的四款获奖产品之一。

  邃思芯片赶上了行业商业化价值爆发的关键时期。据市场研究机构Tractica预测,全球 AI 芯片市场规模将由 2018 年的 51 亿美元增长到 2025 年的 726 亿美元,CAGR 将达 46.14%。据 IDC 预计,到 2025 年,中国将拥有全球数据量的 27.8%。随着数据量的爆发式增长,人工智能应用场景越来越丰富,对于算力的巨大需求让中国 IC产业面临严峻的挑战,但也蕴含了极大的机遇。

  今年,国务院也发布《新时期促进集成电路产业和软件产业高质量发展的若干政策》,从财税、投融资、研究、人才、知识产权、市场应用和国际合作等组合措施,重点支持集成电路企业及其相关产业链的发展。

  中国芯片市场需求旺盛,但国产品牌要撬动巨头的垄断局面并不容易。艾瑞咨询发布的2019年《AI芯片行业研究报告》指出,目前AI芯片行业接近Gartner技术曲线泡沫顶端,只有通过市场检验和筛选的优质团队才能够继续获得产业、政策和资本的青睐与支持。

  在这样的背景下,燧原科技是如何快速完成自主设计、流片、量产?又是如何在行业高度垄断的环境下推进商业化?带着这些问题,我们采访了燧原科技创始人兼COO张亚林。

  以下为36氪与张亚林的访谈内容整理。

  18个月里一次性流片成功,设计与量产均自主完成

  获得了“中国芯”年度重大创新突破产品奖的邃思芯片,从架构设计、产品设计到软硬件开发、流片,甚至到量产的所有环节,全部是由燧原科技团队独立完成的。

  作为一家以高端人工智能训练产品切入数据中心市场的初创公司,燧原科技仅经历 18 个月的高强度开发,就于 2019 年 12 月发布了“邃思”人工智能训练芯片和基于“邃思”芯片的人工智能训练加速卡“云燧 T10”。

  Q:AI训练芯片“邃思”能在18个月里一次性流片成功,背后主要的原因是什么?

  张亚林认为主要原因有三个。“第一,我们设定了‘高举高打’的目标和踏实聚焦的执行计划;第二,我们组建了非常优秀的研发团队,并得到了业内众多战略伙伴的大力支持;第三,我们有一套系统化的项目管理制度,保证项目的每一个里程碑都可以顺利达到。”

  张亚林认为,正是“做大芯片,拼硬科技”的初心,在创业之初吸引了志同道合的伙伴,迅速组建了团队。在开发第一个芯片时,全公司只有150人左右。“从产品定义、架构设计,到芯片的研发、流片再到后续的产品测试验证、量产等等,这150人组成了一个全链路的团队。”张亚林说。

  燧原科技的团队成员基本集中在上海张江和北京中关村——两个中国历史最悠久的集成电路研发中心。所有员工的平均工作年限达到 10 年,很多工程师甚至有超过15年的研发经验。“他们中的绝大多数人来自于业内知名的半导体公司和软件、互联网企业。”张亚林说。

  Q:在整个研发过程之中,最困难的是哪个环节?

  “我认为最难的部分有两个——一头一尾。”张亚林说。

  他回忆,2018 年 4 月,燧原科技启动邃思芯片项目时,全公司只有 3 个人,“连电脑、开发环境都要从头准备”。从产品定义、团队招募,到与产业链上下游伙伴合作,直至 2019 年 5 月成功流片。

  “尾”指的是量产环节。用张亚林的话来说,“从前期设计到成功完成流片,其实也只是走了整条路的一半。”

  实际上,从芯片回到实验室里点亮,再到量产,还需要将近一年的时间。在这一年的时间里面,有很多困难要攻克,比如芯片的良率、散热、稳定性、可靠性、以及成本的控制,性能的优化等等,这些问题涉及到很多的核心技术。

  “通常,如果你没有参与过大规模量产大芯片,你是不会掌握这种核心技术的。”张亚林说。“我们比较幸运的是,建立了一支完整建制的产品设计和量产团队。很多团队成员拥有大芯片大规模量产的经验,所以我们才能顺利完成整个流程。”

  Q:目前芯片的产能情况如何?如何控制成本?

  据张亚林介绍,在打通了量产流程后,燧原科技在芯片产能上发挥稳定。

  “大芯片的良率和散热稳定性是很有挑战的。我们在量产过程中跟GlobalFoundry和日月光进行了非常紧密的合作,目前我们的良率已经完全符合了GlobalFoundry关于良率的指引。”张亚林说。

  同时,燧原科技通过用验证方法学和验证覆盖率来确保芯片设计质量和制造质量,并通过软硬件联合性能以实现端到端的性能调优,保证了产品质量。

  “今年我们做了提前备货,同时优化供应链,所以在整个供应链上供货充分。又因为我们的量产环节没有外包,因此成本的优化和控制权全部掌握在自己团队的手里。”张亚林说。

  既有高算力,又有灵活性,“高性价比”的国产芯片

  2020年,AI芯片市场理性回归,投资人开始更多地关注算力和功效之外的问题,比如产品进入了哪些场景、合作了哪些客户、有没有软硬一体化的方案等等。“AI落地难”已成行业共识。

  特别是在云端 AI 芯片领域,因为海外市场起步早,且所需要协同的CPU/GPU等硬件成本投入规模高,该领域几乎已被英伟达一家垄断。

  Q:相比GPGPU方案,邃思芯片有什么竞争优势?国产品牌挑战传统巨头,关键难点在于什么?

  “邃思芯片专为 AI 深度学习应用设计,支持计算机视觉、语音识别、自然语言处理,机器学习知识图谱等 AI 模型训练所需要的性能,存储带宽以及互联。在保持高度的灵活性、可编程扩展的同时,在算力、能效比、性价比等维度上具有竞争优势。”张亚林说。

  GPGPU全称 General Purpose Computingon Graphics Processing Unit,即能够进行通用计算的图形处理器(GPU)。目前在全球范围内,实现 GPGPU 大规模落地商用的唯有英伟达,国内在这一领域的缺口还很明显。但目前GPGPU正在向分离的计算产品和图形产品进化,分别优化架构,而不再合并。比如英伟达的Telsa系列和RTX系列以及AMD的CDNA和RNDA,都是计算和图形分离的典型例子。计算的产品和架构主要用来做纯粹的 AI 和科学计算,而图形的产品和架构则主要是做游戏相关的加速。

  考虑到迁移成本和风险,国产芯片必须在性能上比肩国际巨头,并同时具备可编程扩展的灵活性,并拥有用户友好的软件系统,才能吸引用惯了巨头产品的客户选择自己的解决方案。

  张亚林认为,要挑战巨头,需要关注三点:第一是产品定位。第二是产品生态,第三是持续与国际巨头差异化竞争。

  关于产品定位,张亚林解释说,“我们会尽可能地帮客户降低训练产品迁移的成本,同时,做好技术支持工作,让我们的产品成为客户的第二选择,帮助他们的降本增效。”

  第二,在产品生态方面,张亚林认为,燧原想要做的是了解客户的真正需求,在场景上进行更多更深入地分析,采取多点突破,结合开源,从而构筑自己新的客户生态。

  最后,从长远来讲,“燧原目前还是一家初创公司,我们需要在整个产品的架构设计、生态打法、客户关系上,通过几代产品的迭代,慢慢在我们擅长的领域里面,真正与国际大厂形成差异化,为客户提供更多的价值。”张亚林说。

  Q:燧原GCU芯片架构的独特之处体现在哪里?

  值得一提的是,邃思DTU的创新之处,在于它基于自研核心IP和创新系统方案,具有完全自主知识产权的燧原GCU芯片架构。这是燧原科技区别于其他芯片公司的优势之一。

  张亚林介绍说,燧原的GCU结构专为计算搭建,没有带入任何的图形化部分,但是包罗了所有AI计算的模式和精度。“这使得我们的整个芯片的计算架构非常的单纯,是我们能够进行高效和高性价比运算的原因。”

  在运算过程中,燧原 GCU架构引入了云端 AI 计算引擎(GCU-CARE),数据架构(GCU-DARE),智能互联(GCU-LARE)和先进封装(GCU-PARE)4个部分。

  其中,云端AI计算引擎具有全域支持多数据格式、超高算力、可灵活编程等特点;数据架构具有可编程共享缓存调度,异步数据加载,提高运算并行度的特性;智能互联芯片4通道200GB/s高速互联,服务器内800GB/s高速互联;先进封装采用全覆盖仿真设计方法学,先进高并行设计流程。

  “燧原 GCU 架构的这 4个部分,共同构成了一个完整的芯片架构,也使芯片能够在AI训练和推断里发挥更大的计算效能。”张亚林说。

  从芯片设计的实验室走出,在商业化的峡谷中落地

  虽然国产云端AI芯片的商业化落地并非易事,但从中长期维度上,扩张半导体行业成长的边界因子依然存在。考虑到国内市场的充足需求,这是一块很大的蛋糕。

  关于投资人最关注的商业化问题,燧原科技有一个三年为期的计划。张亚林认为,燧原的商业化已经完成了从 0 到 1,接下来是从 1 到 N 的进程。

  Q:目前邃思芯片与云燧T10训练加速卡的商用进展情况如何?落地难度大吗?

  张亚林认为,目前燧原科技的商业化进程“已经完成了从0到1”,因为搭载邃思芯片的“云燧T10”组成的分布式集群已顺利落地,邃思芯片已经在头部客户的数据中心里正式开始业务运作。“接下来,我们会拓展客户群体,搭建客户生态。”张亚林说。

  现在,公司的商业化正在“从1到N的过程”,张亚林告诉36氪,接下来,燧原科技会选择战略客户和应用高地,“在每一个战略客户、应用高地上进行生态的打磨。”

  相比国际巨头,燧原科技这支中国团队也具有“主场优势”。张亚林认为,燧原本土化的团队可以给中国客户及时的支持,展现出更多的灵活性。“我相信未来我们的商业落地速度会大大加快。”

  Q:接下来燧原科技的中期目标和长期目标分别是什么?

  张亚林介绍说,燧原科技的中期目标,是“利用三年的时间,完成整个云端的AI训练和推断产品部署,完善生态,让燧原科技在中国的云端 AI 芯片领域成为头部企业。”

  “未来,我们希望能够长期聚焦发展数据中心业务。”张亚林说。“不仅限于 AI,我们希望能够给中国的数据中心带来高科技的产品和更广泛的系统生态。”

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有