近年来,随着 AI、5G、物联网、云计算等新兴技术和行业快速发展,数据量正在以难以计量的速度爆发。据 IDC 数据预测,从 2015 年到 2025 年全球总数据量将会增长近 20 倍,达到 175ZB。
科技时代浪潮汹涌,海量数据催生庞大的算力需求 , 进而带动高性能、大算力芯片成为行业发展的驱动力和新趋势。
市场对高性能芯片需求日益旺盛的同时,也进一步加速了芯片的迭代周期,刺激芯片设计企业不断提高芯片技术含量、缩短交付时间,以提升核心竞争力。而另一方面,随着产品迭代,制程工艺越来越先进,芯片设计带来的 IT 资源需求和不断增长的开发周期和成本,逐渐成为了挡在芯片设计企业面前的痛点和挑战。
尤其是近几年,国内中小型芯片设计公司数量不断增多。据中国半导体行业协会统计显示,中国芯片设计企业数量已经从 2015 年的 736 家增加到 2023 年的 3451 家,其中约 84% 是规模在 100 人以下的小微企业。
囿于自身规模、实力和技术积淀限制,小微企业在芯片开发设计流程中,无法完全满足自身人力、算力、软件等刚需,容易造成资源利用率低、研发成本变高、技术成果转化慢等现实痛点。
芯片设计路上的 " 拦路虎 "
不难发现,现代的芯片设计,尤其是 CPU、GPU、NPU 等高端大芯片设计,其中的计算、验证、仿真工作量数倍于以往。
对于中小型芯片设计企业来说,在仿真、验证需求高峰来临时会出现资源不足的情况,这时候花费大量成本购置用于物理验证、仿真的服务器并不符合公司发展阶段的要求。
因为项目开发中不同阶段对于算力的需求是波动的。通常芯片设计周期一般超过 12 个月,包括产品定义、前端设计、IP 验证、SoC 验证、综合、布局布线等多个阶段,不同阶段对算力的需求也不相同。
芯片开发周期和 IT 资源配置关系曲线图
在这种情况下,芯片设计企业难以精准平衡资源需求与供给,多了浪费,少了则要一直反复采购搭建维护,即使按中间取值准备,当某个时间点任务量激增时也会出现资源不匹配的情况。
就算是大型芯片设计公司,在不同项目组之间通常也存在资源的争抢,而公司资源永远是有限的,在资源分配上很难做到灵活机动,往往出现 " 排队 " 与 " 闲置 " 同时存在的错配情况。这种错配就会导致资源利用率低,影响研发进度。
可见,对广大芯片设计公司而言,算力资源规划和成本之间的平衡,是一门艺术。
另一方面,芯片设计环境复杂,企业构建难。因为芯片设计行业普遍缺乏专业人才,中小型公司没有专门的 IT/CAD 团队进行研发环境的部署和维护,所以要想完全搭一套本地研发设计环境,周期长又复杂,人员也跟不上,需要耗费巨大的人力成本。
综合来看," 缺资源、缺人手、缺工具 " 等成为芯片设计企业普遍面临的问题:
资源阶段性急需:企业在流片前需要大量算力做验证,本地资源很难满足
专业人员缺乏:集群环境复杂,集群运维困难
专业管理工具缺乏:缺少易用的集群管理和调度软件,集群环境管理难
对此,是否有足够的服务器资源能快速部署?猛增的算力需求如何响应?如何有效平衡公司研发成本?IT/CAD 工程师短缺,芯片设计环境复杂且构建难的困局何解?
一系列问题无疑成为了芯片设计公司面前的一道道 " 拦路虎 "。
重重挑战下,芯片设计企业如何破局?
芯片设计开启 " 上云 " 时代
这么一来,芯片设计企业既要考虑项目算力的弹性需求,又要避免无谓的时间消耗,该怎么做?
让芯片设计上云,似乎是当下的最优解。
云,天然具备弹性特征,芯片设计上云后公司可按需向云提供商进行采购和扩展,能够灵活快速地满足算力的波动性需求。算力需求峰值阶段过去之后,云上资源就可以快速释放,从而节省了相关的费用投入。
这种弹性为开发者提供了灵活性、敏捷性和扩展性,提升了资源利用率。尤其是在芯片制造工艺不断发展,芯片集成化程度越来越高的趋势下,大量的计算、验证、仿真工作都需要强大的 IT 资源作为支撑,单靠企业自行构建 IT 资源设备所投入的人力、物力会非常庞大。
因此,芯片设计上云将成为芯片设计企业 " 降本增效 " 的必由之路。
简单来讲,芯片上云的本质就是用算力换时间、用算力省人力,通过云端弹性算力平衡成本投入,解放生产力。
相较于芯片设计公司过去部署本地算力的模式,云平台资源弹性使用、随用随开,可以做到随算力需求曲线平滑波动,资源利用率较高,满足各种业务突发需求。
可以预见,上云正成为芯片设计产业的一个趋势,在云端进行 IC 设计并通过弹性调整满足计算资源需求的时代已然到来。
对此,云供应商也在积极布局。
早在 2017 年,美国 Synopsys、Cadence 等几家 EDA 厂商开始提出芯片设计上云概念,AWS、微软等云计算公司提供芯片上云解决方案。
例如,Synopsys 与台积电共同部署云上设计和芯片制造平台,帮助台积电成为首家实现云设计的代工厂。Synopsys 还与台积电在微软 Azure 平台上成功实现云上时序签核新流程,加快片上系统开发效率。
在欧美地区,芯片设计上云已是市场共识,国内外主流芯片设计厂商、Foundry、EDA 企业纷纷转入云上设计 / 仿真。相比国外,国内芯片设计上云的开端始于 2019 年左右,包括阿里云、腾讯云、紫光云、华为云等多家云平台相继开始探索高性能计算场景。
在解决芯片设计的弹性算力需求的痛点外,公有云还具备丰富全面的生态合作体系,销售供应链协同,为芯片企业提供更全面的服务。
然而,具体选择怎样的上云方案,行业内并没有绝对的标准和太多可借鉴的案例。
除了上面按需付费的公有云方式之外,还有一种私有云方式,即在本地建一个芯片设计云来满足自身的芯片设计需求。因为随着一些芯片设计企业规模越来越大,芯片设计除了需要算力弹性以外,也有一些虚拟化的需求,因此搭建一个芯片设计私有云来做固定资源池的使用和仿真,也渐成趋势。
如果大公司全部买公有云,成本也会比较高,它比较倾向于在本地建一个固定的资源池,用私有云的资源来满足日常使用,然后涉及到弹性算力部分再结合公有云,形成一种混合云模式。
另外,还有些公司已经在线下部署了部分硬件设备,上云也并不意味着将本地设备全部搬到云上,也可以通过局部上云,即将本地设备、资源作为一个常备算力进行储备,再辅以云上算力资源的弹性补充,两者协同或是一个更优的性价比方案。
据了解,目前 AWS、Azure、阿里云等头部云供应商主要以提供公有云为主,在芯片设计私有云的部署方面涉及较少,更多的是紫光云、速石科技、常青藤开源科技(HPC insight)等企业在布局,既做公有云,也做私有云。
值得注意的是,相较于速石科技、常青藤开源科技依托于第三方云平台和底层资源,紫光芯片云的公有云依托自身的紫光云平台,在私有云的底层资源方面跟紫光集团旗下公司一起联合做私有云场景,全方位地为芯片设计企业打造一个完整的芯片设计环境,从算力、CAD 工具、集群调度和管理等关键环节出发,达到降本增效的效果。
总之,芯片设计平台上云不再是艰难的选择。公有云、私有云以及混合云都是应对高性能芯片设计挑战的有效方案,之间存在一些区别,用户可以根据自身需求选择适合的路径和模式。
搭建芯片设计环境,难难难!
能看到,芯片设计上云能够帮助企业在算力需求、效率和成本等要素上取得价值平衡。
但回到帮助企业缩短芯片设计周期这个问题,仅仅在云端提供算力支持只是基础服务。因为缺乏专职 IT/CAD 工程师等人才,致使一些企业即便拿到了云端算力资源,也很难快速地搭建芯片设计环境。
如文章开头所述,芯片设计环境复杂,缺乏专业人员和管理工具,缺少易用的集群管理和调度软件,这就使得芯片设计集群环境管理难、运维难。
对此,搭建一个专业的设计环境,成了芯片设计企业新的挑战和需求。
从行业现状来看,行业用户最熟悉的是 IBM 的集群核心软件 LSF,LSF 负责计算资源的管理和批处理作业的调度,它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源,同时提供丰富的功能和可定制的策略。
目前,LSF 基本是高性能计算环境中不可或缺的基础软件。
在芯片设计领域,LSF 调度工具通常与 Azure、AWS 等云供应商进行对接合作,协助 LSF 更高效的调度云上资源。
国内方面,也有诸多企业在此尝试。比如:
速石科技推出 IC 设计研发云平台,对企业本地及云端复杂研发环境统一协同管理。
常青藤开源科技的 HPC insights 对 HPC 集群进行监控和智能分析,帮客户全面掌控集群资源状况,优化集群资源分配。
摩尔精英聚焦 " 芯片设计上云 " 业务,为用户提供高效易用的研发环境。
另外,还看到一些企业在尝试搭建平台,旨在利用 AI 技术来帮助芯片设计企业优化 IC 设计,力求在最优模式下设计出性能最优的芯片。
值得关注的是,在国内芯片设计上云领域,紫光云是行业的率先实践者和推动者。
据了解,作为国内最早推动芯片设计云的行业实践者之一,早在 2020 年前后,紫光云就开始了围绕芯片设计云的超前建设和部署。
紫光芯片云总架构师耿加申指出,紫光芯片云的发展背景和契机主要是因为集团内部的需求,有集团下属芯片企业想采用一些公有云资源来满足弹性资源需求。
2020 年 8 月,紫光推出芯片云 1.0 版,正式向外推广;时隔不到半年,紫光芯片云再次升级,发布了 2.0 版本。
据了解,紫光芯片云 1.0 更多是聚焦在算力与设计环境提供,满足与算力、设计环境相关的痛点和需求。而升级后的紫光芯片云 2.0 服务更加全面配套——通过提供专业的私有化芯片设计环境和弹性的公有云资源,为芯片设计企业提供完整的混合云方案。
可以理解为,紫光芯片云最初的目的主要是服务集团内部的芯片设计企业。但在这个过程中,看到了一些芯片设计企业的共性需求,尤其近几年中小芯片设计企业大量的出现,衍生出对计算资源和整个芯片设计环境搭建的大量需求。
因此,紫光芯片云业务通过服务内部企业过程中的经验和技术积累,形成了标准化的芯片解决方案,进而向业内客户进行推广使用。
发展至今,紫光芯片云平台能为芯片设计企业提供了 IC 设计的全栈解决方案,算力之外,还凭借本地化专业的 CAD/IT 团队以及丰富的芯片设计上云实践经验,帮助企业梳理业务现状、搭建芯片设计环境,以及负责后期的技术支撑和运维服务。
其中,在芯片设计环境中的两个关键产品,分别是紫芯调度软件和 CAD 管理平台。
紫芯调度器面向芯片设计仿真场景,能够快速地在数据中心和云端构建和管理异构的高性能计算集群,为用户提供业务所需的弹性资源和统一资源调度管理平台,提升资源利用率。
面对调度软件依赖海外产品的现状,紫芯调度器旨在解决行业卡脖子问题,实现调度软件国产化。耿加申表示," 紫芯调度器对标 IBM 的 LSF,在对其特性进行补齐的基础上,围绕多集群调度、提交作业参数过程中的参数自动补齐和替换等新功能和特性做了进一步的开发,同时对开源调度器在大规模调度上的性能瓶颈进行了优化和提升。"
简而言之,面对行业老牌劲敌 LSF 的传统优势,紫芯调度器选择另辟蹊径,结合业界最新的容器调度和 AI 等新技术做一些改进和优化,实现差异化竞争。
有业内人士表示,过去接触过的很多客户使用的都是进口调度器,但要切换成国产工具时,原先使用的研发流程、进度适配转换很麻烦。耿加申表示,自主研发的国产紫芯调度器可以从底层兼容国际调度器,解决 " 卡脖子 " 问题的同时,保留开发者过去的使用习惯。再结合 CAD 能力与经验,紫光芯片云平台能有效提高上中下层整体联动效率,帮助客户实现芯片设计的降本增效并可以共同适配落地场景。
这个 CAD 能力指的是紫光芯片云的 CAD 管理平台,该平台是面向 IC 设计行业 IT/CAD 运维管理的一站式管理平台,横向支持多场景统一调度,纵向支持算力、存储、作业的运行监控和集群、任务的智能调度,可为用户提供快捷、稳定、高可靠、高效低成本的集群管理服务,打造专业芯片设计环境,提升芯片研发效率。
据悉,紫光芯片云的 CAD 管理平台,既可以管理自己的紫芯调度器,也可以管理 LSF 调度器。因为很多客户已经买了 LSF 软件,但 LSF 的管理软件更新速度较慢,基于老架构设计会存在特性缺失问题,且不会根据用户的一些需求做快速地迭代更新。
相比之下,紫光云 CAD 管理平台可以快速响应客户需求,进行功能更新迭代。因此,在 LSF 调度器市占率仍普遍较大的行业现状下,可以先通过 CAD 管理平台去支持 LSF 调度器的一些可视化管理和监控,逐步实现芯片设计环境核心软件的国产化渗透。
整体来看,紫光芯片云作为一个体系完善、开箱即用的云上芯片设计平台,为芯片设计企业提供强大、弹性且安全的计算集群和存储资源池,配备资深的 IT/CAD 专家团队,结合紫光集团内部芯片设计企业的最佳实践,帮芯片设计企业搭建专用的、私有云的设计环境,提供一站式的设计服务 + 云服务打包 Turnkey 方案交付。
相比其它平台,紫光芯片云具有高性能、高安全、混合部署、最佳实践和生态运营等多重优势。
客户效果,是第一说服力
对芯片行业而言,设计上云的想象空间还很大。但实现更多落地应用的前提是,云平台不仅要保证效率足够高,更要获得芯片设计公司足够的信任。
紫光芯片云在此具备优势。据耿加申介绍,紫光芯片云正是依托紫光集团从芯到云的整体战略布局推出的,在推向市场前,已在紫光集团内部芯片设计企业得到了充分验证,形成了芯片设计上云最佳实践。
在实际部署中,芯片设计企业最关心的问题是能不能把资源利用率提升起来,以及到底自身的资源利用率情况如何?只有了解这些之后才能更好的进行调整和优化。
针对这个问题,紫光芯片云平台在帮助客户在降本增效方面取得了不错的成果:
现在很多芯片设计企业都是多地设立研发中心,紫光云芯片团队为其分散在各地的资源建立一个集中的专享云芯片资源池,然后同时部署 CAD 管理平台和紫芯调度器进行分析和优化,将客户 CPU 计算利用率从 50% 提升至 80%,帮助用户提升了整体效率。
此外,芯片云平台中的可视化管理软件还能帮助客户进行硬件设备的选型,通过分析硬件资源配比,帮助进行服务器和内存等硬件资源的合理采购,从而实现成本的节省。
可以简单理解为,对于跨地域乃至跨国的芯片设计公司,涉及多地 R&D 研发效率不高、硬件资源采购不合理的问题,紫光云芯片平台可通过集群实现对云端和本地算力的统一管理,有效解决多地协同难题,提升资源利用率;同时优化客户硬件配比,减少无谓的成本浪费。
在诸多优势加持下,紫光芯片云为众多芯片设计企业提振了信心。
芯片设计除了庞大的算力需求和 IT/CAD 设计环境,还有 EDA 工具、IP、PDK 等是芯片设计企业成本最高、投入最大的部分。而对于绝大多数小微型芯片设计企业没有太多的议价能力,借助紫光芯片云平台已有的生态合作伙伴,这些可以得到更好的支撑。
耿加申表示,紫光芯片云已联合了多家 EDA 和 IP 合作伙伴提供设计工具和 IP 服务。通过同芯片行业上下游产业链与工具厂商深度合作,共同构建全栈服务,实现多赢。
" 通过芯片云平台,赋能中小芯片设计企业,为芯片设计提速赋能 " ——这样一张产业宏图和发展愿景,正在紫光芯片云的全面布局下,向着助力中国芯片产业发展的方向,缓缓打开。
结语
有业内人士吐槽," 在大公司做芯片设计,不需要操心 IT 的事情,你只需要抱怨 IT 就行了;而到了小公司,你才会发现 IT 上面全是问题——算力、存储、成本、工具、安全、环境等等,都需要考虑周全。"
而 " 芯片设计上云 " 的目的,就是把芯片设计企业从这些事情中解放出来,全身心投入到核心业务中去。
纵观行业格局,AWS、Azure、阿里云等公有云领域高手云集,速石科技、常青藤开源科技等围绕私有云业务跃跃欲试,IBM 携 LSF 在集群核心软件领域独步天下。