导读 据报道,谷歌芯片设计团队已经成功将其 IT 工作负载迁移到了谷歌云平台。这项工作是在 Alphabet Cloud 团队的支持下完成的,该团队专…
据报道,谷歌芯片设计团队已经成功将其 IT 工作负载迁移到了谷歌云平台。这项工作是在 Alphabet Cloud 团队的支持下完成的,该团队专门从事 IT 迁移工作。不过,这并不是谷歌首次将工作负载迁移到云端,因为谷歌在许多领域都已经采取了这种做法,例如 DeepMind、Vertex AI、YouTube 和 Waze。通过利用云计算的可伸缩性、灵活性和成本效益,谷歌芯片设计团队受益匪浅。
芯片设计团队最初是在一台计算机机架上创建的,随着工作负载的不断增加和复杂度的提高,规模也随之扩大,现在已经发展成数十个机架和数百台服务器。随着项目数量的增加,团队面临越来越多的挑战,每个新项目都需要新的工程师和基础设施。然而,当团队优先考虑招聘工程师来管理和优化遗留机器时,却忽视了增长和创新的重点。
在全面迁移到谷歌云之前,芯片设计团队采用了一种使用谷歌内部软件设计环境的混合解决方案,并将一些电子设计自动化 (EDA) 工作负载发送到云端。虽然这种方法在短期内是有效的,但在转移工作负载进行分析时存在明显的延迟。同时,运行两个桌面(一个用于设计环境,一个用于在谷歌云中的结果)也给团队带来了额外的负担。
通过与 Alphabet Cloud 团队的合作,谷歌芯片设计团队已经全面迁移到了谷歌云。这一举措为该公司带来了巨大的商业利益。据谷歌公司称,将工作负载迁移到云端使得新计算基础设施的交付周期从六个月缩短到了几天,同时也降低了运营成本。因此,团队可以更快地创新,花费更少的时间在数据中心的维护上。
此外,该团队还利用谷歌云的 AI 和 ML 功能来设计更高效的芯片。他们利用谷歌云中现成的各种 ML 算法来高效地导航大型搜索空间,并在芯片设计的各个阶段应用独特的优化。这项工作使芯片设计流程得到了极大的简化和加速,从而缩短了上市时间,并扩大了 ML 加速器的产品领域。通过利用谷歌云的强大功能,芯片设计团队可以预测资源使用情况并使用更少的计算资源,从而提高了效率和性能。
在过去一年中,自从团队迁移到谷歌云以来,他们已经将每日作业提交量增加了 170%。这表明团队能够更快地完成任务,同时保持平稳的调度延迟。此外,他们利用谷歌云上的 250+ GKE 集群支持工作负载,并解决了对在谷歌云上运行作业所需的 EDA 工具许可证的访问问题。
芯片设计团队还计划开源部分流程,特别是 Bazel 构建规则和回归系统,以便其他芯片制造商可以从他们与谷歌云一起使用的方法中受益。这将有助于加速芯片设计的发展和创新,同时也将有利于整个行业的进步和发展。
未经允许不得转载:87头条 » 谷歌芯片设计团队成功迁移到谷歌云,加速芯片设计流程