Lead Reconfigurable Memory Computing to the Feature

陈巍谈芯:UCIe标准白皮书(中文翻译版,收录于先进封装Chiplet与片上超算)

Homepage - TensorChip    原创技术文章    陈巍谈芯:UCIe标准白皮书(中文翻译版,收录于先进封装Chiplet与片上超算)

白皮书翻译,仅供参考

翻译:陈巍博士 团队

Universal Chiplet Interconnect Express (UCIe)®:构建开放的芯粒生态系统

Debendra Das Sharma 博士
英特尔高级研究员兼首席架构师、UCIe I/O 技术与标准推动委员

Universal Chiplet Interconnect Express (UCIe)® 是一种开放的行业标准互连,可在芯粒(Chiplet)之间提供高带宽、低延迟、节能且具有成本效益的封装连接。它解决了跨越云、边缘、企业、5G、汽车、高性能计算和手持领域的整个计算领域对计算、内存、存储和连接的增长需求。 UCIe 提供了封装来自不同厂家芯片的能力,包括不同的晶圆厂、不同的设计和不同的封装技术。


Chiplets 封装集成的动机

摩尔在他的开创性论文《Cramming more components onto integrated circuits》中(Electronics , 1965/ 4/19,),预测集成电路中的晶体管数量将每两年翻一番。 “摩尔定律”至今已维持了 50 多年。在同一篇论文中,摩尔还预言了“清算日”:“用较小的功能体构建大型系统可能会更经济,这些功能是单独打包和互连的。”今天,我们看到主流商业产品(如客户端 CPU、服务器 CPU、GP-GPU 等)中的都是由多个芯粒封装集成的。
有许多使用小芯片整合封装的动机。随着芯片尺寸的增加以及不断增长的性能需求,设计正面临芯片掩模版的限制——例如包括具有数百个核心数的多核 CPU。即便一个裸片可以符合光罩限制,在一个封装中进行多个芯粒的连接,也可能更方便进行良率优化以及跨多个细分市场的芯粒复用。而统一的封装连接会支持这些高速增长的应用。
封装集成的另一个动机是从产品和项目的角度降低整体投资组合成本,并获得上市时间优势。例如,图中所示的计算核心(图1)可以在先进工艺节点中实施,以更高的成本提供领先的能效比和性能,而内存和 I/O 控制器功能可以从已经部署在已建立(N-1 或 N-2)工艺节点中的设计并重复使用。这种划分产生更小的裸片,从而拥有更好的良率。跨进程节点的 IP核移植成本很高,并且对于先进工艺节点来说增长非常迅速,如图所示(图 2)由于我们不必移植功能不变的的所有 IP,因此除了获得上市时间优势外,我们还节省了成本。封装上的 Chiplet 集成还使客户能够通过选择不同的数字和类型的芯粒。例如,可以根据设计的需要选择不同数量的计算、存储和 I/O 裸片。无需针对不同的细分市场进行不同的芯粒设计,从而降低产品 SKU 成本。
芯粒的封装集成能够以快速且经济高效的方式提供定制解决方案。例如,不同的用途可能需要不同的算力,但使用相同的内核、内存和 I/O,如图所示(图1)。芯粒技术还允许根据功能选择最适合的芯粒进行封装。例如,内存、逻辑、模拟和共同封装的光学器件都需要不同的工艺,这些不同工艺芯粒可以一起封装。由于封装走线较短并提供密集布线,因此存储器访问等需要高带宽的应用(例如,高带宽内存)被实现为封装集成。

图 1:UCIe 支持在封装上交付平台的开放式 Chiplet 生态系统


UCIe 是一种战略性的片上封装互连,以前瞻性的方式定义用例模型,以促进行业不断进步。


影响行业广泛采用标准的因素

成功开发生态系统的秘诀如下(图 3)。UCIe 是基于业内数十年的标准体系构建的,广泛参考了开放生态(例如 PCIe、USB、CXL等)。

图 2:跨不同工艺节点的设计成本(来源:IBS,引用于 IEEE 异构集成路线图)


一个开放的行业标准机构定义,其关键性能指标 (KPI) 的规范应适应广泛的用途,具备全面的合规性和可交互机制。这对于发展健康的生态至关重要。 UCIe 规范修订版 1.0 包含行业领先的 KPI、调试支持和合规性注意事项。作为涵盖制造、组装和测试公司的整个行业的技术,管芯的封装集成已经成熟。我们看到多个代工厂以及市场上的外包半导体组装和测试 (OSAT) 公司使用专有互连。 UCIe 是行业领导者共同努力开发通用标准的结果,以便来自不同厂家的多个芯粒可以无缝互操作。虽然 UCIe 发起人涵盖云、半导体制造、OSAT、知识产权供应商, 和芯片设计师,UCIe 联盟对所有人开放。 UCIe 有望成为小芯片无处不在的封装互连,推动蓬勃发展的开放小芯片生态系统。

图 3:成功且广泛的可互操作小芯片生态系统的组成部分

由 UCIe 1.0 规范驱动的使用模型和 KPI

UCIe 是一个分层协议,如图4 a所示。物理层负责电信号、时钟、链路协商、边带等。Die-to-Die 适配器为芯粒提供链路状态管理和参数协商。它可选地通过其循环冗余校验 (CRC) 链路级重试机制保证数据的可靠传输。当支持多种协议时,它定义了底层的仲裁机制当适配器负责可靠传输时,一个 256 字节的 FLIT(流控制单元)定义了底层传输机制。
UCIe 本地映射 PCIe 和 CXL 协议,这些协议广泛应用在计算机的板级。这样可以利用现有的计算机生态系统来确保无缝的交互性。借助 PCIe 和 CXL, 已有的SoC 构建、链路管理和安全解决方案都可用于 UCIe。解决的用例也很全面:使用DMA的数据传输、软件发现、错误处理等,都可通过 PCIe/http://CXL.io 解决;内存用例可通过 CXL.Mem 处理; CXL.cache 解决了加速器等应用程序的缓存要求。 UCIe 还定义了“流协议”,可用于映射任何其他协议。此外,随着未来用例模型的发展,UCIe 联盟还可以在未来针对芯粒技术优化的协议进行创新。
UCIe 1.0 定义了两种封装,如图 4 b。标准封装 (2D) 用于具有成本效益的性能。先进的封装用于节能性能。有多种商用选项已列在图表中。 UCIe 规范支持这些类别中的所有类型的封装选择。

图 4:UCIe:分层方法和不同的封装选择

UCIe 支持两类被广泛使用使用的模型。一类是封装级集成,以提供高能效和高性价比的性能,如图图 5 a所示。连接在板级的组件,如内存、加速器、网络设备、调制解调器等,可以在封装级集成,适用于从手持到高端服务器,可在同一封装中通过不同的封装选项连接来自多个厂家的芯粒。另一类方式是使用 UCIe重定时器,使用不同类型的媒介(例如,光信号、电缆、毫米波)提供封装外连接,用于在机架甚至POD(性能优化的数据中心)级别传输底层协议(例如PCIe、CXL),以实现资源池、资源共享,甚至使用超出节点级别的load-store语义传递到机架/POD 级别的消息,为边缘和数据中心提供更好的能效和成本效益性能。

图 5:UCIe 支持的使用模型:封装内集成以及与不同媒体(例如,光学器件、毫米波、电缆)的封装外连接


UCIe 支持不同的数据速率、数据位宽、凸块(Bump)间距和通道(Channel)范围,以确保实现最广泛的交互性,详见表1。它定义了一个边带接口,以便于设计和验证。互连的构造单元是一个簇(Cluster),其中包含 N (N = 16 用于标准封装,64 用于高级封装)个单端、单向、全双工数据通道(Lane),一个用于有效的单端通道(Lane),一个用于跟踪的通道(Lane),每个方向一个差分转发时钟,每个方向 2 个边带通道(单端,一个 800 MHz 时钟通道和一个数据通道)。高级封装支持备用通道以处理故障通道(包括时钟、Valid、边带等),而标准封装支持宽度降级以处理故障。可以聚合多个簇(Cluster)来为每个链路提供更高的性能,如图 6所示。
表格1总结了这两个封装选项的关键指标。具有标准封装设计的管芯可与其他标准封装的任何其他芯粒交互。同样,采用高级(UCIe)封装设计的芯粒可与高级封装设计的芯粒交互,从 25um 到 55um 的宽凸块间距均符合这一方式。需要注意的是,该表保守地估计了目前的凸块间距的传输性能。例如,对于45um高级封装,如我们采用更密集的 25um 凸块间距,带宽密度将提高 3.24 倍。在 45u 时,1300+ 的带宽密度(对线性和面积)大约是我们使用最高效的 PCIe SERDES 可以实现的 20 倍。同样,PCIe PHY 目前的功率效率约为 10pJ/b,由于通道(Channel)范围更短,基于 UCIe 的设计可将其降低多达 20 倍。 UCIe 还支持线性功率-带宽消耗曲线,具有非常快的进入和退出时间(对于基于 SERDES 的设计,亚纳秒 vs 多微秒),同时节省 90% 以上的功耗。因此,除了真正的低功耗之外,它在节能方面也非常有效,提供了引人注目的节能超高性能。重要的是随着技术的进步,低功耗将更加显着。 UCIe 1.0 被认为在本世纪末期仍能满足各种具有挑战性的应用的性能需求。

表 1:UCIe 1.0 特征和关键指标
图 6:簇宽度;每个封装选项中可以组合 1、2 或 4 个簇,以提供更高的带宽

结论


对开放式芯粒生态系统的巨大需求,将促进整个计算体系中的创新。 UCIe 1.0 提供引人注目的高能效和高性价比的性能。它是一个具有即插即用模型的开放标准,以几个成功的标准为蓝本,并由行业领导者推出,并确保其广泛采用。我们预计下一代创新将发生在芯粒级别,允许一组芯粒提供不同的功能供客户选择,以最好地满足他们的应用需求。

未来,随着凸块间距不断缩小和 3D 集成成为主流,我们预计该联盟将推动更节能、更具成本效益的解决方案。从延迟、带宽和能效的角度来看,这些可能需要更宽的链路运行更慢,并更接近芯片上的连接。封装和半导体制造技术的进步将在未来几十年彻底改变计算领域。 UCIe 已做好充分准备,使生态系统中的创新能够充分利用这些技术进步。

2022-03-31 01:54
Pageviews:0