The 2nd International Workshop on High Performance Chiplet and Interconnnect Architectures (HiPChips)
主题
Optical and other advanced chiplet interconnect technologies Interconnect standards of coherent and non-coherent data sharing protocols (e.g. CXL) Disaggregated computing architectures powered by high speed interconnect Chiplet architectures for in-memory computing and other emerging technologies Software optimization and scheduling with fast inter-chiplet network Power evaluation and performance modeling of chiplet architectures
芯片架构议题
Challenges in AI and ML for Chiplets to address
Speaker:Dharmesh Jani (Infrastructure Partnerships/Ecosystems Lead @ Meta)
通常的人类行为场景
认知,认识世界并构建认知模型,需要大量的训练 挖掘,在各种类型的数据中寻找目标,需要推理 综合创造,创造出新的事物
当前AI应用领域及相关算法应用
当前DSA 处理器存在算力瓶颈
内存和互联网络拖累了计算。
Chiplet技术需要去解决的人工智能 和机器学习的挑战。该报告针对人类行为包括认知、挖掘、创造三个场景指出了DSA的运行需求,并指出了其挑战主要在加速器和内存间的缺口、软硬件的协同设计、互联网络中如何选通局部带宽以优化总体带宽
Enable Polymorphic AI Architecture via Composable Chiplet Technologies
Speaker: Weifeng Zhang (Chief Architect & VP of Software Lightelligence)
评 通过可模组的chiplet技术构建多模态的AI架构。
A Scalable Methodology for Designing Efficient Interconnection Network of Chiplets
Speaker: Yinxiao Feng, Dong Xiang, Kaisheng Ma. (@ Tsinghua University)
当前多chiplet架构可扩展性特征
平面拓扑、长直径、有限的可扩展性
拓扑架构的问题
种种问题导致互联网络的性能较差,不能充分发挥chiplet架构的性能。
规模挑战:chiplet数量越多,直径越大 布线挑战:跨chiplet死锁,较差的容忍度
理想的拓扑架构
能使用相同的chiplet构建不同的规模的系统级架构 chiplet基于2D mesh架构 可扩展 通过自适应路由算法解决死锁问题 有效的
清华大学团队基于传统的2D mesh NoC架构提出了修改最小的解决方案:
虚拟通道路由器 虚拟直通 每个边缘节点都有一个外部连接链路
评估方法
补充: radix:阶,指网络中一个点的与其他点的连接数量 MFR
几种互联拓扑架构
超立方体 nD-mesh 蝴蝶网络
延迟达Cycle精度的C++仿真器
评 一种可扩展的用于设计高效chiplet互联网络的方法学。本报告定义了一个软件可定义的接口汇集方法,描述了将2D mesh NoC架构的chiplet转变成高阶network的方法,并基于MFR(Minus-first Routing)设计了一种解除死锁的自适应算法,在chiplet特定的能达到延迟的cycle精度的C++仿真器上评估了性能,结果表示了改方法学的高性能和灵活性
Building Heterogeneous Chiplets with AMBA Interconnects
Speaker: Jeff Defilippi ( Senior Director Product Management @ ARM)
当前chiplet生态处于各家为战阶段
NVIDIA Grace Hopper Superchip通过CHI将CPU和GPU die 进行连接
900 GB/s NVIDIA-CTC interconnect 使用共享页表的虚拟内存系统 系统内存能效比服务器接GPU提升了30倍
片上一致性协议总线CHI
新的CHI协议将支持Multi-chip
新的CHI协议正在开发,扩充的新的特征将使CHI从on-chip扩展到multi-chip,具有如下特征:
计算节点、加速器节点、内存节点的统一的一致性互联接口 将如下特征延伸到chiplet边界
分布式的虚拟内存管理、中断、定时器 监测和资源管理 信任安全、内存保护、加密计算
如图所示为IP的层次架构,协议层使用CHI协议,链路层和物理层使用UCIe或其他IP。
评 使用AMBA总线构建异步chiplet架构。该报告揭示了chiplet技术应用的迫切需求,介绍了ARM的CHI总线特征,并基于原先on-chip特征的基础上扩展应用于multi-chip的属性,基于CHI的chiplet互联将推动chiplet行业向半定制平台发展
芯片封装议题
Next-generation Co-Packaged Optics for Future Disaggregated AI Systems
Speaker: Sajjad Moazeni, Assistant Professor (University of Washington, Seattle)
CPO的目标
基于AMD和Nvidia的应用情况,CPO可以实现功耗、成本、密度、线距的最优平衡。
使用微环调制器(micro-ring modulator, MRM)进行光通信
详细介绍了技术细节
下一代CPO结束解决方案
在先进封装中使用direct bonding替代micro-bumps PIC和EIC联合设计 架构的更新 和内存控制器连接的CPO
相关研究
H. Li et al., “A 3-D-Integrated Silicon Photonic Microring-Based 112-Gb/s PAM-4 Transmitter With Nonlinear Equalization and Thermal Control,” in IEEE Journal of Solid-State Circuits, vol. 56, no. 1, pp. 19-29, Jan. 2021, doi: 10.1109/JSSC.2020.3022851. 论文解析
评 针对未来分离AI系统的下一代合封装光学。该报告介绍了Intel在CPO方面的工作,并详细介绍了MRM的技术细节,并提出了随着PIC和EIC的CPO集成的实现,很多新的芯片架构将被解锁,例如将PIC和HBM互联等。
Optical Network-on-Chip for Large Scale Chiplet Architectures
Speaker: Huaiyu Meng (Co-founder and CTO @ LIGHTELLIGENCE)
通过PIC将EIC进行信道互联
chiplet间互联不在局限于相邻chiplet 在wafer级的信号衰减更小 功耗和延迟将和die间距无关
oNOC的优势
由于延迟减小,不同的拓扑架构变得可能 由于灵活的网络拓扑,工作负载在硬件上的映射更加有效 距离与MCM计算系统性能提升成近线性关系
采用oNOC的第一代计算系统级封装
oNOC大规模应用的挑战
chiplet生态不够成熟 chiplet间标准接口 硅基光芯片的成本较高
评 应用于大规模Chiplet架构的光互联片上网络。该报告揭示了当前基于电子通信的chiplet互联的局限性,考虑多各种优异的互联架构,可使用oNOC技术在2D的基板空间上进行3D互联(鄙人理解非物理上的3D互联,而是延迟等效意义上的互联),如此,优秀的架构将会带来工作负载上的性能提升。介绍了第一代oNOC产品,并提出了oNOC技术大规模应用的担忧。
技术生态
Building an Open Chiplet Economy
Speaker: Cliff Grossner (Ph.D. VP Market Intelligence & Innovation), Bapi Vinnakota (Ph.D., Open Compute Project)
新的chiplet开放经济生态
需要考虑的要素
OCP致力于构建开放chiplet生态的投资
BoW的相关案例和应用
标准化的商业工作流和商业关系
chiplet设计描述使SiP设计和构建更加自动化
chiplet经济需要:
标准化的设计模型,来确保EDA工作流程 标准化的SiP设计和集成工作流 对2.5D、3D封装的多chiplet的SiP集成方法 电气化的可读性描述应包括如下属性:
实现高可操作性和第三方验证的标准化的chiplet testbench
标准的互联比较基准使能知情权
关键准则:
每个单元的成本 运行成本 设计影响 产品集成 封装成本
标准化逻辑互联使物理层连接可替换
主要优势:
简化,专注于die的拆分,缓解了CDR、CRC/retry设计的复杂度 低延迟,更加激进的技术,使用FEC缓解CRC的串行时序负荷 可规模化,支持不同的lane数据传输速率和划分 可便携化,接口可以兼容不同的实现方法和工艺节点 可扩展性,创造一个模块框架,允许增加新的特征、允许定制化、使能互联的可操作性
BoW技术是一个将AXI协议迁移到chiplet互联的自然而然的选择
为最大化实用性优化了标准
设计者可以选择满足用户案例的操作点 简化所需特征的实现方法 每个逻辑单元(16 lane)都可以用于所有类型封装 对通道损耗和串扰,错误率的一致性没有直接要求 在chiplet层指定信号序,而不是明确的bump maps 规模化应用的关键属性
成本和能效 (0.25 -0.5pJ/bit) 在较宽范围 (65nm – 5nm)节点内的高性能 (2-16Gb/s/line) 使用场景 (25mm reach, <1e-15 BER) 正在构建中的BoW-384 (24Gb/s/line) 和 BoW-512 (32Gb/s/line)
评 构建开放的chiplet经济。该报告是OCP组织关于chiplet生态的报告,在功耗、性能、成本、商务等不同需求下,chiplets将存在于生活的各领域中,同时为chiplet经济生态提出了包括技术和生态的关键着力点。
UCIe :An open standard for innovations at package level
chiplet互联的技术要点
包括SoC应用层的设计、数据链路层和事务层的设计、物理层的设计等
评 UCIe,一个在封装层级创新的开放的标准,介绍了当代推动chiplet技术发展的因素,描述了chiplet技术要解决的问题,以及UCIe优秀的技术属性。
Chiplet Ecosystem: Challenges and obstacles to overcome to reach chiplet nirvana
Speaker: Nathan Kalyanasundharam & John Wuu ( @ AMD )
AMD需要DSA来满足计算需求
不同类型的计算 来自不通供应商的不同chiplet 集成多种类型的计算、存储、IO的系统级封装 减少开发成本和上市时间
chiplet生态挑战
AMD的chiplet生态解决方案栈
D2D control (AMD在D2D接口协议层之外增加了并列的控制栈,该控制层的作用是什么?作不同协议栈的选通吗?如果作为protocol的选通,那D2D接口本身就有低延迟、高带宽的需求,如果通过control进行选通岂不是增加了延迟,那么存在的意义又是什么?) DMU 硬件+固件(存在的作用是什么?难道是上层固件的内容,包括安全启动、复位、修复、功耗管理、热管理等?)
chiplet和CPO的应用——可扩展CXL switch
评 chiplet生态,为实现chiplet的涅槃而需要克服的挑战和障碍。AMD介绍chiplet生态构建的挑战,并且提出了自身的chiplet软硬件栈的解决方案,并宣称持续看好chiplet。
相关链接
算力、存储高速增长 让高阶 (high-radix) 网络互连持续精进