• 2022年第一界HiPChips解读


    High Performance Chiplet and Interconnect Architectures,2022年6月19日,第一届会议(连同第49界ISCA会议)于美国纽约举行,旨在探讨小芯片Chiplet和互联技术对未来计算架构的影响,从而推动工业和学术界加速合作、共建Chiplet生态。

    此次HiPChips也是国际上以“小芯片”为主题的研讨会首次登上计算机架构顶会的舞台,因而吸引了包括Google、Meta(Facebook)、Intel、AMD、Nvidia、苏黎世联邦理工(ETH Zurich)、伊利诺伊大学(UIUC)、加州大学洛杉矶(UCLA)、佐治亚理工(Georgia Tech)和印度理工(IIT Bombay) 等领域内顶尖行业专家和学者的参与,议题也广泛覆盖了chiplet架构、芯片设计、互联标准化等最前沿的研究和进展。

    第一届会议议程及slice:
    HiPChips Chiplet Workshop @ ISCA Conference

    主题

    1. Chiplet-based accelerator level parallelism (ALP)
    2. Chiplet architecture for large scale system design
    3. Physical and logical inter-die interface design for heterogeneous architectures
    4. Coherent and non-coherent data sharing protocols via fast chiplet interconnection
    5. Chiplet architectures for in-memory computing and other emerging technologies
    6. ODSA-based 3D architecture for efficient ML acceleration
    7. Chiplet-based secure computing
    8. Power evaluation and performance modeling of chiplet architecture
    9. Software optimization framework with fast inter-chiplet network
    10. Chiplet topology aware ML optimizations
    11. Scheduling for massive heterogeneous chiplet-based processors

    如何将数据在chiplets间划分,以及为了更高效的并行处理而优化数据迁移成为成功的关键。

    芯片架构议题

    Memory Centric Computing

    系统功耗的62.7%都花在数据迁移上。
    Amirali Boroumand, Saugata Ghose, Youngsok Kim, Rachata Ausavarungnirun, Eric Shiu, Rahul Thakur, Daehyun Kim, Aki Kuusela, Allan Knies, Parthasarathy Ranganathan, and Onur Mutlu, "Google Workloads for Consumer Devices: Mitigating Data Movement Bottlenecks"Proceedings of the 23rd International Conference on Architectural Support for Programming
    Languages and Operating Systems (ASPLOS), Williamsburg, VA, USA, March 2018.

    * Chiplets Open the World of Collaboration

    • Speaker: Bob Brennan (VP, Customer Solutions Engineering, Intel Foundry Services )

    多种因素推动着Monolithic向chiplet发展

    1. 大芯片制造成本
      在这里插入图片描述

    2. 不同芯片对工艺的要求不同
      在这里插入图片描述

    3. AI运算的带宽和供电缺口
      在这里插入图片描述

    4. 先进工艺下芯片设计成本和产品上市速度
      在这里插入图片描述

    5. 系统级高速IO接口的优化
      在这里插入图片描述

    单芯系统向多芯系统发展:标准接口、接口协议、软件栈

    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    IO案例研究:分离的PCIe和内存

    在这里插入图片描述

    服务器案例研究:Multi-core uServer

    在这里插入图片描述

    互联网络/存储案例研究:IPU/DPU

    多协议架构
    在这里插入图片描述

    AI案例研究: 缓存推理架构

    在这里插入图片描述


    • chiplet开启了世界性的合作。Intel的报告展示了其对行业内芯片架构有monolithic向chiplet发展的信心,其展示了多个邻域的应用案例,但然表示当前chiplet发展还面临一些挑战,需要生态内的各方合作解决。

    Hyperscale use cases, challenges and case study for heterogenous integration

    Speaker: Dharmesh Jani ( Open Ecosystem Lead, @ Meta) , Ravi Agarwal (Technical Sourcing Manager)

    通常的人类行为场景

    1. 认知,认识世界并构建认知模型,需要大量的训练
    2. 挖掘,在各种类型的数据中寻找目标,需要推理
    3. 综合创造,创造出新的事物

    AI应用场景的挑战

    在这里插入图片描述


    • 对于异构集成的超大规模芯片的使用场景、挑战和案例研究。该报告说明了AI计算面临的计算平台的困境,指出通过陷阱封装技术突破该困境。

    The Road to Data Center Power Efficiency

    • Speaker: Tawfik Rahal-Arabi & Anshuman Mittal (@ AMD)

    摩尔定律在失效但数据中心算力需求仍在增长

    在这里插入图片描述

    客户端和数据中心的功耗管理对比

    在这里插入图片描述

    通过chiplet技术可以对芯片的功耗发送和管理

    chiplet技术天生的可以进行细粒度的功耗划分和管理。
    如图两种场景对比,chiplet的应用可以节约25%的功耗,但如何划分cores是一个问题
    在这里插入图片描述
    不同的方式进行电源分布
    在这里插入图片描述

    通过一些算法对功耗进行管理

    在这里插入图片描述


    • 通往数据中心高功效之路。AMD从产品的功耗角度对chiplet架构的构建展开菲尼,认为chiplet可以帮助软硬件更好的划分功耗和进行功耗管理。

    Chiplet-based Waferscale Computing

    Speaker: Rakesh Kumar (@ University of Illinois Urbana-Champaign)

    晶圆级计算的演变

    以前的晶圆级芯片目标是将monolithic坐在一个晶圆上,成本较高
    在这里插入图片描述

    UCLA的晶圆级硅互联技术

    在这里插入图片描述

    晶圆级GPU架构

    互联架构良率对比:
    在这里插入图片描述

    在这里插入图片描述

    线程块和数据布局策略

    在这里插入图片描述

    相关研究

    “MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability”, A. Arunkumar et. al., ISCA 2017


    • 基于Chiplet的晶圆级计算。该报告说明了以前晶圆级芯片的局限性,介绍了芯片晶圆级的连接技术、热设计等,并以晶圆级GPU为例展示了晶圆级计算的优势,但总体感觉跟chiplet关系不大。

    Designing a Waferscale Processor Prototype: Challenges and Solutions

    Speaker: PUNEET GUPTA (@ UCLA)

    2048个chiplet的架构

    在这里插入图片描述

    晶圆级芯片设计的具体细节

    晶圆级设计需要对芯片的电源、时钟、硅前后测试、IO die架构等方面分别考虑
    在这里插入图片描述
    在这里插入图片描述


    • 设计基于chiplet的大规模系统。该报告相较于Chiplet-based Waferscale Computing报告更清晰的描述了芯片的架构,以及晶圆级设计需要解决的电源、时钟、测试等问题。

    Heterogeneous Chiplet-based Architecture for In-Memory Acceleration of DNNs

    Speaker:
    在这里插入图片描述

    大数据处理给硬件平台提出了更高的要求。

    存内计算(IMC)为缓解冯诺伊曼瓶颈提供了可实现的方法。
    基于crossbar的架构为深度学习网络的计算提供了很好的平台。

    IMC加速器使用了一种权重值固定在片上的架构。因此IMC大芯片将因为更大的面积导致更多的功耗,因此2.5D封装的chiplet设计将是一个替代选项。
    在这里插入图片描述

    RRAM/SRAM的实践已经为基于chiplet的IMC架构进行了探索。

    用户可以调试参数来对架构进行调整,包括映射、架构划分、IMC单元特征等。
    在这里插入图片描述

    工作流程

    将DNN参数、架构参数输入进SIAM,SIAM进行参数与资源的映射,包括片上互联和板级互联,并构建计算平台。评估工具对整体架构进行性能、延迟等特征评估。
    在这里插入图片描述

    SIAM的输入包括

    在这里插入图片描述
    SIAM的计算架构如下:
    组件颗粒可细化到具体的IMC cell,层次跨度较广。
    在这里插入图片描述

    数据流

    在这里插入图片描述

    大小chiplet混合的架构

    DNN网络的特征:固有的非线性权重和激活分布,这些给IMC的使用率带来了消极影响,导致需要更多的硬件资源和功耗,也影响了整体系统的成本。
    在这里插入图片描述
    在这里插入图片描述
    算法映射指在最大化IMC的使用率
    集成较小IMC的小芯片群用于初始化或较小layer的计算,比较适合大数据迁移的场景;集成较大IMC的大芯片群用于更大更深的layer计算,比较适合小数据迁移的场景。
    NoP用于将大数据传递到每个芯片群内。

    同类型芯片相比

    • 能效和面积
      在这里插入图片描述

    相关工作

    ACM数据库页
    在这里插入图片描述


    • 用于DNN存内计算加速的异构chiplet架构。针对加速深度学习网络的计算,提出了一个新的chiplet架构——大小IMC核混合的异构,并就该架构构建了一套软件模拟环境SIAM,并集成了性能、面积评估工具。
      该架构相对于GPU等加速器,该架构为 DNN 模型提升了10倍性能和~100倍的功耗效率。

    Cost-Aware Exploration for Chiplet-Based Architecture with Advanced Packaging Technologies

    Speaker: Tianqi Tang, Yuan Xie (@ University of California)

    chiplet成本构成

    在这里插入图片描述

    成本建模

    在这里插入图片描述


    • 先进封装下的chiplet架构的成本探索。该报告对chiplet的制造成本构建了数学模型,并对同构和异构的chiplet系统进行了案例研究,chiplet在不同应用上成本各异。

    Redefining Computing Architecture Boundaries with Off Package Chiplets

    Speaker: Allan Cantle (@ NALLASWAY)

    封装内和封装外内存配置的架构性能对比

    1. 传统的本地内存和RDMA
      在这里插入图片描述
    2. 通过CXL互联的共享内存
      在这里插入图片描述
    3. 通过共封装光学技术连接的共享CXL内存
      在这里插入图片描述
    4. 通过OIF-VSR的chiplet接口连接的本地内存
      在这里插入图片描述
    5. 共封装光学、CXL共享内存、本地内存、OIF-VSR接口互联
      在这里插入图片描述
      在这里插入图片描述

    通过对比,可得到如下结论:

    • 硅光互联的架构功耗更低

    目标的chiplet架构

    1. on-package架构
      在这里插入图片描述
    2. off-package架构
      在这里插入图片描述

    • 用封装外的chiplets重新定义计算架构边界。改报告通过几种封装内和封装外组合的架构性能和功耗对比,提出了未来目标的架构必定是on-package和off-package混合的架构。

    芯片封装议题

    AI & HPC system opportunity with integrated photonics chiplets

    Speaker: Edi Roytman, Ajaya Durg, Thomas Liljeberg, Ling Liao, Robert Munoz (all @ Intel Corporation)

    从HBM/DDR的特征到AI/HPC节点的理想系统内存

    1. 所有的计算、通信类型可直接访问
    2. 模块化、可组合的、可扩展的
    3. 共享的、可池化的
    4. 类似HBM的带宽
    5. 类似DDR的容量、延迟、ECC校验
    6. LPDDR的功效
      在这里插入图片描述

    Intel的光计算互联解决方案

    光模块集成芯片及封装示意图:
    在这里插入图片描述
    内存访问架构图:
    直接内存访问 ----》 共节点的内存 ----》共享/池化的内存和IO设备
    在这里插入图片描述
    先进的内存架构可以获得更好的性能
    在这里插入图片描述

    是否应该使用光互联技术

    光互联技术在计算节点较多,功耗较大的场景需求更大。
    在这里插入图片描述


    • 集成光连接chiplet的AI和HPC机会。该报告强调了光连接的高带宽和大容量的内存架构可以在达到5倍性能,在同一成本下达到2-3倍的性能提升,为此需要在AI/HPC工作负载敏感性研究和光互联参考设计方面进行研究,联合产业界开发适用于XPU和光互联接口的强互操作性、可用的chiplet接口标准。

    Glass Interposer Integration of Logic and Memory Chiplets: PPA and Power/Signal Integrity Benefits

    Speaker:
    Pruek Vanna-iampikul, Serhat Erdogan, Mohanalingam Kathaperumal, Madhavan Swaminathan, and Sung Kyu Lim(@ Georgia Institute of Technology)
    Ram Gupta, Ravi Agarwal, (@ Meta)
    Praveen Anmula, Kevin Reinbold,(@ Siemens)

    一种非TSV的3D堆叠封装方式

    在这里插入图片描述

    footprint、PPA+SI/PI对比

    更小的footprint。
    在这里插入图片描述


    • 逻辑和存储chiplet的glass中间介质层的PPA和功耗/信号完整性的优势。GLass中阶层是2.5D和3D封装的一种新的中介介质层材料,通过Glass和Silicon的性能对比,Glass可支持在3D chiplet堆叠的成本更低的解决方案,在PPA和Si/PI方面也有更好的表现。

    Chiplets’ march to AMD 3D V-Cache And Beyond

    • Speaker:RAJA SWAMINATHAN, JOHN WUU( @AMD Senior Fellow)

    • 通往AMD 3D Vcache的chiplet之路。AMD Zen3 CPU利用小芯片扩展了L3 V-Cache,从32MB到(32MB+64MB),总体实现了15% 性能提升

    芯片测试议题

    Using In-Chip Monitoring and Deep Data Analytics for High Bandwidth Die-toDie Reliability

    • Speaker: Alex Burlak (VP Test & Analytics @proteanTecs)

    异构集成面临着质量和可靠性的挑战

    在这里插入图片描述


    • 为高带宽的D2D可靠性进行片内检测和深度数据分析。该报告主要介绍了proteanTecs公司在lane的高分辨率检测、从产品到良率的可视化、先进的特征检测、以及覆盖率驱动的测试优化等方面的工作。

    CHiplet接口协议议题

    What is the right Die-to-Die Interface? A Comparison Study

    • Speaker: Shahab Ardalan (LMNS), Bapi Vinnikota (BRCM), Tawfik Arabi (AMD), Elad Alon (BCA)


    • 一种判断D2D接口的比较研究。本报告图片多,但信息较少,初步看出可治是根据单向和双向链路的功效和延迟的分析,得出能效和延迟是很重要的结论。

    OCP ODSA’s Bunch of Wire (BoW) Interface for Die to Die Applications

    Speaker: Elad Alon (@ Blue Cheetah Analog Design) Bapi Vinnakota (@ Broadcom) Jayaprakash Balachandran (@ Cisco)

    BoW是用于D2D并行接口的物理层标准协议

    在这里插入图片描述


    • 用于D2D应用场景的BoW接口。本报告相当远ODSA的BoW宣传报告,介绍了BoW在低延迟、时序设计、封装的高互操作性和灵活性、RX/TX通道信号的兼容性等方面的优势,呼吁产业界一起为BoW生态做贡献。

    ODSA: Creating Open chiplet ecosystem under open compute project

    Speaker: Dharmesh Jani (Open Ecosystem Lead @ Meta, Co-Chair OCP Incubation Committee)

    DSA时代的来临

    2018年John Hennessy 和 David Patterson预测了DSA时代的来临

    ODSA的职责

    OCP主要在模块级、子系统级、系统级、数据中心展开布局,2019年起将通过ODSA在模块级组件开展工作
    在这里插入图片描述ODSA将在开放的D2D接口、chiplet参考设计、参考工作流三方面工作推动chiplet市场生态的构建,进而OCP其他业务的发展。
    在这里插入图片描述

    ODSA的技术栈

    在这里插入图片描述


    • ODSA,在OCP组织下构建chiplet生态。该报告介绍了OCP组织下的ODSA下属机构,目的在于构建开放的chiplet系统芯片生态,并介绍了ODSA在进行的工作,包括chiplet封装技术、接口协议技术、使用案例等工作。

    High-Bandwidth Density, Energy-Efficient, Short-Reach Signaling that Enables Massively Scalable Parallelism

    Speaker: John Wilson ( Nivida )

    计算架构升级的目标:每watt增加的计算性能

    封装外带宽的演变:
    在这里插入图片描述


    • 能够大规模并行标量计算的高带宽密度、能效、短距的信号输出。从工艺角度讨论了off-chip和off-package的带宽极限,对于接口PHY的设计,提出了大量数据传输场景下提高的chip-to-chip传输带宽的单端信号的输出方法,提出了在organic封装和PCB层级的方法 Ground-Referenced Signaling,在interposer层级使用Simultaneous Bidirectional Signaling;也说明了2.5D封装的chip-to-chip大带宽传输仍然存在数据传输功耗过大的挑战。

    Dual-Stripline Configuration for Efficient Signal Routing in the Bunch-of-Wires Interface

    Speaker:
    Shekar Geedimatla, Robin James Payyappillil, Devi Sreekumar, and Shalabh Gupta Department of Electrical Engineering, IIT Bombay, Mumbai – 400076, INDIA

    BoW标准可以在基板上支持高密度的信号互联

    BoW的每个slice有16根信号,每根线提供16Gbps的传输带宽,一个slice最多提供256Gbps的带宽。

    Dual stripline配置

    在这里插入图片描述
    half-pitch offset可以减少信号串扰。

    相关研究

    在这里插入图片描述

    基于BoW接口的双条纹配置的高效信号路由方法。通过封装时两个die间的走线优化(Dual-Stripline configuration)增加封装的走线密度,half-pitch偏移可以减少串扰影响,通过仿真结果表明眼图和串扰均符合要求。

    Design Space for Chiplet IO

    Speaker: Ken Chang, Scott Huss (@ Cadence)

    chiplet IO类型分类

    相对串行PAM4差分信号和并行接口先进封装,并行接口标准封装在能效和带宽密度两方面有折中的效果。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    Cadence D2D接口Ultralink

    在这里插入图片描述
    6/7 bit编码尽可能达到直流平衡。


    • chiplet IO接口的设计空间。本文将目前已有的chiplet IO类型根据封装和信号编码类型分成三大类,并详细介绍了cadence的D2D接口,其6/7bit编码特性使该接口在低延迟、能效、带宽密度、低成本方面有较为平衡的优势。同时也展望了UCIe未来将可能统一chiplet接口。

    软件相关开发议题

    HALO: A Compiler Framework for Chiplet Architectures

    研究者:Weiming Zhao, Weifeng Zhang(@ Alibaba Cloud)

    软件开发面临的挑战

    1. 纵向扩展:碎片化的软件生态
    • 不同硬件有不同供应商提供的软件栈
    • 巨大的移植工作和长时间的产品上市时间
    • 缺乏互操作性
    1. 横向扩展
    • 工作负载并行化
    • 针对chiplet系统的分布式计算系统
      在这里插入图片描述

    软件升级的目的和解决方案

    目的
    1. 减少工作量
    2. 充分发挥AI的性能
    • 纵向扩展更多种硬件
    • 合理的安排不同chiplet的工作
    • 横向扩展更多相同的处理器
    1. 高效且灵活
    • 不依赖于特定的AI框架
    • 更少的内存资源占用
    • 更少运行时间
    解决方案
    1. 统一的AI计算编程模型:开放的深度学习API(Open Deep Learning API, ODLA)
      在这里插入图片描述
    2. 优化的编译器框架:Heterogeneity Aware Lowering & Optimization (HALO)
    • 基于ODLA代码编译AI算法,构建工作流
    • 优化经典的编译器
    • 优化AI算法
    • 支持异构设备
    • 优化并行化和共享

    HALO架构

    在这里插入图片描述

    HALO组件

    在这里插入图片描述

    使用HALO后的性能对比

    在这里插入图片描述
    在这里插入图片描述

    • 评:
      异构架构的软件编译框架。阿里云从2017年开始投入建设的震旦异构计算开放平台(HALO/ODLA),因其可裁剪可扩展的轻量级接口、极简的内存足迹、和内禀的异构并行支持,非常适宜于作为小芯片加速系统的软硬协同计算平台。

    HALO为了解决不同AI计算平台、和AI算法模型不统一的问题,将各种AI模型编译成C++描述的API接口,通过该API对应的运行时库,AI模型的C++程序可以运行在不同的计算平台上。

    EDA生态议题

    Configurable IO chiplet Architecture

    Speaker: Rishi Chugh (@ Cadence)

    chiplet系统自动化引擎的参数

    在这里插入图片描述


    • 可配置IO chiplet架构。该报告感觉使Cadence的chiplet产品的宣传报告,cadence拥有从接口IP、性能评估等全流程工具,客户只需要关心架构层面。

    The Case for a Universal Chiplet Revolution

    • Speaker: Rohit Mittal & Cliff Young(@ Google)


    • 通用chiplet进化的案例。google的该报告提出了chiplet是未来定制化芯片的方向,但是需要打破生态的“鸡生蛋和蛋生鸡”的问题,为此google在生态建设方面做了很多工作,对业界的交流持开放态度。

    Software-defined design for systems of chiplets

    • Speaker: Dr. Duncan Haldane (@ JITX)

    一种chiplet系统编译器

    工作流:
    在这里插入图片描述

    编译器框架:
    在这里插入图片描述

    以BoW为例可以描述slice、die组件架构、链路等信息

    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述


    • 软件定义的chiplet系统设计。该报告通过Chisel 语言和软件定义方案来描述chiplet、package、board设计的集成和优化,其系统设计中间表示(ESIR)和chiplet编译器,让小芯片系统的自动验证和优化更加高效和便捷。推测tapeout流程让需要传统EDA工具参与。

    其他链接

    “小芯片 大集成” 从软硬协同看Chiplet生态——ISCA 2022-HiPChips研讨会组织观察记
    Cerebras:晶圆级大芯片

    JITX_ESIR

  • 相关阅读:
    Python Opencv实践 - 模板匹配(Template Matching)
    LeetCode148.排序链表
    FreeRTOS学习笔记——四、任务的定义与任务切换的实现
    SpringMVC11-拦截器
    React 中的 Virtual DOM 是什么
    阿里云对象存储OSS服务开通
    每日一练Day04:寻找单身狗
    django setting.py中的SECRET_KEY
    数据库-事务篇
    git 拉取tag分支
  • 原文地址:https://blog.csdn.net/qq_39815222/article/details/132746257