千变万化

芯算未来

陈巍谈芯:Nature首发的三星存内计算芯片的原理和不足是什么?

存算一体芯片    原创技术文章    陈巍谈芯:Nature首发的三星存内计算芯片的原理和不足是什么?

编者荐语:

千芯科技资深技术专家带你深度解析三星MRAM存内计算芯片。

 

以下文章来源于陈巍谈芯 ,作者陈巍 博士

■ 陈巍,资深芯片专家,人工智能算法-芯片协同设计专家,擅长芯片架构与存算一体

 

近日,三星电子与哈佛大学在顶级学术期刊Nature 网站上发布了业内首个基于 MRAM(磁性随机存储器)的存内计算芯片

三星MRAM存内计算登上Nature

 

由于大大减少数据在存储和处理间的移动,存算一体芯片(涵盖存内计算和内存逻辑技术)大大降低了 AI 计算的功耗,并提升了计算性能,被视作AI计算的主要趋势。存算一体技术也被AspenCore预测为2022年的全球半导体行业十大技术趋势

虽然这一文章是存算设计技术的小进步,但对MRAM进入存算殿堂,却是一个巨大的飞跃。

那么,这次登上Nature的MRAM存内计算芯片的原理是什么?尽管登上Nature,其不足又是什么呢?

 

01

什么是存算一体技术

存内计算架构(右)在传输带宽上优于传统计算架构(左)

 

存内计算技术(Computing in Memory,CIM)概念的形成,最早可以追溯到上个世纪90年代。随着近几年云计算和人工智能(AI)应用的发展,面对计算中心的数据洪流,数据搬运慢、搬运能耗大等问题成为了计算的关键瓶颈

存内计算可理解为在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算,而不是在传统逻辑运算单元或工艺上优化。这样能从本质上消除不必要的数据搬移的延迟和功耗,成百上千倍的提高AI计算效率,降低成本,打破存储墙。

 

02

三星MRAM存内计算的原理

三星存内计算芯片的架构

 

虽然MRAM存储器件具备高可靠性、可大规模量产等优势,且成熟度优于RRAM,但其小电阻的特性(一般在20-50kΩ量级)阻碍了这类存储器被用于存内计算

这是因为,如果采用传统的电流加和模式,对应多路乘加的8位位宽的支路电流可能达到数百毫安,与RRAM或者SRAM存算相比,相应的能效比处于劣势。

三星在Nature上发表的这篇MRAM存算文章,则创造性的采用了电阻加和的思路。该芯片采用了三星28nm工艺设计。

如上图所示,多个存储单元串联组成电阻加和支路,一条支路的电阻等于支路上所有被选中的单元的电阻总和。这样相当于等效提升了MRAM的读取电阻,进而降低了整条电阻加和支路上的电流,实现了高能效

二进制权重存在MRAM单元之中,以RL(低电阻)和RH(高电阻)分别代表二进制的权重。每个存储单元上加入的电压代表数据输入。对应的等效电阻等于输入乘以权重,则深度学习中的卷积计算可以用等效电阻的加和来进行快速计算。

电阻加和的结果可以用电压除电流得出。在本芯片中使用了TDC(time-to-digital converter,时间-数字转换器),即电阻加和越大,电流越小,计算结果的电路充电时间越长,转换得到的数字值也就越大。当然,这里的TDC也可以用ADC来代替。

 

03

三星存内计算芯片的算法应用与不足

三星存内计算芯片用于简单人脸识别

 

在这篇Nature文章中,展示了两类AI算法应用。

一个是MNIST手写字符识别算法。在二值化神经网络权重的情况下,达到93.23 ± 0.05%的准确度。

可能是作者也觉得这个算法在工业界很古老,使用率较低,所以又增加了另一个算法,即修改自SqueezeDet的VGG类的人脸识别算法。考虑到实验的MRAM容量较小,作者仅仅将这一模型的第7层(该模型一共10层)用MRAM存内计算芯片实现。

从测试数据上看,仅用0.56mW就达到了0.63FPS的人脸识别速率。这一芯片非常适合极低功耗的AIoT应用。

当然,我们也看到这一芯片目前还处于试验原型阶段,其主要不足在于,这一芯片还只能跑一些很小的模型。另一方面,由于MRAM的RL(低电阻)和RH(高电阻)差别不太大(一般RH是RL的2倍附近),所以不太容易进行较高精度的权重写入

 

04

存算一体芯片的展望

在这一文献之前,学术界主要聚焦于基于SRAM和RRAM的存算一体芯片,并进行了非常多的技术落地工作。由于引入了电阻加和的思路,使得MRAM也可以大规模应用于存算一体芯片(不仅仅是存内计算)的设计,为存算技术的发展拓宽了道路。

存算技术在海量数据计算场景中拥有天然的优势,将在云计算、自动驾驶、元宇宙等场景拥有广阔的发展空间。存算一体技术正在逐渐走向成熟和工业化落地

 

END

 

 

 

2022年2月26日 00:02
收藏