底层码农眼中的芯片

Jianpan Gun2018年12月05日 18:24:01文章访问量:

这周四个展示终于要熬到最后一个了 good luck

今天来讨论这个问题显得有些应景 和 无力 刚说不再贸易战还搞菊厂这只能说Trump是一个鳝变的男人👱

什么是芯片？

当中兴事件发生的时候铺天盖地的新闻在报道『中国芯片』

看到这些新闻的时候我一蒙我不知道这里的芯片指的是什么

也许它什么都指这可能是才最恐怖的

以电脑为例基本上所有器件都可以称为芯片

计算芯片: CPU GPU TPU NPU FRGA
存储芯片: DRAM SDRAM ROM FLASH
通信芯片: 蓝牙 WIFI NB-IOT 宽带ADSL
传感器: 陀螺仪 MEMS 指纹芯片麦克摄像
接口芯片: USB 网卡 HDMI DP
电源芯片: 反正大家不认识就不列了

但很明显各个部分的重要程度不一样

CPU速度很快 I/O速度超慢

为了连接这二者就出现了中间这条总线

CPU负责高速运算然后把数据通过前端总线经过北桥(内存管理集线器) 传给内存和 GPU

这个时候速度已经降了一级

然后再通过网络总线继续往下传由南桥(也就是I/O控制集线器) 传给各个外部端口

比如说什么SATA硬盘，USB，网卡，视频，音频，CMOS

最后再经过LPC总线(就是很慢的总线) 与ROM中的BIOS、更慢一点的I/O连接

比如说串行端口并行端口键盘鼠标啥的

到这里整个PC机的芯片就串在一起了作为一名合格的装系统工程师 应该熟练掌握😂

`CPU`

核心 + 指令集架构/CPU架构/处理器架构 + 微架构 = CPU - OS

核心指的就是CPU的硬件包括ALU运算器等等的

指令就是一个约定好的暗号

比如说你对狗狗喊‘蹲下’ 它做出相应的反应这就是一个指令完成的过程

当然如果你这样对🐶说可能不一定有用这就是一个不成功的指令

微架构呢就是管理硬件的一些操作

指令集大部分都是不开源的只有授权了才能拿到使用权

可以想到指令集作为一种约定用的人多了这个指令集才值钱

因为更换成本较大再加上一些垄断的原因现在世界上只有少数几种通用的指令集

相对而言在微架构方面就有很多创新空间所以现在包括三星苹果小米等公司都是在这个领域进行自己的设计

图片.png | center | 556x500

指令集架构

指令集分为复杂指令集RISC和精简指令集CISC两种

两者最大的差别就是RISC支持变长度的指令 CISC只支持定长度的指令

这有什么区别呢我们看一个例子

RISC: Thecatsatandatehishat CISC: The cat sat and ate his hat.

复杂指令集相当于读上面那句话精简指令集呢相当于读下面这句话很明显下面更容易获取信息

但定长也导致了拓展性低各有优缺点

CISC目前常用的商业指令集有ARM,Power,MIPS

其中 ARM 独占移动端市场主要是因为Intel在起步阶段不够重视移动端

Power是IBM开发的一个指令集看用它的产品有XBOX 360,PS3, Wii Ui这个是Switch上一代产品总结一下这些都是上一代掌机

现在的掌机为了追求GPU效果都换成了ARM 真香

MIPS是一个开源指令集被中科院购买下来后来成为龙芯公司龙芯也是大陆第一个自主研制出能在Win上跑的芯片的公司（虽然只是WIn CN）

而复杂指令集呢现在只有X86比较常用 X86是Intel开发与AMD互相授权的一个指令集基本上垄断了PC机

一个原因是因为Intel 微架构确实优化的叼制作工艺也屌在Intel这制程都不是事落后一代也能吊打你 10nm和台积电7nm差不多真的恐怖

还有一个很重要的原因就是Win只支持X86(现在也支持ARM了但那还是Win吗)

所以如果你想开发能给Win用的CPU你就必须获得X86授权

目前大陆只有两家公司获得X86的授权一家是兆芯一家是海光

兆芯的授权来自台湾公司VIA 而VIA的X86授权来自美国反垄断协会判给VIA的使用权相对来说授权较为不稳定而且技术支持较为薄弱

海光是AMD在中国的合资公司 AMD技术底蕴更强合作意愿也更大但起步晚

我的观点 CPU指令集很难创新也没必要创新有研究表明指令集与能耗性能无明显关系

最重要的是已经形式相应的生态研制成本已经很大了更换成本更大

微架构

微架构是各大公司创新点

目前微架构有以下几种常见的方向

流水线化
多核、多线程
SIMD 向量
存储系统分层结构

流水线就相当于时间上的并行每个核心反复做相同的工作由不同核心共同完成一个任务

多线程就相当于空间上的并行

SIMD就是单指令多数据一次导一组数据增加效率

前两天刚好在研究一个在内存数据库中利用SIMD构建DBMS的问题

可以看出微架构是一个体系结构问题

在这之中有很多工作可以做

SOC

SOC是手机上的芯片的集合体

里面有CPU GPU DSP（用于多媒体解码）有些还有NPU 通讯芯片蓝牙 LCD 摄像头 GPS等等

图片.png | center | 556x500

按功能可以分为AP BP 其他

BP主要功能是通信包括基带和射频基带主要负责通信信号的处理射频主要负责信号的收发

AP则可以看做PC机负责系统的处理

在AP BP中间都有相应的CPU DSP 电源等等

ARM 把CPU核心卖给各大厂商比如说高通三星苹果

ARM不仅做硬件贩卖商也自己生产设计了自己的微架构提供给各大IP提供商

这其中就有一个很著名的例子就是2015年的骁龙810

当时高通第一次做8核心的SOC 没啥经验用的公版芯片就是ARN卖芯片送的微架构

这就导致了著名的暖手宝芯片都说有了骁龙810 妈妈再也不怕我冻着了

当然骁龙810用的是20nm工艺也是一部分原因

GPU

GPU: graphics processing unit

虽然叫这个名字但GPU还是一个通用的计算芯片不仅可以用于图像加速还可以用于深度学习中

CPU是基于冯诺依曼体系顺序执行

GPU呢则是讲究并行化处理 GPU利用其远大于CPU的核心数达到并行的效果

CPU中因为通用性存在很多缓存存储机制

一个直观的感受一个GPU中运算单元的个数 VS CPU中运算单元大概能达到这样的一个比例

图片.png | center | 556x500

拿我自己的感受 Mac没有N卡每次跑模型都是别人几倍的时间留下了没有GPU的眼泪😢

右下角是NVIDIA刚刚发布的一款适合深度学习的GPU 拥有4k多个核心但是价格看看就好了这么大的煤气灶居然要2.5k刀穷

TPU

TPU就不是通用的计算芯片是一种AISC特定用途的芯片由google设计专门对TensorFlow进行优化

举一个例子在10月份 Google发布了一个基础TensorFlow的模型Bert

这个模型一出就轰动NLP届

有人称之为NLP的春天在它发布一个多月时间内

屠杀了各大NLP任务排行榜比如说这个由Stanford发布的阅读理解领域权威数据集

可以看到前7名全是用Bert的足足把原有的水平提高7.8个百分点十分接近人类表现了

但这个武器威力无比但代价很大大在哪它用了几千层Attention 计算量非常大

论文中Google Brain的老哥用了16块TPU跑了4天换算成钱💰 就是12k刀跑一次留下了没有TPU的眼泪

事实上 TPU Google也不卖只能提高云服务购买

所以有人说 Bert相当于核武器虽然威力无比但代价也很大

Money is all you need

然后这是TPU的设计架构

图片.png | center | 556x500

可以看出TPU相较于GPU 缓冲区更小计算核心更多而且采用SIMD架构专门对大I/O进行优化

AISC

近些年来 AI持续走热各大公司都推出了自己的AI芯片

但要明白这些芯片并不是像CPU GPU那样通用的芯片只是针对专门任务进行优化的特殊功能芯片称之为AISC

我们知道在机器学习中分为两个步骤先是用数据训练出一个模型然后在用这个模型预测出结果

在训练中一般参数需要是浮点数对计算性能要求就比较高

而预测过程中不再需要高精度浮点数故有些人用8位长度来进行优化推出了针对推测阶段的推测芯片

比如说寒武纪1A

虽然我个人觉得在手机上用的NPU都是垃圾

手机上能耗的限制基本不能进行训练如果要预测那个模型的大小大概是5MB左右才能跑起来

现在的机器学习训练出来的模型基本上都是几个GB 于是目前在手机上的NPU效果不会太好

图片.png | center | 556x500

Clound Chip

可以看出越来越多的云厂商推出自己的AI芯片

尤其是Google推出TPU效果挺不错的

首先什么是Cloud

cloud 就是租用部署在云端的服务器

为啥要租用而不是购买呢主要原因就是弹性扩容以便资源最大利用

比如说微博在一些明星有大瓜的时候就会扩容微博号称可以支持并发出轨

还好在上周的吃瓜日中终于抗住了压力

云服务厂商比如说华为 AWS 微软都推出了自己的AI芯片

这种云服务厂商的芯片具有独特性可以捆绑用户购买其服务器

像这种机器学习机器购买费用就会比较高

图片.png | center | 556x500

You can use this BibTex to reference this blog if you find it useful and want to quote it.

Hardware