【半导体】英伟达首席科学家：深度进修硬件的从前、当初和将来（英伟达首席科学家参加华为）

2023-03-07 09:23:37 数码推荐 ℃

从前十年是深度进修的“黄金十年”，它彻底改变了人种的事件和文娱方法，并且普遍利用到医疗、教导、产物设想等各行各业，而此一切离不开盘算硬件的进步，特别是GPU的改革。

深度进修技巧的胜利实现取决于三巨大因素：第一是算法。20世纪80年月以至更早就提出了巨大大都深度进修算法如深度神经收集、卷积神经收集、反向传布算法和立即梯度降落等。

第二是数据集练习神经收集的数据集必需足够巨大，才干使神经收集的机能优于其他技巧直至21世纪初，诸如Pascal和ImageNet等巨大数据集才得以现世第三是硬件只要硬件开展成熟，才干将巨巨大数据集练习巨巨大神经收集的所需时光把持在公道的范畴内。

业内普遍以为：比拟“公道”的练习时光巨大略是两周至此，深度进修范畴燃起了星火燎原假如把算法和数据集看作是深度进修的混杂燃料，那末GPU便是扑灭它们的火花，当强巨大的GPU可用来练习收集时，深度进修技巧才变得适用。

尔后，深度进修取代了其他算法，被普遍利用在图象分类、图象检测、语音辨认、天然言语处置、时序剖析等范畴，以至在围棋和国际象棋上级也可看到它的身影跟着深度进修潜入人种生涯的方上级面，模子练习和推理对硬件的请求也愈来愈高。

从2012年AlexNet呈现到2016年ResNet问世，图象神经收集的练习算力耗费（以petaflop/s-day为单元）增加了快要2个数目级，而从2018年的BERT到比年的GPT-3，练习算力耗费增添了近4个数目级。

在此时期，得益于某些技巧的进步，神经收集的练习效力显明进步，由此节俭了很多算力，不然算力耗费的增加再会更夸大研讨人员想用更巨大的无监视言语数据集练习更巨大的言语模子，但是，尽管他们曾经领有4000个节点的GPU集群，但在公道练习时光内能处置的运算还是十分无限。

此就意味着，深度进修技巧的开展有多快，取决于硬件开展有多快如今，深度进修模子岂但愈来愈庞杂，并且利用范畴愈来愈普遍因而，还须要连续进步深度进修的机能那末，深度进修硬件究竟怎样持续进步？英伟达首席科学家Bill Dally无疑是答复此一成就的威望，。

在H100 GPU发布前，他在一次报告中回想了深度进修硬件的近况，并讨论摩尔定律生效的情况下连续进步机能扩大的多少标的目的OneFlow社区对此停止了编译1GPU构筑演进史从2012年的K20X到2020年的A100，GPU的推理机能进步到原来的317倍。

此便是咱们所说的“黄氏定律”，此类开展速率比“摩尔定律”快很多

GPU的推理机能进步但差别于“摩尔定律”，在“黄氏定律”中，GPU的机能进步不完全依附制程技巧的进步上图用黑、绿、蓝三色分辨标注了此几种GPU，分辨代表它们利用了三种差别的制程技巧晚期的K20X和M40利用的是28纳米制程；P100、V100和Q8000利用的是16纳米制程；A100利用的是7纳米制程。

制程技巧的进步巨大略只能让GPU的机能进步到原来的1.5或2倍而整体317倍的机能进步绝巨大部分归功于GPU构筑和线路设想的完美2012年，英伟达揭晓了一款Kepler构筑GPU，但它并非专为深度进修设想的。

英伟达在2010年才起始打仗深度进修，其时还不斟酌为深度进修量身定制GPU产物

Kepler (2012)Kepler的目的利用场景是图象处置和高机能运算，但主要还是用于图象处置因而，它的特点是高浮点运算才干，它的FP32盘算（单精度浮点数盘算）速率到达近4 TFLOPS，内存带宽到达250 GB/s。

源于Kepler出色的机能表示，英伟达也将它视为自家产物的基准线

Pascal (2016)厥后，英伟达在2016年揭晓了Pascal构筑，它的设想更适合深度进修英伟达经由少少研讨后发明，很多神经收集都可能用FP16（半精度浮点数盘算）练习，因而Pascal构筑的巨大部分型号都支撑FP16盘算。

下图此款Pascal GPU的FP32盘算速率可达10.6 TFLOPS，比前一款Kepler GPU超出跨越很多，而它的FP16盘算则更快，速率是FP32的两倍Pascal构筑还支撑更多庞杂指令，比方FDP4，如许就可能将取得指令、解码和取得操纵数的开消摊派到8个算术运算中。

相较于之前的融会乘加（Fuse Multiply-Add）指令只能将开消摊派到2个算术运算，Pascal构筑可能削减额定开消念叨的能耗，转而将其用于数学运算Pascal构筑还利用了HBM显存，带宽到达732 GB/s，是Kepler的3倍。

缘由内存带宽是深度进修机能进步的主要瓶颈别的，是以增添带宽ascal利用了NVLink，可能衔接更多机械和GPU集群，但是最好地实现巨大范围练习英伟达为深度进修揭晓的DGX-1体系就利用了8个源于Pascal构筑的GPU。

Volta (2017)2017年，英伟达揭晓了适用于深度进修的Volta构筑，它的设想重点之一是可能最好地摊派指令开消Volta构筑中引入了Tensor Core，用于深度进修的加快Tensor Core可能用指令的情势与GPU衔接，其华厦要害指令是HMMA (Half Precision Matrix Multiply Accumulate，半精度矩阵乘积累加)，它将2个4×4 FP16矩阵相乘，而后将结果加和到一只FP32矩阵中，此类运算在深度进修中很常见。

经由过程HMMA指令，就可能将取得指令息争码的开消经由过程摊派降落到原来的10%到20%剩下的便是负载成就假如想要超出Tensor Core的机能，那就应当在负载高低工夫在Volta构筑中，巨大批的能耗和空间都被用于深度进修加快，因而即便就义可编程性，也不可念叨太多机能进步。

Volta还进级了HBM显存，内存带宽到达900 GB/s，还利用了新版本的NVLink，可能让构建集群时的带宽增添到2倍别的，Volta构筑还引进了NVSwitch，可能衔接多个GPU，理论上NVSwitch最多可能衔接1024个GPU，构建一只巨巨大同享内存机械。

Turing (2018)2018年，英伟达揭晓了Turing构筑因为之前的Tensor Core巨大获胜利，因而英伟达又趁势揭晓了Integer Tensor Core因为巨大部分的神经收集用FP16便可练习，做推理时也不须要太高的精度和太巨大的动静范畴，用Int8便可。

因而，英伟达在Turing构筑中引进了Integer Tensor Core，使机能进步到原来的2倍Turing构筑还利用了GDDR显存，以支撑那些有高带宽需要的NLP模子和推举体系其时有人质疑称，Turing构筑的动力效力比不上市面上的其他加快器。

但假如细心盘算，会发明实在Turing构筑的动力效力更高，因为Turing用的是G5显存，而其他加快器用的是LPDDR内存我以为，抉择G5显存是一只正确的决议，因为它可能支撑同类产物没能支撑的高带宽需要的模子。

我对Turing构筑深感骄傲的大批是，它还配备了支撑光芒追踪（Ray Tracing）的RT Core。英伟达在2013年才起始研讨RT Core，在短小5年后就正式揭晓了RT Core。

Ampere (2020)2020年，英伟达发布了Ampere构筑，让昔时发布的A100实现了机能奔腾，推理速率可达1200 Teraflops以上Ampere构筑的一巨大长处是，它支撑稀少性咱们发明，巨大部分神经收集都是可能稀少化的，也便是说，可能对神经收集停止“剪枝”，将巨大批权重设置为0而不影响它的准确率。

但差别神经收集的可稀少化程度差别，此就有些辣手比方，在保障不丧失准确率的前提下，卷积神经收集的密度可能降落至30%到40%，而全衔接神经收集则可降落至10%到20%传统概念以为，因为运算稀少矩阵包的开消较巨大，因而假如密度不可降到10%以下，衡量之下往吝运算麋集矩阵包。

性，厥后做出了很好的机械，它们在矩阵密度到达50%时也可高效运转，但要想让稀少矩阵在电源门控（power gating）上级比麋集矩阵更优越还是很艰苦，此是咱们一直想冲破的处所。

终极，咱们攻破艰苦研发出了Ampere，而法门便是构造化稀少

构造化稀少Ampere构筑划定矩阵的每4个数值中，非零值不可超过2个，也便是经由过程去掉非零值对权重停止紧缩经由过程输入码字（code word）断定哪些权重应被保存，并用码字断定此些非零权重应当乘以哪些输入激活，而后相加，实现点乘操纵。

此类做法十分高效，让Ampere构筑在巨大大都神经收集上的机能进步到原来的2倍别的，Ampere构筑另有很多翻新点，比方Ampere内置了TF32（即TensorFloat-32）格局，它结合了FP32的8位指数位和FP16的10位尾数位。

Ampere还支撑BFLOAT格局，BFLOAT的指数位与FP32雷同，尾数位比FP32少，因而可能视为FP32的缩减版上述的一切数据格局都支撑构造化稀少，因而不论用FP16和TF32练习，还是用Int8和Int4推理，都可能取得构造化稀少念叨的高机能。

跟着Ampere在量化上级做得愈来愈好，它可能利用在良多神经收集上并保障高机能Ampere有6个HBM仓库，且HBM显存的带宽也有所进级，到达2TB/s端到端推理时，Ampere的运算才干可达3.12 TOPS/W(Int8)和6.24 TOPS/W(Int4)。

2GPU推理机能进步的三巨大身分

GPU推理机能进步的三巨大身分总结深度进修从前的开展，GPU推理机能在8年内进步317倍主要归功于三巨大身分：起首，最主要的是数字表示（number representation）法的开展FP32的精度太高，招致算术运算的本钱太高。

厥后Turing和Ampere构筑支撑Int8，极巨大进步了GPU的每瓦机能Google揭晓论文颁布TPU1时表示，TPU1的上风就在于它是特地为机械进修量身定制的实践上，Google应当是在拿自家的TPU1和英伟达的Kepler停止比拟（如前所述，Kepler并非特地为深度进修而设想），因而TPU1的上风归根结柢可能说是Int8相较于FP32的上风。

其次，GPU支撑庞杂指令Pascal构筑新增了点乘指令，而后Volta、Turing和Ampere构筑新增了矩阵乘积指令，闪开消取得摊派在GPU中保存可编程引擎可能念叨良多利益，它可能像加快器雷同高效，因为每项指令实现的义务十分多，每项指令的开消摊派简直可能忽略不计。

最后，制程技巧的进步芯片制程从28纳米开展到如今的7纳米，为GPU机能进步作出了一定的奉献以下例子可能让你最好地懂得开消摊派的后果：假如履行HFMA操纵，“乘”和“加”2个操纵共计只要1.5pJ（皮焦耳，Picojoules），但是取得指令、解码和取得操纵数须要30pJ的开消，摊派落来开消就会高达2000%。

而假如履行HDP4A操纵，就可能将开消摊派到8个操纵，使开消降落至500%而HMMA操纵，因为绝巨大部分的能耗都用于负载，开消仅为22%，IMMA则更低，为16%因而，固然寻求可编程性会增添大批开消，但采用差别的设想可念叨的机能进步愈加主要。

3从单卡机能到GPU集群衔接以上念叨的都是单个GPU的机能，但练习巨巨大言语模子明显须要多个GPU，因而还要改进GPU一朝一夕的衔接方法咱们在Pascal构筑中引入NVLink，厥后的Volta构筑采用了NVLink 2，Ampere构筑采用了NVLink 3，每代构筑的带宽都翻了一倍。

别的，咱们在Volta构筑中揭晓了第一代NVSwitch，又在Ampere构筑揭晓了第二代经由过程NVLink和NVSwitch，可能构建超巨巨大的GPU集群别的，咱们还揭晓了DGX box

DGX box2020年，英伟达收购了Mellanox，因而当初可能供给包含Switches和Interconnect在内的整套数据中心处理计划，供构建巨巨大GPU集群之用别的，咱们还配备了DGX SuperPOD，它在AI机能记载500强名单上排行前20。

以往，用户须要定制机械，当初只须要购买一台可能部署DGX SuperPOD的预配置机械，就可能取得DGX SuperPOD念叨的高机能别的，此些机械还十分适用于科学盘算畴前，用单台机械练习单个巨巨大言语模子须要几个月之久，但经由过程构建GPU集群就可能巨大巨大进步练习效力，因而，优化GPU集群衔接和进步单个GPU的机能雷同主要。

4深度进修加快器：新技巧的试验场接落来谈谈英伟达的加快器研发事件英伟达把加快器视为试验新技巧的载体，胜利的技巧终极会被利用到支流GPU中可能如许懂得加快器：它有一只由内存档次构造输入的矩阵乘法单元，接落来要做的是让巨大部分的能耗用于矩阵乘法盘算，而不是用于数据搬运。

为了此个目的，咱们在2013操纵启动了NVIDIA DLA名目，它是一款开源产物，配置十分完美，与其他深度进修加快器别无二致但DLA有巨巨大MAC阵列，支撑2048次Int8、1024次Int16或1024次FP16操纵。

DLA有两个奇特的地方：一是支撑稀少化咱们沉着易实现的目的起始动手，一切的数据传输，包含从DMA到Unified Buffer和从Unified Buffer到MAC阵列，都只波及非零值，经由过程编码决议哪些元素被留下，而后对此些元素停止解紧缩，再输入MAC阵列停止运算。

DLA解紧缩的方法比拟奇妙，它其实不向MAC阵列中输入零值，因为此会让一连串的数据都变成零相反，它设置了独自的线路表示零值，当乘法器在任一输入中接收到该线路时，就会锁定乘法器内的数据，而后发送输入，输入的数据阻止增添任何数值，此类数据门控（Data Gating）的动力效力十分高。

二是在硬件层面支撑Winograd变更要知道，假如要做卷积，比方一只m×n的卷积核，在空间域就须要n的2次方个乘法器和加法器，但假如在频域，就只须要逐点相乘因而巨巨大卷积核在频域运算比在空间域运算更高效依据卷积核巨巨细的差别，对部分图象收集归根结蒂，Winograd变更可能念叨4倍的机能进步。

EIE（2016）2016年，我在斯坦福和我其时的门生韩松（MIT EECS助理教学、原深鉴科技结合创始人）一同研讨EIE (Efficient Inference Engine)此是对稀少化的开端摸索之一。

咱们在硬件层面支撑CSR（Compressed Sparse Row）矩阵表示，此类做法十分高效，在密度为50%时，以至比全密度盘算还要节能厥后发明，假如想让加快器更高效，应当构建向量单元阵列，如许每只引擎阻止只履行单个乘加，而是每只轮回每只PE（Processing Element）履行16×16=256个乘加。

但当咱们起始构建向量单元阵列时，发明很难高效实现稀少化，因而转而采用构造化稀少EIE处置标量单元时，它将指针构造贮存在独自的内存中，而后经由过程流水段落来处置指针构造，决议哪些数据可能相乘，继而履行乘法，将运算结果安排在合适的地位。

此一整套流程运转得十分高效咱们还发明，进步神经收集运算效力的方法除“剪枝”实现稀少化之外，另有量化因而，咱们决议利用码本量化（codebook quantization）在用比特数表示的数据上级，码本量化是进步效力的最佳方法。

因而咱们对codebook（码本）停止了练习事实证实，假如你能利用反向传布来捕获梯度降落，那就可能将反向传布应用就任何事物中因而咱们在码本中利用反向传布，练习了给定精度的最优码字集假定码本有7个比特，那末你将取得128个码字，咱们就在神经收集中找到最优的128个码字停止练习。

码本量化面对一只成就：数学运算的开消很高因为不论码本有多巨大，实践数值是多少，你都须要在RAM（立即拜访内存）中停止查找实践数值必需以高精度表示，而你无奈将此些码字准确地表示出来因而，咱们在高精度数学上级花了良多精神。

从紧缩的角度来看，如许做的后果很好，但从数学力量（math energy）的角度来看，就显得不是很合算，因而在后续事件中咱们就放弃了此项技巧

Eyeriss（2016）Joel Emer（同期供职于英伟达和麻省理工巨大学）和麻省理工巨大学的Vivienne Sze一同构建了Eyeriss，主要处理了平铺成就，大概说是怎样限度盘算，以此来将数据搬运（data movement）最小化。

典型的方法是利用行牢固（row stationary），外行中传布权重，输入在列中激活，并最巨大限度地削减数据搬运耗费的力量

SCNN（2017）咱们当初仍在停止稀少性研讨2017年，咱们为稀少编译（神经收集的退化版）搭建了一台名为SCNN（Sparse CNNs）的机械，咱们所做的是：将与处置稀少性相关的一切庞杂成就都转移到输入上。

读取一切的输入激活，同期明白它们须要去往那里，因而此里的“f宽向量”是典型的向量输入激活咱们一次会读取四个输入激活，四个权重，每只权重都须要乘以每只输入激活此只是一只对把结果放在那里的成就，因而咱们用f乘f盘算。

在座标盘算中，咱们取输入激活和权重的指数，并盘算出在输入激活中须请乞降结果的地位而后在此些累加器缓冲区上做了一只数据发散（scatter_add）盘算在此之前，一切都十分有用但事实证实，将不规矩性转移到输入上不是一只好措施，因为在输入中，精度实践上是最宽泛的。

当你倾向于累加，做了八位权重，八位激活，累加到了24位在此里咱们用宽位累加器（wide accumulators ）做了巨大批的数据搬运，后果优于做更麋集大批的数据搬运不外进步也不想象的那末多，兴许是密度单元力量的50%。

SIMBA（RC18）（2019）咱们要做的另一件事是：用现有加快器制作一只多芯片模块——SIMBA（RC18），在2018年产生了做此研讨的主意，同期此款芯片也展示了良多奇妙的技巧它有一只很好的PE构筑，该芯片则在此中间供给了一项十分有用的信令技巧（signaling technology）。

当初该构筑扩大到了完整的36个芯片，此中每只芯片都有一只4x4的PE矩阵，在此个单元中，每只PE还有8个宽矢量单元，因而咱们可能取得128 TOPS的运算才干，每只Op有0.1 pJ，巨大略相称于10 TOPS/W。

从中咱们学到了良多对衡量（trade-offs）的货色咱们意想到：构建此些PE阵列好像建立一只十分巨大的设想空间（design space），关乎怎样构建内存档次构造，怎样调理数据等等，对此咱们建立了一只叫做MAGNET的体系。

MAGNET上图是一只于2019年揭晓在ICCAD（国际盘算机辅助设想集会）上的设想空间摸索体系，主要用于列举其设想空间，如：每只向量单元应当有多宽，每只PE有多少向量单元，权重缓冲区有多巨大，累加器缓冲区有多巨大，激活缓冲区有多巨大等等。

厥后发明，咱们须要去做另一只级别的缓存，因而增加了权重收集器和累加器收集器

MAGNET RESULTS经由过程此类额定的缓存级别，咱们终极取得了胜利此表明此里的数据流是差别的，而权重牢固数据流最后是由Sze和Joel来实现的你将巨大部分力量投到了数据门路之外的事件上，比方投入到积累缓冲区、权重缓冲区和输入缓冲区中。

但经由过程此些混杂数据流，权重牢固，部分输入牢固，输入牢固，部分权重牢固，可能在数学运算中取得简直三分之二的力量，并且可能削减花在此些内存阵列华厦力量，但是在内存档次构造的另一只层上停止处置此使得当初的每瓦机能到达约为20 TOPS。

VS-Quant2021年，在MLSYS（The Conference on Machine Learning and Systems，机械进修与体系集会）集会上，咱们引入了VS-Quant，以此来摸索出一种在紧缩比特数（此上级码本量化后果很好）和数学开消上级都很合算的量化方法。

咱们利用整数表示，但同期想要缩放该整数表示，以便可能表示出整数的动静范畴但事实证实，假如你当初将其利用到全部神经收集，那末后果阻止很好，因为神经收集上有良多差别的动静范畴，因而VS-Quant的要害是：咱们对一只绝对较小的向量施加了一只独自的比例因子（scale factor），巨大略经由过程在32个权重上停止上述操纵，动静范畴会小很多。

咱们可能把此些整数放在上级，也可能对其调剂优化兴许咱们不将离群值准确地表示出来，但最好地表示出了其他数字如此一来，咱们就可能用绝对低精度的权重和激活来换取较高的精度因而咱们当初有多个比例因子（scale factors ）：一只是权重因子，一只是激活因子。

Energy, Area, and Accuracy Tradeoff咱们基本上是在向量层级停止此些操纵，结果如Bert-base所示与不停止权重练习比拟，咱们可能经由过程练习在某些情况下节俭20%的力量和70%的空间，上图的绿色表示基本上不丧失准确性；蓝色、橙色和白色表示准确性更高或更低。

但即便在蓝色程度，准确性也相称高了经由过程VS-Quant和少少其他调剂，咱们在此些言语模子上停止了试运转。在言语模子上运转比在巨大略为120 TOPS/W的图象模子上运转要艰苦很多。

Accelerators因而对加快器，要先做一只矩阵乘法器咱们须要提出一种平铺方法，一种采用神经收集的七个嵌套轮回盘算方法本质上是将此中少少轮回复制到内存体系的各层，以最巨大限度地重复利用每层的内存档次构造，并尽量削减数据搬运。

咱们还研讨了稀少性，在紧缩上级很不错它基本上增添了内存带宽和通讯带宽，削减了内存和通讯的力量稀少性开展的下一只档次是：当你有一只零值，只要独自发送一条线表示零值，而不用在每只轮回中切换到8或16位Ampere构筑可能经由过程利用构造化稀少来重用乘法器，此是一种很有用的方法，只须要几个多路复用器的开消（基本上可能忽略不计）。

在停止指针操纵时，咱们也可能重用乘法器，从中可取得2倍的机能数值表征（number representation）十分主要咱们从EIE起始（译者注：Efficient Inference Engine，韩松博士在ISCA 2016上的论文。

实现了紧缩的稀少神经收集的硬件加快与其近似方法的ESE取得了FPGA2017的最佳论文），试图做码本，但此使得数学上的缩放很高贵最后，在加快器里试验胜利的技巧终极会被应用到GPU中此是一种很好的测试方法，咱们以为，GPU是一只对于特定范畴硬件的平台，它的内存体系十分好，收集流利，可能让深度进修利用运转得十分快。

5深度进修硬件的将来

Future Directions接落来谈谈深度进修硬件的将来上图是一只力量流向饼状图，从中可能看到巨大部分都流向于数据门路，其背地有巨大略50%是对数学运算，因而咱们想让数学运算的力量耗费更少；剩下良多流向内存和数据搬运。

此中绿色的是数据搬运，其他部分是输入缓冲区、权重缓冲区、累加缓冲区和累加收集器，占比都有差别咱们正在研讨降落数学运算的力量耗费，最佳的一只措施便是将其转移到对数体系因为在对数体系中，乘法变成了加法，而加法的耗能凡是要低很多。

另一只措施是转为更小的数值，此大批可能经由过程VS-Quant实现经由过程更准确地量化，咱们可能用较低的精度数从神经收集中取得等同的精度咱们希望能将平铺做得最好，比方在某些情况下，可能会在内存档次构造中增加更多层，如许就可能降落内存力量，也可能使内存电路和通讯电路的后果最好。

在Ampere构筑上，咱们曾经在构造化稀少的事件是一只很好的起始，但我以为咱们可能经由过程降落密度或抉择多个密度来调剂激活和权重，以此做得最好。跟着研讨的深刻，做工技巧也会念叨少少电容缩放的停顿。6总结

2012年发布Kepler构筑以来，GPU的推理机能（inference performance）每年都在翻倍增加开展到当初，很巨大程度上要归功于一直最好的数字表示本次咱们谈了良多内容，比方从Kepler构筑的FP32到FP16到Int8再到Int4；谈到了经由过程调配指令开消，利用更庞杂的点积；谈到了Pascal构筑，Volta构筑华厦半精细矩阵乘累加，Turing构筑华厦整数矩阵乘累加，另有Ampere构筑和构造稀少。

对Plumbing我谈得很少，但Plumbing却十分主要经由过程Plumbing来部署片上内存体系和收集，由此可能充分利用强巨大的Tensor Cores（张量中心）对Tensor Cores来讲，使其在Turing构筑中每秒履行一千兆的操纵，并将数据输入到履行通用基准测试中，以此来部署分支存储器、片上存储器和它们一朝一夕的互连互通和畸形运转，都十分主要。

展望将来，咱们筹备测验考试将各类新技巧利用到加快器中后面提到，咱们曾经就稀少性战争铺技巧停止了屡次试验，并在MAGNet名目中试验了差别的平铺技巧和数值表示等等但咱们依然倍感压力，因为深度进修的进步实在取决于硬件机能的连续进步，让GPU的推理机能每年都翻一番是一项巨巨大的挑衅。

实在咱们手里的牌打得差不多了，此意味着咱们必需起始研发新的技巧，以下是我以为值得存眷的四个标的目的：起首，研讨新的数字表示，比方对数（Log number），和比EasyQuant愈加奇妙的量化计划；其次，持续深刻研讨稀少性；而后，研讨存储电路和通讯电路；最后，改进现有的做工技巧。

7答听众问Dejan Milojicic：须要多巨大的矩阵卷积才干将Winograd算法转换成更高效的卷积实现？Bill Dally：我以为，3×3的矩阵卷积就很高效固然，卷积越巨大，效力越高Dejan Milojicic：高带宽存储器（High Bandwidth Memory, HBM）的内存带宽是怎样盘算的？是经由过程一切的GPU核同期拜访内存吗？。

Bill Dally：每只HBM仓库都有一只独自的帧缓冲区，像Ampere构筑有六个仓库咱们的内存带宽是经由过程每只内存把持器以全带宽运转来盘算的各个GPU核一朝一夕都有一只缓存层，而后咱们的片上收集的带宽是HBM带宽好几倍，因而基本上只要运转一小部分的流式多处置器就可以使HBM到达饱和。

Dejan Milojicic：带有NVLink的分布式盘算怎样事件？谁来决议详细履行哪一只盘算？在多个GPU上做scatter-gather时，哪些处所会产生开消和会产生哪些开消？Bill Dally：

程序员会决议把数据和线程放在甚么地位，而你只要在GPU上启动线程和数据和断定它们的运转地位采用NVLink停止衔接的体系存在一巨大上风，那便是它是一只同享的地点空间，传输绝对较小数据时的开消也相称小，因而咱们在收集中采用集群通讯。

凡是情况下，假如你在深度进修中做数据并行，那末每只GPU城市运转雷同的收集，但处置的是同一数据集的差别部分，它们会各自积累权重梯度，以后你再同享各个GPU上的梯度并积累一切梯度，而后增加到权重中集群通讯就十分善于处置如许的事件。

Dejan Milojicic：咱们究竟是应当为一切利用创立通用的深度进修加快器，还是分辨创立公用的加快器，比方视觉加快器或天然言语处置加快器？Bill Dally：在不影响效力的情况下，我以为加快器固然越通用越好，英伟达的GPU在加快深度进修效力上级堪比公用加快器。

真正主要的是，机械进修范畴正在以惊人的速率向前开展几年前，巨各位还在利用轮回神经收集处置言语，而后Transformer呈现并以迅雷不迭掩耳之速取代了RNN，转眼间一切人都起始利用Transformer停止天然言语处置。

雷同，就在几年前，每只人都在利用CNN来处置图象，固然当初仍有很多人在利用卷积神经收集，但愈来愈多人起始利用Transformer来处置图象因而，我其实不支撑产物适度公用化大概为某一收集创立公用加快器，因为产物的设想周期凡是须要连续好几年时光，而在此时期，大伙极可能曾经不再利用此类收集了。

咱们必需存在敏锐的目光，实时洞察行业变更，因为它时辰都在以惊人的速率开展Dejan Milojicic：摩尔定律对GPU机能和内存占用有何影响？Bill Dally：摩尔定律以为，晶体管本钱会随时光逐年降落。

明天，集成电路上可包容的晶体管数目确切愈来愈多，芯片制程也实现了从16纳米到7纳米的奔腾，集成电路上的晶体管密度愈来愈巨大，但单个晶体管的价钱却并未降落因而，我以为摩尔定律有些过期了尽管如此，集成电路上能包容更多的晶体管还是一件功德，如许咱们就可能制作更巨大范围的GPU。

固然巨巨大GPU的能耗也会更高，价钱也愈加高贵，但此总归是一件功德，因为咱们可能构建少少畴前无奈构建的产物Dejan Milojicic：假如开发者比拟器重PyTorch如许的框架，那末他们应当从硬件的进步中进修甚么来让本人的深度进修模子运转更高效？

Bill Dally：此个成就很难答复框架在形象硬件上级做得很好，但依然有少少影响模子运转速率的身分值得研讨咱们可能测验考试去做的是，当想出一项最好的技巧时，比方最好的数值表示方法，可能测验考试将各类差别的技巧与框架相结合，看看哪一种方法愈加有用，此是研发事件不可或缺的环节。

Dejan Milojicic：英伟达能否正在试验新的封装方法？Bill Dally：咱们一直在对各类封装技巧停止各类试验，弄清楚它们能做甚么和不可做甚么，以便在合适的机会将它们部署到产物比方此中少少名目在研讨多芯片模块，用焊接凸点、混杂键合做芯片重叠，实在有良多简练的封装技巧。

Dejan Milojicic：英伟达的Tensor Core和谷歌的TPU比拟，谁更胜一筹？Bill Dally：咱们对谷歌最新的TPU其实不了解，但他们之前揭晓的TPU都是公用引擎，基本上都内置了巨巨大的乘加器阵列。

TPU独立的单元来处置非线性函数和批量归一化（batch norm）之类的事件，但咱们的方法是建立一只十分通用的盘算单元流式多处置器（SM），只要十分通用的指令就可能让它做任何事件，而后再用Tensor Core来加快矩阵乘法部分。

因而，Tensor Core和谷歌的TPU都有类似的乘加器阵列，只是咱们利用的阵列绝对较小Dejan Milojicic：英伟达最巨大的敌手是谁？Bill Dally：英伟达从来不跟其他公司比拟，最巨大的敌手便是咱们本人，咱们也在一直地挑衅本人，我以为此才是正确的立场。

假如咱们一味地把其别人视作竞争敌手，反而放缓咱们前进的脚步不用过量存眷其别人在做甚么，咱们真正应当存眷的是哪些事件是可能实现的咱们所做的事就像在寻求光速，咱们更存眷怎样才干做到最佳，和间隔光速另有多远，此才是真实的挑衅。

Dejan Milojicic：你对量子盘算有何见解？量子模仿是深度进修挑衅的天然延长吗？Bill Dally：2021年3月，咱们发布了一款名为“cuQuantum”的软件开发工具包Google之前也研制出了存在53个量子比特的盘算机，并称本人实现了“量子优越性”。

少少传统盘算机无奈实现的盘算，用cuQuantum在五分钟内就可以实现了因而，假如想真正做到精准的量子算法，而不是明天的喧闹中型量子（Noisy Intermediate-Scale Quantum，NIST）盘算，GPU应当是最佳抉择。

英伟达的传统GPU盘算机是今朝最快的量子盘算机之一，阿里巴巴也在类似的典范盘算中取得了不错的成就，此刚好印证了咱们的论断咱们对量子盘算的见解是：英伟达阻止因为此一技巧范畴的任何动静而感到惊奇实践上，咱们还成立了一只研讨小组来追踪量子盘算范畴的预兆动静，比方IBM发布研制出了存在127个量子比特的芯片。

咱们也一直在跟踪量子比特数目和相关时光（coherence time）等上级的停顿斟酌到所需的量子比特数目、量子比特的准确性、乐音对量子的干扰和量子纠错所需的开消，我以为将来五到十年内，量子盘算都无奈实现商用。

我最乐观的见解是，巨大略五年后，大伙将起始停止量子化学模仿，此应当最有可能做到的但在那之前，另有良多物理上的艰苦须要处理良多人还不意想到，量子盘算机便是模仿盘算机，而模仿盘算机须要十分准确且易于断绝，不然任何与环境的耦合城市招致结果不一致。

Dejan Milojicic：在你看来，机械什么时候才干到达通用野生智能（AGI）的程度？Bill Dally：我对此个成就的见解比拟悲观试看少少比拟胜利的野生智能用例，比方神经收集，实在它本质上便是通用函数拟合器。

神经收集可能经由过程观察来进修一只函数，因而它的代价还是体当初野生感知而不是野生智能固然咱们今朝曾经取得了不错的结果，但还是可能持续研讨怎样利用野生智能和深度进修来进步生产力，但是改进医疗、教导，给大伙念叨愈加美好的生涯。

实在，咱们不须要AGI来做到此些，其应若响当器重怎样最巨大程度天时用现有技巧间隔AGI另有很长的路要走，咱们也必需弄清究竟甚么是AGI来源|图灵野生智能