被榨干的AI算力,谁将成为解药
大模型这股热风,已经吹到了上游算力。
随着百度、腾讯、阿里等纷纷拿出相关技术布局以及底层设施储备,为中国的CHATGPT奋力一战,密集上线的大模型面临着巨大的算力需求,“算力从何而来”的问题随之搬上台面。
一方面,算力昂贵。以ChatGPT为例,支撑其算力至少需要上万颗英伟达的GPU A100,单次模型训练成本超过1200万美元。
另一方面,算力有限。今年4月5日,Open AI就因需求量过大为由关闭过ChatGPT Plus的付费渠道,这意味着仅发布几个月,OpenAI就曾面临算力缺口。
那么问题就来了,GPU烧钱且有限的算力现况,对于大模型来说是否就是最优解?
“蹭”大模型和AIGC的热度,业内也涌现技术及方案的“混战”。国内外云计算大厂发力自研芯片和软硬件系统优化、二级市场CPO(共封装光学)概念股一路飙升、存算跳出来说是“突破困境的清晰路线”、量子计算更是被认为“最具潜力的破局者”。
在投算力未来上,投资人也开始兵分几路,有人坚定烧GPU、有人开始刷起模型训练优化的项目,更有投资过存算、Chiplet的VC计划在赛道内寻找更优的投资标的,还有投资量子计算的机构在期待从底层到上层的一场算力革命的大爆发。
俨然,这场“算力军备竞赛”在一级市场,已经暗潮涌动。
国产GPU:以量取胜
大模型的发展有算法、算力、数据三大重要因素。
算力是大模型训练的重要能量引擎,也是目前国内发展大模型产业的一大壁垒。芯片能力直接影响着高算力训练效果和速度,故而高端GPU芯片的数量多少,成为业内判断企业大模型能力的重要指标。
然而,对于国内大模型玩家而言,高端GPU芯片面临着进口受限的问题,已经由“买不买得起”变为“用不用得上”。据此前媒体报道,国内云厂商主要采用的是英伟达的中低端性能产品,譬如GPU A800。
在国外芯片能否撑起大模型的算力需求疑问下,一众GPU国产厂商也在抓住国产替代的契机。
但是,国内GPU芯片的云端训练公司如壁仞科技(通用GPU芯片BR100)、天数智芯(“智铠100”)、寒武纪(云端推理思元270)的产品虽在多媒体和图形处理的单精度浮点计算FP32的理论指标上做得不错,但没有处理FP64的能力。
而大模型训练需要处理高颗粒度的信息,对云端训练芯片的芯片处理信息的精细度和算力速度要求更高,在超算领域,双精度浮点计算能力FP64是进行高算力计算的硬性指标。
英伟达的A100就同时具备上述两类能力。
根据公开消息,目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU(协处理器),但是它的性能只有A100的60%左右。
对此,戈壁创投VP俞悦坦言,虽然目前烧GPU是最为现实的方案,但就国内GPU厂商的角度,还需要更多时间去追赶。
普华资本合伙人蒋纯则认为,技术差距是一方面,还有一方面是美国卡脖子的问题,这就要求国内企业想做高端GPU芯片,要有能力走出一条从设备到材料,完全国产化的道路。如果做不到,就只能退而求其次。
但这样的国产GPU对于大模型是否就无用了?不然。
蒋纯进一步解释,国产GPU即便做不出最强大,但也能做出目前所需要的产品,只是更多是以低端的GPU去追赶和堆叠,让一堆GPU通过优化和协调来协同作用,即以量取胜、再去组合模拟优化的路径。
值得注意的是,GPU越堆越多,内部管理的难度也就越大,故而提高GPU并行运行的资源利用率,做模型推理/训练优化的项目也开始在VC圈开始涌现,成为了一线投资人研究的方向之一。
但就蒋纯来说,这类项目虽然有价值,也是个不错的方向,但并不足以戳中他的心巴。他坦言,有时候有价值的事不一定有好的商业模式。
“就系统来说,阿里、华为等大厂一定比小公司有优势。因为技术从大环境里磨练出来,最后应用到大环境里。创业公司独立做,大公司一上来就学走了,要不就是技术卖给大厂。”
而就GPU芯片而言,大厂又未必有绝对优势,反倒给了创业公司机会。
他表示,虽然大厂有资金、场景,但存在一个老问题,就是以部门形式来做,无法做到创业公司all in的 “疯狂”。而芯片有知识产权以及商业壁垒,创业公司有能力将芯片卖给大厂。
GPU“防守”,存算“包抄”
值得注意的是,烧GPU,并非长久之策。
动辄几亿算力投入的模型训练阶段只是开始,模型推理应用阶段算力成本更是可能高达百亿级别。大算力之下,背后的功耗更是惊人。
环球零碳研究中心曾粗略合计了ChatGPT全生命周期的碳足迹:自 2022 年 11 月 30 日运行以来,其制造设备的碳排放量超过了33. 41 吨,模型训练碳排放超过 552 吨,运行 60 天碳排放约为229. 2 吨。
而随着模型越来越大,按照传统方式计算将越来越麻烦。而国内想用高端GPU这一传统的数字电路方法来解决大算力,存在上游材料、设备等根本障碍,短期难以解决。
面对未来潜在的算力指数增长,也有不少企业和VC开启了换挡操作,以存算、Chiplet等技术,来达到能够支撑大模型的算力。
其中,就存算赛道来说,身处一线的蒋纯明显感觉到变热闹了。
2019年投知存科技时,他发现很多人还不知道存内计算,而现在这个高技术壁垒的赛道,他观察到创业公司可能有近10家,且热度还在持续升温。
“越来越多人会发现存内计算在全球的大模型时代非常重要。传统的计算机体系架构是适应计算密集型应用的,而现在AI都是数据密集型应用,所以一定要有新的架构来更好地应对AI这种数据密集型应用。从原理上来说,存内计算是一种解决AI算力需求的根本性手段,而且相较于量子计算、光计算而言更有望在短期内实现出来。芯粒跟堆叠也会对AI类计算提供帮助。”
蒋纯表示,存算即用器件本身特性来算,相当于是一次并行计算,譬如ChatGPT 1700多亿参数,传统的数字电路要算很多次,而存算可能一个节拍就能算完。至于堆叠,则是将一片memory和一片逻辑电路堆在一起,创造了一个有巨大内存的CPU,应用在大模型上就会非常好地加速运算。
蒋纯对赛道的感受的确也跟公开数据表现相一致。
来源:猎云网
据企查查数据显示,存算赛道2018年-2019年融资交易数量为11笔,而2020年至今,融资交易数为28笔,其中有22笔集中在2021年至2022年间,加速态势明显。
但他也指出,目前全球已经商用的存算还是用在边缘端,譬如高保真降噪耳机等,以低功耗带来高算力。与此同时,从公司战略上来看,目前存算企业可分为两派。
一派是上来就大容量的计算,要狂投入研发成本,短期看不出结果,融资几轮估值上百亿,但最后没有成果,就会越到后面越难做,可能就无人接盘;而另一派则是小步快跑,先流片、应用,甚至搭生态,边研发边回血,让投资人有信心续投,也是蒋纯认为国内存算企业更现实的发展战略。
据他观察,现在大模型出来之后,投资人在看到市场的前景下,对这两派存算企业都有意愿去投钱,即使当下没有成果展示。
“我们投的时候,这些技术肯定有很多的不确定性,譬如能不能做出来,能不能成为主流。现在来看确定性是越来越高了,存算企业都在做大模型支撑的相关研发,优质项目会呈现加速发展的态势。我认为5年内,存算能够成为一个比较成熟的解决方案,甚至有可能是主流解决方案。”
在这场全球技术较量中,蒋纯认为GPU跟存算是合大于竞的关系:GPU作为目前最成熟的方案,不能放弃,需要有一批公司扛着,来正面刚;而存算属于包抄穿插进攻,打破国外技术壁垒,实现新技术的换道超车。
防御进攻都有了,量子计算还能做什么?
按照上述所说,大模型算力之争,短期看GPU自研,中期看存算、Chiplet,那么被投资人视为新计算方向的量子计算在其中又能扮演什么角色?
事实上,VC对量子计算的关注不只限于此次ChatGPT的热潮,AR/VR、5G等新应用场景的不断涌现,以及各类型的应用场景爆发式增长,让市场对算力的需求水涨船高,产业亟待挖掘具有颠覆性的计算形式。
量子计算作为一种新型架构的计算,可以实现指数级算力提升,更可谓是不得不关注的焦点。
来源:猎云网
据企查查数据显示,2017年至今,国内量子计算赛道共完成31起融资事件,公开披露融资金额超25亿元,融资主要发生在2021年及以后,占比近7成。其中图灵量子、本源量子、量旋科技、玻色量子、国仪量子等在近年获多轮融资。
对于这一疑问,量旋科技CEO项金根对量子计算跟经典计算机的算力差距,给出了飞机和地面交通工具的比喻。
他表示,当下存算、光芯片、其他一些封装的改进技术,本质上还是经典计算机的范畴,它运算的原理跟GPU本质上没有太大改变,更多是在传统的框架下做的一些改进,使得人工智能的芯片效率更高。
对于现有的AI芯片、存算一体或其他封装技术对AI算力的提升,项金根表示认可,同时他也认为需要不同维度去看不同解决方案对算力的助力,这里面不一定存在最优解。
“未来,量子计算机肯定能够助力人工智能。AI需要的算力会越来越多,到 2030 年左右可能不光是算力,连耗电量都是非常恐怖的数据级。所以要真正解决AI大规模的算力需求,量子计算机是一个很有潜力的应用方向,而且量子计算机的运算模式跟人工智能有天然的贴合性,量子计算机可以加速AI的一些应用场景,而AI亦可以加速量子计算的研发,优化其操控精度。”
那么,如此具有革命性的量子计算何时能应用到AI领域?项金根认为,到2030年行业发展顺利进入容错量子计算阶段,将可能是一个落地的时间点。
相较于项金根给出的10年之约,俞悦认为量子计算相关算法在一些行业特定任务上的尝试落地,在这个时间点可能会有一些结果,至于解决AI的通用任务上,他则相对保守地给出了“50年”的看法。甚至投了图灵量子的联想创投也表示,量子计算从产业化的角度看,仍挑战诸多,充满机遇。
联想创投坦言,量子计算落地需要解决百万量子比特操纵能力、低环境要求、高集成度等核心问题,具有较高的入局门槛,其产业化仍面临技术路径不确定、人才储备稀缺、产业链配套早期以及无法用传统的逻辑、电路思维进行推导和复刻的四大痛点。
如此看来,这些问题待解之下,量子计算就略微显得理想丰满、现实骨感。
此外,俞悦还指出,从逻辑上说,量子计算肯定能解决很多算力问题,但即便如此,还需要结合成本,才能知道量子计算是不是一个从投入产出看的最佳方案。
在俞悦看来,眼下量子计算行业还未发生一些根本性的变化进展,中短期与其寄希望于其他方案来解决大模型所遇到的算力问题,不如指望GPU这些经典计算的硬件价格能下来。
“解决算力的成本肯定会越来越便宜,GPU价格对于大模型玩家来说只是暂时的,终究不会对AI发展构成太大瓶颈。而其他方案的成熟还需要很多配套的软件生态匹配,相对来说更是一个非常长周期的事情。”