DeepSeek引爆算力革命:大模型的"吃电兽"本质
作者: 728-弈成 时间: 昨天 09:21
https://xueqiu.com/3133385075/322232605
【DeepSeek狂飙!Cerebras AI芯片订单暴涨,企业抢购潮来袭!】
硅谷的咖啡厅里,投资人正疯狂拨打电话:"不管用什么方法,给我拿下Cerebras的产能!"这个戏剧性场景正在全球20多个科技重镇同时上演。当DeepSeek-v2以1750亿参数横扫MLPerf榜单时,谁也没想到最疯狂的连锁反应会发生在芯片战场。
DeepSeek引爆算力革命:大模型的"吃电兽"本质
中国AI公司深度求索(DeepSeek)扔出一颗技术核弹——其最新大模型在数学推理能力上超越GPT-4 Turbo整整13个百分点。但更让业界震惊的是技术是一行小字:训练成本仅为同级别模型的1/7。
这记"双重暴击"彻底点燃了企业端的AI焦虑。
某跨国药企CTO在领英发文:"我们刚报废了2000万美元采购的GPU集群,因为新的架构(DS)能让药物研发效率提升400%。"这种恐慌性迭代正在制造恐怖的算力黑洞。
知名分析师Karl Freund测算,运行一个千亿参数大模型,每小时消耗的算力相当于纽约时代广场所有广告屏亮灯三年的能耗。而当模型迭代周期从18个月压缩到6个月,算力需求正以每季度230%的速度狂飙。
Cerebras的"核弹级"芯片:英伟达王座的挑战者。图2。
在这片算力焦土上,Cerebras突然成为军火商中的黑马。其WSE-3芯片面积达到惊人的46,225平方毫米,相当于整张披萨大小,集成4万亿个晶体管。这个"暴力美学"的产物,恰恰戳中了大模型训练的命门。
"传统GPU就像用吸管喝瀑布",Cerebras CEO安德鲁·费尔德曼在最近的TechCrunch访谈中打了个精妙比方,"而我们的芯片让数据洪流直接冲刷计算单元。"实测数据显示,在处理稀疏神经网络时,WSE-3的能效比达到H100的8.9倍。
更致命的是其"开箱即用"的特性。某自动驾驶公司工程师透露:"我们用192块A100跑3天的任务,换成2台CS-3系统只需11小时。"这种降维打击正在改写游戏规则——云计算大厂开始成批淘汰刚部署半年的GPU服务器。
算力军备竞赛升级:万亿市场的权力游戏。图3。
这场芯片战争背后,隐藏着三个颠覆性转折点:
1. 模型架构革命倒逼硬件创新:MoE(混合专家)架构的兴起,使传统GPU的显存带宽成为致命瓶颈。Cerebras的片上存储架构恰好解决这个痛点,其12TB/s的带宽是HBM3的4.2倍。
2. 地缘政治催生第二供应链:美国商务部最新出口管制将算力密度超过4800的芯片列入禁运名单,这反而为Cerebras打开50亿美元规模的"替代市场"。知情人士透露,中东某主权基金正在洽谈包下整条产线。
3. 能耗成本击穿商业模式:新加坡超算中心数据显示,用Cerebras WSE-3集群训练700亿参数模型,电费成本直降67%。
这对TDP动辄700W的GPU芯片来说无异于致命打击。
这场混战正在重塑产业链格局。
原本坐收渔利的$台积电(TSM)$,突然发现5nm产能被"过时"芯片占据;而靠囤积H100赚翻的倒爷们,仓库里价值3亿美元的货正在变成电子垃圾。
未来属于定制化算力:AI芯片进入战国时代
当我们拆解Cerebras的订单数据,发现一个惊人趋势:47%的采购来自传统行业。石油巨头用其加速地质建模,制药公司用来模拟蛋白质折叠,甚至奢侈品牌都在训练时尚趋势预测模型。这预示着AI算力正在渗透所有产业毛细血管。
"明年此时,市场上会出现20种以上的专用AI芯片。"AMD CTO佩珀·马斯特的预言正在应验。图4。
从Groq的LPU到Tenstorrent的RISC-V架构,再到神秘初创公司Etched的"Transformer专用芯片",
LPU,全称:Language Processing Unit,就是ASlC专用硬件处理器。不是GPU,不依赖先进制程,7纳米的甚至更落后的就行,不需要芯片外内存。
算力市场迎来百花齐放的黄金时代。
这款芯片的效率是英伟达GPU的10倍,速度是它的20倍,而功耗只有其1/10,更重要的是,这款芯片是成熟制程。LPU处理器到底强在哪?它推理速度比H100快10倍,成本却只有H100的十分之一,每秒能处理500个tokens。要是再用Groq Cloud加速,在大模型上的表现比在本地还能提升18倍。图5。
但这场狂欢暗藏危机。某对冲基金AI负责人警告:"现在采购的芯片可能在6个月后面临技术性贬值。"当摩尔定律进化到"季度定律",企业算力战略的核心不再是拥有,而是如何快速迭代。
站在算力革命的十字路口,那个让黄仁勋在发布会上挥舞$英伟达(NVDA)$ 芯片的时代正在落幕。
取而代之的,是无数个"费尔德曼"带着形态各异的算力武器冲进战场。
而DeepSeek引发的这场需求海啸,或许只是AI军备竞赛的第1个浪头。当大模型开始反向定义硬件,人类距离真正的智能奇点,可能只差一次芯片架构的革命
作者:王利群Alex
链接:https://xueqiu.com/3133385075/322232605
来源:雪球
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
风险提示:本文所提到的观点仅代表个人的意见,所涉及标的不作推荐,据此买卖,风险自负。
作者: 肚子上的肉 时间: 昨天 15:06
刚刚,我找了块1080部署deepseek,目前还在下载中
作者: java 时间: 昨天 15:08
半年的gpu???垃圾老表示。快点
作者: 江大桥 时间: 昨天 15:16
优化的还不够,
啥时候intel的核显都能轻松运行了,那才是真正的牛逼的算法优化
作者: java 时间: 昨天 15:17
image.jpg (58.81 KB, 下载次数: 0)下载附件昨天 15:16 上传
感觉和周红衣一个鸟样 蹭流量的
https://xueqiu.com/3133385075/322232605
【DeepSeek狂飙!Cerebras AI芯片订单暴涨,企业抢购潮来袭!】
硅谷的咖啡厅里,投资人正疯狂拨打电话:"不管用什么方法,给我拿下Cerebras的产能!"这个戏剧性场景正在全球20多个科技重镇同时上演。当DeepSeek-v2以1750亿参数横扫MLPerf榜单时,谁也没想到最疯狂的连锁反应会发生在芯片战场。
DeepSeek引爆算力革命:大模型的"吃电兽"本质
中国AI公司深度求索(DeepSeek)扔出一颗技术核弹——其最新大模型在数学推理能力上超越GPT-4 Turbo整整13个百分点。但更让业界震惊的是技术是一行小字:训练成本仅为同级别模型的1/7。
这记"双重暴击"彻底点燃了企业端的AI焦虑。
某跨国药企CTO在领英发文:"我们刚报废了2000万美元采购的GPU集群,因为新的架构(DS)能让药物研发效率提升400%。"这种恐慌性迭代正在制造恐怖的算力黑洞。
知名分析师Karl Freund测算,运行一个千亿参数大模型,每小时消耗的算力相当于纽约时代广场所有广告屏亮灯三年的能耗。而当模型迭代周期从18个月压缩到6个月,算力需求正以每季度230%的速度狂飙。
Cerebras的"核弹级"芯片:英伟达王座的挑战者。图2。
在这片算力焦土上,Cerebras突然成为军火商中的黑马。其WSE-3芯片面积达到惊人的46,225平方毫米,相当于整张披萨大小,集成4万亿个晶体管。这个"暴力美学"的产物,恰恰戳中了大模型训练的命门。
"传统GPU就像用吸管喝瀑布",Cerebras CEO安德鲁·费尔德曼在最近的TechCrunch访谈中打了个精妙比方,"而我们的芯片让数据洪流直接冲刷计算单元。"实测数据显示,在处理稀疏神经网络时,WSE-3的能效比达到H100的8.9倍。
更致命的是其"开箱即用"的特性。某自动驾驶公司工程师透露:"我们用192块A100跑3天的任务,换成2台CS-3系统只需11小时。"这种降维打击正在改写游戏规则——云计算大厂开始成批淘汰刚部署半年的GPU服务器。
算力军备竞赛升级:万亿市场的权力游戏。图3。
这场芯片战争背后,隐藏着三个颠覆性转折点:
1. 模型架构革命倒逼硬件创新:MoE(混合专家)架构的兴起,使传统GPU的显存带宽成为致命瓶颈。Cerebras的片上存储架构恰好解决这个痛点,其12TB/s的带宽是HBM3的4.2倍。
2. 地缘政治催生第二供应链:美国商务部最新出口管制将算力密度超过4800的芯片列入禁运名单,这反而为Cerebras打开50亿美元规模的"替代市场"。知情人士透露,中东某主权基金正在洽谈包下整条产线。
3. 能耗成本击穿商业模式:新加坡超算中心数据显示,用Cerebras WSE-3集群训练700亿参数模型,电费成本直降67%。
这对TDP动辄700W的GPU芯片来说无异于致命打击。
这场混战正在重塑产业链格局。
原本坐收渔利的$台积电(TSM)$,突然发现5nm产能被"过时"芯片占据;而靠囤积H100赚翻的倒爷们,仓库里价值3亿美元的货正在变成电子垃圾。
未来属于定制化算力:AI芯片进入战国时代
当我们拆解Cerebras的订单数据,发现一个惊人趋势:47%的采购来自传统行业。石油巨头用其加速地质建模,制药公司用来模拟蛋白质折叠,甚至奢侈品牌都在训练时尚趋势预测模型。这预示着AI算力正在渗透所有产业毛细血管。
"明年此时,市场上会出现20种以上的专用AI芯片。"AMD CTO佩珀·马斯特的预言正在应验。图4。
从Groq的LPU到Tenstorrent的RISC-V架构,再到神秘初创公司Etched的"Transformer专用芯片",
LPU,全称:Language Processing Unit,就是ASlC专用硬件处理器。不是GPU,不依赖先进制程,7纳米的甚至更落后的就行,不需要芯片外内存。
算力市场迎来百花齐放的黄金时代。
这款芯片的效率是英伟达GPU的10倍,速度是它的20倍,而功耗只有其1/10,更重要的是,这款芯片是成熟制程。LPU处理器到底强在哪?它推理速度比H100快10倍,成本却只有H100的十分之一,每秒能处理500个tokens。要是再用Groq Cloud加速,在大模型上的表现比在本地还能提升18倍。图5。
但这场狂欢暗藏危机。某对冲基金AI负责人警告:"现在采购的芯片可能在6个月后面临技术性贬值。"当摩尔定律进化到"季度定律",企业算力战略的核心不再是拥有,而是如何快速迭代。
站在算力革命的十字路口,那个让黄仁勋在发布会上挥舞$英伟达(NVDA)$ 芯片的时代正在落幕。
取而代之的,是无数个"费尔德曼"带着形态各异的算力武器冲进战场。
而DeepSeek引发的这场需求海啸,或许只是AI军备竞赛的第1个浪头。当大模型开始反向定义硬件,人类距离真正的智能奇点,可能只差一次芯片架构的革命
作者:王利群Alex
链接:https://xueqiu.com/3133385075/322232605
来源:雪球
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
风险提示:本文所提到的观点仅代表个人的意见,所涉及标的不作推荐,据此买卖,风险自负。
作者: 肚子上的肉 时间: 昨天 15:06
刚刚,我找了块1080部署deepseek,目前还在下载中
作者: java 时间: 昨天 15:08
半年的gpu???垃圾老表示。快点
作者: 江大桥 时间: 昨天 15:16
优化的还不够,
啥时候intel的核显都能轻松运行了,那才是真正的牛逼的算法优化
作者: java 时间: 昨天 15:17
image.jpg (58.81 KB, 下载次数: 0)下载附件昨天 15:16 上传
感觉和周红衣一个鸟样 蹭流量的
本文转载于9090社区,帖子链接:https://www.kk9090.top/thread-564034-1-1.html