低成本下的高性能模型,是悖论还是可能?

内容摘要机器之心PRO · 会员通讯 Week 22--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---1. 低成本下的高性能模型,是悖论还是可能?用户感知的模型「性能下降」是 AI 公司的有意为之?为什么提供免费满血版

机器之心PRO · 会员通讯 Week 22

--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---

1. 低成本下的高性能模型,是悖论还是可能?

用户感知的模型「性能下降」是 AI 公司的有意为之?为什么提供免费满血版 deepseek 推理服务的公司并不多?模型成本居高不下,真的只能靠「精度换算力」吗?量化和剪枝之外,「业界龙凤」 们都有哪些低成本高性能通吃的 「花活」?...

2. 从性能到实战,怎样才算是靠谱的 Agent 产品?

为什么评估 Agent 产品需要双轨评估体系?基准测试不能只设计更难的问题?LLM 与 Agent 产品的测评集有何区别?长青评估机制与传统基准有何区别?IRT 如何支撑评估系统的动态更新?国内外头部模型的「招聘」和「营销」能力如何?...

本期完整版通讯含 2 项专题解读 + 29 项 AI Robotics 赛道要事速递,其中技术方面 11 项,国内方面 10 项,国外方面 8 项。

本期通讯总计 23426 字,可免费试读至 7% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读① 低成本下的高性能模型,是悖论还是可能?

引言:2025 年上半年,几乎所有互联网大厂都宣称接入相同的「满血版」DeepSeek-R1 大模型,但据用户实际测试的效果来看,各家的服务体验和模型能力依然存在显著差异。通过模型蒸馏和量化等方法来节省其推理成本,这种看似极具性价比的方案,是否是长久之计?

经营 「token 工厂」 有人赚有人亏,通过降低精度扭亏为盈已是业内公开的秘密了吗?

1、大语言模型(LLMs)性能和成本之间的矛盾一直是公众和业界关注的焦点。顶尖大模型公司是否在「为了节省推理成本而牺牲大模型精度或服务稳定性」的讨论一直没有间断。

2、自 ChatGPT 爆火之后,其用户时不时会在社交媒体上抱怨其性能下降,形容模型的推理能力和其他输出相比之前阶段似乎「更懒惰」和「更愚蠢」。[1-1]

① 这种不满主要体现在逻辑减弱、错误响应增多、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号以及只记得最近的提示等问题上。

3、公众对大模型公司为省钱而牺牲模型性能的担忧在技术和市场层面不断得到佐证,并在 DeepSeek-R1 满血版的争议中加剧。

① 技术分析显示,满血版 DeepSeek-R1 需要多台高性能 GPU 服务器并行支持,仅一次性硬件投入成本就高达数百万元。为了避免投入额外硬件,或让有限的硬件可以服务更多的用户,部分平台很可能采用了蒸馏版替代,导致模型的推理能力和稳定性大幅下降。

② 真正的「满血版」DeepSeek-R1 运行需要更多的硬件投入,该模型的参数数量达到 6710 亿,推理能力强大,适用于科研和复杂任务。[1-3][1-4] 要有效运行如此庞大的模型,需要四台 8 卡一体机才能保证流畅运行,这对厂商来说意味着高达六七百万元的硬件成本。

③ DeepSeek 官方公布的参数精度是 FP8,即 8 比特参数,一台 8 卡 A100 的一体机勉强能运行原版模型。一些厂家为了压低成本,缩小参数,量化为 4 比特参数,导致用户质疑模型是否是真正的「满血版」。

④ 潞晨科技尤洋曾在社交平台上发文称,DeepSeek 模型的高昂成本使得服务商的利润空间几乎为零,甚至导致亏损。[1-5] 据尤洋测算,按照每百万 token 收费 16 元,假设每日输出 1000 亿 token,基于满血版 DeepSeek-R1 的服务每月的机器成本是 4.5 亿元,亏损 4 亿元。用 AMD 芯片月收入 4500 万元,月机器成本 2.7 亿元,这意味着亏损也超过 2 亿元。

⑤ 同时随着市场竞争的加剧,许多大厂通过低价和免费策略来争夺客户,这进一步加剧了 MaaS(模型即服务)模式的亏损局面。在这种「卷价」竞争中,厂商不得不寻找其他方式例如来降低成本,才能在不彻底亏损的情况下继续运营。

模型成本居高不下,只能靠「精度换算力」吗?

1、在需要平衡成本与性能的背景下,服务于高端用户的「满血版」大模型并非随处可见,尤其在市场上免费或者低价的服务中,往往难以找到性能足够强大的版本。一些 AI 公司开始通过采用模型蒸馏或简化版模型来降低推理成本,以平衡其资金投入。[1-2]

2、为应对这些成本压力,业内常见的应对策略之一是通过降低模型精度来节省成本开销,包括模型量化、模型剪枝、知识蒸馏等技术手段已经成为普遍做法。[1-6][1-7]

① 模型量化通过降低权重的数值精度(如将 16 位浮点数转换为 8 位整数)来减小计算复杂度和内存占用,从而减少硬件需求,但由于数值精度的降低,量化有可能会引入误差,从而导致模型输出的精度下降。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-4

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: