阿里Qwen3系列模型发布，中美基础大模型竞争强度加大

中美十家主要大模型公司平均每8.5天就会发布一款新的基础大模型，全球大模型赛程加快

文｜《财经》研究员吴俊宇

编辑｜谢丽容

全球基础大模型玩家主要在中国和美国，两国核心玩家自今年初开始，在新一代大模型的发布节奏上越来越密，一代比一代强——大模型的竞争中，卷模型这件事情依旧是确定的。

4月29日凌晨4点，阿里发布了Qwen3系列模型，这是阿里的大模型系列中最强的。它再次缩小和美国头部基础大模型之间的能力差。Qwen3在全球开发者社区GitHub发布后四个小时获得1.7万个星标，刷新了开源大模型的热度纪录。

Qwen3系列模型包含2个混合专家（MoE）模型和6个稠密（Dense）模型，覆盖6亿、17亿、40亿、80亿、140亿、320亿、300亿、2350亿全尺寸参数规模。

其中，Qwen3-235B-A22B是Qwen3系列模型中性能最强的，它仅次于全球性能最强的大模型——OpenAI旗下的o3。阿里Qwen3技术文档披露，它在基准测试中的得分，和DeepSeek-R1、OpenAI旗下的o1、o3-mini，谷歌的 Gemini-2.5-Pro等全球一流大模型不相上下。

让模型性能提升的有效方式包括，准备更多算力或更多数据。Qwen3没有披露训练过程使用的算力规模，但披露了使用的数据量。

Qwen3技术文档披露，训练使用的数据量相比上一代显著增长。上一代Qwen2.5是在18万亿个token（词元，大模型推理算力单位，每个字符都是一个Token）上进行预训练的，但Qwen3使用的数据量几乎是其两倍，达到了约36万亿个token，甚至涵盖了119种语言和方言。

全球大模型行业在2024下半年一直存在一个共识——“Scaling Law”（规模定律，模型性能由算力、模型、数据规模决定）在放缓。简单的堆砌算力已经无法让模型性能得到大幅度提升。然而，没有任何一家大公司因此放弃训练基础模型，它们仍在探索新的模型性能提升的方法。

仅在今年1月至4月末，包括阿里、腾讯、字节跳动、百度、DeepSeek等中国主要的大模型公司，以及OpenAI、Anthropic（亚马逊投资的AI创业公司）、xAI（特斯拉创始人马斯克旗下的AI创业公司）、谷歌、Meta等美国主要的大模型公司均发布了新款基础大模型。

2025年过去了119天，中国、美国参与模型竞争的10家主要大模型公司，发布或更新了14款基础大模型。平均每8.5天就会更新一款新的基础大模型。大模型的军备竞赛，仍然在提速。

大模型的军备竞赛强度加大

2023年-2024年，全球大模型的性能提升幅度极大。2024年下半年开始有所放缓，但各家竞争强度依旧没有降低，基础模型能力的竞争仍然激烈。

因为，模型能力始终是决定客户规模的核心因素。

一位科技公司算法负责人今年1月曾对我们表示，大模型是长跑，模型每3个-6个月就会有一轮重大升级。长期迭代并保持性能领先很重要。一旦模型能力落后，就会被竞争对手抢走客户。这也是为什么，几乎每一家大型科技公司，仍然在训练自己下一代大模型。哪怕需要万卡、十万卡，训练也始终不会停止。

中国大模型创业公司DeepSeek是加快赛程的鲶鱼。DeepSeek在倒逼大厂重拾紧迫感。今年2月，一位中国科技公司大模型领头人形容，“几个大厂不紧不慢地赛跑。现在，赛道上突然横插进一匹黑马，但现在赛道上突然横插进DeepSeek这匹黑马，格局完全乱了。”

他的团队对DeepSeek-R1迅速参考借鉴后，在2月末上线了自研的推理大模型。他承认，这款模型是“赶鸭子上架”，整个训练周期不到两周，甚至没有经过反复测试就上线了。

中国在这场模型竞争中，目前紧紧咬住了美国公司。国际市场调研机构Artificial Analysis今年1月末发布的《人工智能现状：中国报告》显示，美国大模型的性能依旧领先，但中国不落后，且差距在缩小。全世界最顶尖的21款模型，阿里的通义、DeepSeek等中国公司一共跻身六款，其中阿里有两款。

2025年大模型除了卷性能，另一个竞争方向是，降低算力成本。

阿里云通义大模型业务总经理徐栋4月9日对《财经》表示，2025年中国大模型的发展主脉络之一仍是，提升精度并降低算力成本。这在工程化上有很多工作可以做。中国客户最希望用到的模型，简单说就是多、快、好、省。

比如，阿里最新发布的Qwen3家族模型，一共有八款。模型参数（可以理解成模型大小，参数越大往往性能越强、精度越高）覆盖了6亿、17亿、40亿、80亿、140亿、320亿、300亿、2350亿等不同范围。模型参数覆盖广，意味着可以适用于不同的业务之中，可以满足多种需求。其中小尺寸模型可以在满足基本需求的情况下节省算力成本，大尺寸模型则适合追求极限性能的用户。

Qwen3模型的部署成本大幅降低。其中Qwen3-235B-A22B这款旗舰模型参数虽然高达2350亿，但由于采用了MoE（混合专家模型）架构，提问时它会把问题分派给不同的专家模型。因此，每次调用时只激活220亿参数。它所需要的算力也大幅减少。

阿里方面称，使用Qwen3-235B-A22B大致需要4张英伟达H20 AI芯片。它消耗的算力仅为DeepSee-R1旗舰671B版本的25%-35%，模型部署成本可以降低60%。

商业化是赛点

为什么一定要降低算力成本？逻辑很简单。

其一，2025年大模型的竞争焦点从训练走向推理，低成本、高性能的模型变得更重要。

其二，AI应用正在爆发，固化多年的互联网应用格局可能会出现新的生机。

对大厂来说，现在比两年前大模型爆发初期的机会更多了，但竞争难度在变大。

前两年，它们只需准备万卡算力、训出千亿参数的模型，然后看别人“卷”应用。现在，它们得买十万卡的算力，训又好又便宜的模型，还要自己下场在To B（面向企业级）、To C（面向消费者）两个方向同时探索AI应用。

不过正是由于模型性能不断提升、成本不断降低，它的商业模式正在逐渐跑通。

某科技公司的一位战略规划人士透露，2024年中国各个模型厂商的模型调用收入普遍只有千万元、数亿元。这部分收入寥寥无几。但模型调用带来的算力消耗、公共云四大件（计算、存储、网络、数据库）收入增长，反而更可观。因此，阿里云等厂商愿意用免费开源的方式，刺激市场需求。

国际市场调研机构IDC数据显示，2024年12月中国大模型日均调用量9522亿次，2024年6月这个数据只有963亿次。也就是说，2024年6月-12月中国大模型日均调用量增长了近10倍。

阿里、字节跳动等大厂的模型调用增长速度更快。《财经》了解到，阿里、字节跳动近一年日均Token调用量增长已经超过100倍。阿里方面预期，通义模型2025年模型调用增长量还将增长数十倍。这意味着阿里、字节跳动的这部分收入的规模将远超2024年。

某中国头部科技公司的一位战略规划人士分析，以字节跳动旗下的豆包大模型为例，豆包日均token使用量12万亿。如果模型调用价格不变，按照每百万tokens平均定价0.8元计算，单月收入约为2.88亿，全年收入有可能在30亿元左右。不过这只是静态、粗略的计算方式。因为随着模型调用量数十倍增长，模型价格可能也还将以十倍的速度下降。

另一家中国头部科技公司的一位战略规划人士则认为，目前在云计算的赛场上，阿里和字节跳动竞争是最激烈的。字节跳动旗下云服务火山引擎正在全力投入人工智能，不惜用价格战的方式争夺阿里云的市场份额。由于不计成本投入，火山引擎目前暂时尚在亏损。

某云计算头部公司的一位一线销售人士今年1月曾对《财经》表示，火山引擎甚至用2折-3折的方式挖角阿里云的客户。《财经》获得的一份资料显示，火山引擎预计2025年营收将超过200亿元，预计营收增速远超60%。

不过，阿里云的优势是，营收、利润规模更大，目前有足够厚的家底应对竞争，而且已经走上了正向循环。2024年阿里云营收1135亿元，同比增长7.3%；EBITA（阿里云通常把EBITA利润作为盈利指标，该口径剔除了股权激励、无形资产摊销等非现金因素）利润96亿元，利润率8.4%。

阿里云也是大模型的最大受益者之一。在大模型的带动下，阿里云2024年营收增速、利润水平都在不断回升。2024年四季度，阿里云营收317.4亿元，增速回升到两位数，达到13.1%；EBITA利润31.4亿元，利润率为9.9%，达到历史最高水平。

责编 | 要琢

本文分类：实时讯息
本文标签：模型阿里中国公司性能亿元竞争字节
浏览次数：0 次浏览
发布日期：2025-04-29 10:42:00
本文链接：https://m.ffwz.net/news/gr4E7WpAR7.html

阿里Qwen3系列模型发布，中美基础大模型竞争强度加大

相关文章

俄罗斯亚历山大红旗歌舞团四天六唱

山东省2025年第三批政策清单出炉，企业、百姓如何获益？

中上协：上半年A股公司营收35.01万亿 经营质效稳步提升

韩国明星玉珠铉：音乐剧的魅力在于“共享一个瞬间”

深南电路：公司经营情况正常，内外部经营环境未发生重大变化

中上协：上半年A股公司营收35.01万亿经营质效稳步提升