阿里Qwen3系列模型发布,中美基础大模型竞争强度加大





中美十家主要大模型公司平均每8.5天就会发布一款新的基础大模型,全球大模型赛程加快


文|《财经》研究员 吴俊宇
编辑|谢丽容

全球基础大模型玩家主要在中国和美国,两国核心玩家自今年初开始,在新一代大模型的发布节奏上越来越密,一代比一代强——大模型的竞争中,卷模型这件事情依旧是确定的。

4月29日凌晨4点,阿里发布了Qwen3系列模型,这是阿里的大模型系列中最强的。它再次缩小和美国头部基础大模型之间的能力差。Qwen3在全球开发者社区GitHub发布后四个小时获得1.7万个星标,刷新了开源大模型的热度纪录。

Qwen3系列模型包含2个混合专家(MoE)模型和6个稠密(Dense)模型,覆盖6亿、17亿、40亿、80亿、140亿、320亿、300亿、2350亿全尺寸参数规模。

其中,Qwen3-235B-A22B是Qwen3系列模型中性能最强的,它仅次于全球性能最强的大模型——OpenAI旗下的o3。阿里Qwen3技术文档披露,它在基准测试中的得分,和DeepSeek-R1、OpenAI旗下的o1、o3-mini,谷歌的 Gemini-2.5-Pro等全球一流大模型不相上下。

让模型性能提升的有效方式包括,准备更多算力或更多数据。Qwen3没有披露训练过程使用的算力规模,但披露了使用的数据量。

Qwen3技术文档披露,训练使用的数据量相比上一代显著增长。上一代Qwen2.5是在18万亿个token(词元,大模型推理算力单位,每个字符都是一个Token)上进行预训练的,但Qwen3使用的数据量几乎是其两倍,达到了约36万亿个token,甚至涵盖了119种语言和方言。

全球大模型行业在2024下半年一直存在一个共识——“Scaling Law”(规模定律,模型性能由算力、模型、数据规模决定)在放缓。简单的堆砌算力已经无法让模型性能得到大幅度提升。然而,没有任何一家大公司因此放弃训练基础模型,它们仍在探索新的模型性能提升的方法。

仅在今年1月至4月末,包括阿里、腾讯、字节跳动、百度、DeepSeek等中国主要的大模型公司,以及OpenAI、Anthropic(亚马逊投资的AI创业公司)、xAI(特斯拉创始人马斯克旗下的AI创业公司)、谷歌、Meta等美国主要的大模型公司均发布了新款基础大模型。

2025年过去了119天,中国、美国参与模型竞争的10家主要大模型公司,发布或更新了14款基础大模型。平均每8.5天就会更新一款新的基础大模型。大模型的军备竞赛,仍然在提速。

大模型的军备竞赛强度加大

2023年-2024年,全球大模型的性能提升幅度极大。2024年下半年开始有所放缓,但各家竞争强度依旧没有降低,基础模型能力的竞争仍然激烈。

因为,模型能力始终是决定客户规模的核心因素。

一位科技公司算法负责人今年1月曾对我们表示,大模型是长跑,模型每3个-6个月就会有一轮重大升级。长期迭代并保持性能领先很重要。一旦模型能力落后,就会被竞争对手抢走客户。这也是为什么,几乎每一家大型科技公司,仍然在训练自己下一代大模型。哪怕需要万卡、十万卡,训练也始终不会停止。

中国大模型创业公司DeepSeek是加快赛程的鲶鱼。DeepSeek在倒逼大厂重拾紧迫感。今年2月,一位中国科技公司大模型领头人形容,“几个大厂不紧不慢地赛跑。现在,赛道上突然横插进一匹黑马,但现在赛道上突然横插进DeepSeek这匹黑马,格局完全乱了。”

他的团队对DeepSeek-R1迅速参考借鉴后,在2月末上线了自研的推理大模型。他承认,这款模型是“赶鸭子上架”,整个训练周期不到两周,甚至没有经过反复测试就上线了。

中国在这场模型竞争中,目前紧紧咬住了美国公司。国际市场调研机构Artificial Analysis今年1月末发布的《人工智能现状:中国报告》显示,美国大模型的性能依旧领先,但中国不落后,且差距在缩小。全世界最顶尖的21款模型,阿里的通义、DeepSeek等中国公司一共跻身六款,其中阿里有两款。

2025年大模型除了卷性能,另一个竞争方向是,降低算力成本。

阿里云通义大模型业务总经理徐栋4月9日对《财经》表示,2025年中国大模型的发展主脉络之一仍是,提升精度并降低算力成本。这在工程化上有很多工作可以做。中国客户最希望用到的模型,简单说就是多、快、好、省。

比如,阿里最新发布的Qwen3家族模型,一共有八款。模型参数(可以理解成模型大小,参数越大往往性能越强、精度越高)覆盖了6亿、17亿、40亿、80亿、140亿、320亿、300亿、2350亿等不同范围。模型参数覆盖广,意味着可以适用于不同的业务之中,可以满足多种需求。其中小尺寸模型可以在满足基本需求的情况下节省算力成本,大尺寸模型则适合追求极限性能的用户。

Qwen3模型的部署成本大幅降低。其中Qwen3-235B-A22B这款旗舰模型参数虽然高达2350亿,但由于采用了MoE(混合专家模型)架构,提问时它会把问题分派给不同的专家模型。因此,每次调用时只激活220亿参数。它所需要的算力也大幅减少。

阿里方面称,使用Qwen3-235B-A22B大致需要4张英伟达H20 AI芯片。它消耗的算力仅为DeepSee-R1旗舰671B版本的25%-35%,模型部署成本可以降低60%。

商业化是赛点

为什么一定要降低算力成本?逻辑很简单。

其一,2025年大模型的竞争焦点从训练走向推理,低成本、高性能的模型变得更重要。

其二,AI应用正在爆发,固化多年的互联网应用格局可能会出现新的生机。

对大厂来说,现在比两年前大模型爆发初期的机会更多了,但竞争难度在变大。

前两年,它们只需准备万卡算力、训出千亿参数的模型,然后看别人“卷”应用。现在,它们得买十万卡的算力,训又好又便宜的模型,还要自己下场在To B(面向企业级)、To C(面向消费者)两个方向同时探索AI应用。

不过正是由于模型性能不断提升、成本不断降低,它的商业模式正在逐渐跑通。

某科技公司的一位战略规划人士透露,2024年中国各个模型厂商的模型调用收入普遍只有千万元、数亿元。这部分收入寥寥无几。但模型调用带来的算力消耗、公共云四大件(计算、存储、网络、数据库)收入增长,反而更可观。因此,阿里云等厂商愿意用免费开源的方式,刺激市场需求。

国际市场调研机构IDC数据显示,2024年12月中国大模型日均调用量9522亿次,2024年6月这个数据只有963亿次。也就是说,2024年6月-12月中国大模型日均调用量增长了近10倍。

阿里、字节跳动等大厂的模型调用增长速度更快。《财经》了解到,阿里、字节跳动近一年日均Token调用量增长已经超过100倍。阿里方面预期,通义模型2025年模型调用增长量还将增长数十倍。这意味着阿里、字节跳动的这部分收入的规模将远超2024年。

某中国头部科技公司的一位战略规划人士分析,以字节跳动旗下的豆包大模型为例,豆包日均token使用量12万亿。如果模型调用价格不变,按照每百万tokens平均定价0.8元计算,单月收入约为2.88亿,全年收入有可能在30亿元左右。不过这只是静态、粗略的计算方式。因为随着模型调用量数十倍增长,模型价格可能也还将以十倍的速度下降。

另一家中国头部科技公司的一位战略规划人士则认为,目前在云计算的赛场上,阿里和字节跳动竞争是最激烈的。字节跳动旗下云服务火山引擎正在全力投入人工智能,不惜用价格战的方式争夺阿里云的市场份额。由于不计成本投入,火山引擎目前暂时尚在亏损。

某云计算头部公司的一位一线销售人士今年1月曾对《财经》表示,火山引擎甚至用2折-3折的方式挖角阿里云的客户。《财经》获得的一份资料显示,火山引擎预计2025年营收将超过200亿元,预计营收增速远超60%。

不过,阿里云的优势是,营收、利润规模更大,目前有足够厚的家底应对竞争,而且已经走上了正向循环。2024年阿里云营收1135亿元,同比增长7.3%;EBITA(阿里云通常把EBITA利润作为盈利指标,该口径剔除了股权激励、无形资产摊销等非现金因素)利润96亿元,利润率8.4%。

阿里云也是大模型的最大受益者之一。在大模型的带动下,阿里云2024年营收增速、利润水平都在不断回升。2024年四季度,阿里云营收317.4亿元,增速回升到两位数,达到13.1%;EBITA利润31.4亿元,利润率为9.9%,达到历史最高水平。

图片

责编 | 要琢

图片

相关文章

  • 俄罗斯亚历山大红旗歌舞团四天六唱

    本报讯(记者高倩)“灯火里的中国青春婀娜,灯火里的中国胸怀辽阔,灯火灿烂的中国梦,灯火荡漾着心中的歌……”昨晚,在演绎了多达30首作品后,俄罗斯亚历山大红旗歌舞团的艺术家们迎着热烈喝彩,以一曲改编的《灯火里的中国》作为返场,把这个被歌舞彻底点燃的夜晚再度推向高潮。大阅兵的“后劲”尚在,于此纪念中国人

    2025-09-06 09:57:00
    0
  • 山东省2025年第三批政策清单出炉,企业、百姓如何获益?

    山东推出今年以来的第三批政策清单《关于促进经济稳健向好、进中提质第三批政策清单》,聚焦服务业发展、项目建设、援企助企纾困解难等三个方面推出16条政策措施。这些政策将会给企业发展、百姓生活带来哪些利好,记者为您梳理。1亿元财政资金加码服务业,生产性服务业迎重点扶持从政策清单看,山东首先将加力落实2亿元

    2025-09-05 13:00:00
    0
  • 中上协:上半年A股公司营收35.01万亿 经营质效稳步提升

    截至8月31日,我国境内股票市场(沪、深、北三家证券交易所,以下简称“全市场”)共5432家上市公司披露2025年半年度报告。中国上市公司协会数据显示,上半年,全市场上市公司实现营业收入35.01万亿元,同比增长0.16%。第二季度营收18.11万亿元,同比增长0.43%,环比增长7.15%。上半年

    2025-09-01 08:32:00
    0
  • 韩国明星玉珠铉:音乐剧的魅力在于“共享一个瞬间”

    8月29日晚7点半,韩国音乐剧演员玉珠铉受戏剧厂牌“一台好戏”邀请,作为“中国原创剧目跨境文化交流平台交流大使”,站上上海文化广场的舞台。面对150位观众,她坦诚分享二十年舞台生涯的沉淀与思考。玉珠铉作为交流大使来沪见面会开始前两小时,文化广场的剧场内已亮起工作灯,正在试麦的玉珠铉唱起音乐剧《瑞贝卡

    2025-09-01 05:32:00
    0
  • 深南电路:公司经营情况正常,内外部经营环境未发生重大变化

    深南电路发布异动公告称,公司股票连续三个交易日内日收盘价涨幅偏离值累计超过20%,属于股票交易异常波动情形。近期公司经营情况正常,内外部经营环境未发生重大变化。公司、控股股东和实际控制人不存在关于本公司的应披露而未披露的重大事项,或处于筹划阶段的重大事项。股票交易异常波动期间控股股东、实际控制人不存

    2025-08-31 16:41:00
    0