Gartner:AI大模型触达天花板,警惕“贴牌智能体”

admin 阅读:46430 2025年11月11日

21世纪经济报道记者 彭新

Gartner:AI大模型触达天花板,警惕“贴牌智能体”
图片来源于网络,如有侵权,请联系删除

近日,市场调研公司Gartner发布《2025年中国数据、分析和人工智能技术成熟度曲线》报告,解析中国AI市场未来走向。

生成式AI和代理型AI是报告的两大核心主题,共同塑造了今年中国AI发展的主要趋势。该报告显示,此前AI市场“顶流”大语言模型(LLM)已越过市场期望顶峰,热度趋冷并开始滑向“泡沫破裂低谷期”,在经历“百模大战”后,市场已趋于理性。


Gartner高级研究总监闫斌称,对于中国的数据、分析和AI领域的领导者来说,现在比以往更需要在AI炒作的喧嚣中认清AI的真正价值。他告诉21世纪经济报道记者,从现实来看,大语言模型的能力已到天花板,性能的边际提升有限,使得AI市场趋势从“模型”向“智能体”转移成为必然。

“到2027年,优先考虑准备AI就绪型数据而非生成式AI模型开发的中国企业中,80%实现的业务价值将是同行的两倍。”闫斌表示,中国AI产业正从尝鲜期进入价值兑现期,数据质量与治理能力将取代模型性能成为核心竞争力。

GPT-5反应平淡,2026年将进入“AI下半场”

闫斌表示,GPT-5的市场反应证明了大语言模型发展的重要拐点。市场曾期待GPT-5接近AGI(通用人工智能),但实际发布后效果有限。“这体现了现在大语言模型的能力——技术发展随着时间推移确实有过快速飞跃,但到今天已经慢慢感觉到天花板了,上面仿佛一条无形的线压着它,它上不去了。”他说。

根据国际AI模型评测网站Artificial Analysis数据,OpenAI从2022至2023年保持领先优势,但已进入“Frog Leap”(青蛙跳)式混战——某个模型跳过去领先一点,另一个模型马上超过上来。国内的DeepSeek、千问、Kimi等模型已进入第一梯队。

“现在模型排名第一、第二、第三,实际使用起来区别不大。”闫斌指出,各家模型性能提升空间有限,领先优势微乎其微。这也解释了为何大语言模型在Gartner成熟度曲线上从期望峰值掉头向下。

闫斌表示,模型厂商数量正在减少,出现收购、并购和价格战。未来模型的发展方向是从“⼤”转向“精”,通过Small Language Model(小语言模型)和领域专业模型(DSLM)实现精细化、场景化突破。

Gartner强调,大语言模型并非万能,未来更强的AI系统需要结合多种技术。“大语言模型就像汽车发动机,AI Agent是整车。”闫斌比喻,“发动机可以用大语言模型,也可以用其他技术,最后拼装成整车,混合系统要比只依赖大模型好用得多。”

另一方面,Gartner调研数据显示,中国企业将生成式AI部署到生产环境的比例从2023至2024年的6%至8%,在2025年暴涨至40%。“我相信现在已经涨到60%至70%。”闫斌判断,2025年企业对生成式AI的“尝鲜期”结束后,2026年将正式进入“AI下半场”。

闫斌强调,生成式AI时代对高质量数据有很高要求,企业若无法提供高质量的“上下文”数据,再强的模型也无法产生价值。Gartner预测,到2027年,优先考虑准备AI就绪型数据的中国企业,其实现的业务价值将是同行的两倍。

对于传统企业AI应用上,闫斌坦言仍面临巨大挑战。“有些企业光做数字化转型就要三年。”他表示,AI是系统工程,涉及企业方方面面的改造。“如果企业的API(应用程序编程接口)根本不好用,要引入智能体,还得先把旧有系统做好数字化转型。”

相比之下,互联网和高科技企业将走得更快,因为系统架构新、API友好、数据管理规范、企业文化接受度高。

“Agent Washing”泛滥,多数产品名不副实

在AI Agent(智能体)方面,闫斌直言行业存在严重的“Agent Washing”(贴牌智能体)现象,即将普通的聊天机器人宣称为智能体。

“昨天厂商的产品其实还是聊天机器人,今天摇身一变成了AI Agent,里面其实什么都没变、只有名字变了。现在市面号称的智能体,可能10个里面有8个其实并不是真正的。”闫斌表示。从资本市场来看,近期不少公司借助AI智能体概念进行宣传炒作,但产品本质并未改变。

从演进路径看,AI智能体已经历了三个阶段:聊天机器人(Chatbot)专注于在对话中给出答案,智能助手(Assistant)帮助完成任务,智能体(AI Agent)则要完成更复杂的目标。“从今天来看,我们可能刚刚跨入智能体的大门。”闫斌判断,当前还有很多产品不是真正的AI Agent,处于从Assistant向Agent过渡的阶段。

根据Gartner定义,真正的AI智能体需要具备三要素:感知世界、自主决策、执行行动,最终与环境形成闭环反馈。“以五分制评价,大模型在语言理解上可以打四星半,行动能力四星,但决策能力只有三星。”闫斌表示,大模型尤其是在针对企业复杂场景的决策能力仍然较弱。

从实际应用来看,闫斌透露,市面上很多所谓智能体,为了可靠性,仍然基于写死的工作流程,难以做到智能化。“根本原因是智能体可靠性不足,完全依赖大语言模型做决策有点像算命的感觉,因为大语言模型还是基于概率的。”

观察近期AI智能体技术进展,MCP(模型上下文协议)一词频频被提及,MCP是AI智能体用来执行任务的一种通信协议或标准。

对此,闫斌认为MCP价值被高估,他解释,MCP的理想状态是互联网中智能体和工具处于开放状态,可以通过统一协议调用。但实际应用中来看,调用出错时的异常处理、安全因素、性能因素都是问题。“对于企业来讲,难点不在于用什么协议,难点是原来为软件写的API是否适合Agent调用。”他说,包括权限管理、调用频率控制等都需要改造。