大厂决胜“无人区”：大模型的确定方向与未知路径

admin 阅读：74587 2024年07月09日

过去几天，2024世界人工智能大会（WAIC）的火热程度像极了上海的天气。

大厂决胜“无人区”：大模型的确定方向与未知路径
图片来源于网络，如有侵权，请联系删除

据官方数据，截至7月6日下午2时，大会线下参观人数突破30万人次，同比上届增长90%，创历史新高。

自2018年创办以来，世界人工智能大会已经成为AI产业发展的风向标。而大模型无疑是整个行业近两年最核心的发展方向。

在2024WAIC上，中国工程院院士、之江实验室主任、阿里云创始人王坚表示，“今天的人工智能有别于过去的人工智能，跟过去五六十年都不一样。人工智能有一个非常长的过去，但是有一个非常短的历史，长到可以追溯到100多年以前，短到就是过去七八年GPT出来，而GPT的潜力还没有被完整探索。”

在他看来，未来十年将是非常激动人心的十年。

“只要有新的技术，一定会有新的大公司出现。如果一个新的技术出来，没有新的大公司出现，那它是不是颠覆性的技术是要打个问号的。”王坚相信，在这个时代一定会有新的大公司出来。

这也是许多人的共识。2022年底ChatGPT横空出世后，有公司开始用大模型重塑自家产品，也有人感到时不我待，投身新一轮创业，而他们有着相同的目标，就是争做大模型时代的弄潮儿。

正因如此，大模型也成为当前最具活力的产业领域。从去年激烈的百模大战，到今年层出不穷的各类落地产品，大模型的故事才刚刚开始，而WAIC，正是这场注定宏大的叙事中的一个缩影。

图片来源：新华社

Scaling Law依然奏效

自OpenAI于2020年发布1750亿参数的GPT-3以来，大模型性能上限已发生天翻地覆的变化。尤其是去年大量中国企业的入局，进一步加速了大模型在中文领域的迭代速度。

在2024WAIC期间，许多大模型新品也首次亮相。比如商汤科技带来了多模态交互大模型日日新5.5，阶跃星辰则发布了Step-2万亿参数语言大模型、Step-1.5V多模态大模型、Step-1X图像生成大模型等三款新品。

谈及大模型未来的发展，阶跃星辰创始人、CEO姜大昕表示，探索AGI路径，“Scaling Law”和“多模态”是相辅相成、缺一不可的两个方向。

近年来，GPT系列模型的演进，客观上验证了Scaling Law（尺度定律）的有效性，即模型参数量决定模型能力的上限。虽然业内围绕“Scaling Law还能走多远”尚未形成共识，但姜大昕认为，参数量接下来再提高一个数量级是依然成立的。

“Scaling Law目前依然奏效，模型性能仍在随着参数量、数据量和计算量的增加呈幂次方增长。在此发展过程中，万亿参数量已经成为一个基本的入门门槛。”他说。

与此同时，姜大昕也强调，多模态是构建世界模型的基础能力，是通向AGI的必经之路。“从算法角度看，世界模型的演进会分为模拟世界、探索世界、归纳世界三个阶段，而多模态是贯穿这三个阶段的基本能力。”

目前，全球科技巨头也都在积极推进多模态大模型的研发。腾讯集团副总裁蒋杰也表示，大模型行业正经历从单模态到多模态，再到全模态的演进。

“比如在文生图领域，最近效果比较好的是采用DiT架构的模型，它融合了早前主要用于文本生成的Transformer架构，并在图像和视频生成任务中展现出了显著的优势；在文生视频领域，视频生成正朝着更高分辨率、更长时长、更精细的方向发展，一些较好的模型已经能够生成长达数分钟高清的视频，带来了广阔的应用想象空间。”蒋杰介绍道。

但多模态大模型的发展仍存在桎梏。姜大昕指出，“目前视觉的理解模型和生成模型是分开发展的，其造成的结果就是理解模型的理解能力强而生成能力弱，或者生成模型的生成能力强而理解能力弱”。他认为，多模态大模型接下来面临的一项关键挑战，就是能否将理解和生成统一在一个模型里。

但整体而言，大模型未来的增长路径已然清晰可见。清华大学计算机系长聘副教授、面壁智能首席科学家刘知远表示，“摩尔定律揭示了集成电路可容纳晶体管数目约每隔18个月便会增加一倍的规律，在过去几十年中给半导体和互联网行业的发展带来了科学指导意义”。

在大模型时代，传统的摩尔定律已经失效，因此刘知远提出了一个新“摩尔定律”：大模型的知识密度（知识密度=模型能力/推理算力消耗）平均每8个月将提升一倍。

当然，新摩尔定律目前只能代表大模型过去的发展规律，未来能否按照这一规律继续发展，还有待观察。但不管怎样，可以确定的是，大模型距离性能天花板仍很遥远。

努力成为千万DAU产品

相比大模型能力的进化，今年WAIC更大的看点是大模型的落地应用。

蒋杰表示，场景应用会成为未来大模型的决胜要素。但他指出，当前大模型的落地主要集中在生产工具和提效方面，距离真正的业务创新还有一定距离，缺少杀手级的应用，不过行业的探索一直没有停下。

以腾讯为例，其内部已有接近700个业务场景接入了腾讯混元大模型，单日调用量近3亿次。此外，今年5月，腾讯也面向C端用户发布了拥有看、听、说等多模态交互能力的AI原生应用腾讯元宝。

事实上，今年以来，几乎所有头部大模型厂商都发布了面向C端用户的AI助手产品。金山办公助理总裁晁云曈向21世纪经济报道记者表示，目前来看，AI助手是比较适合大模型现阶段发展的产品形态。

去年11月，金山办公对外发布了AI办公助手WPS AI。相比其他独立的AI助手产品，WPS AI主要嵌套于WPS产品当中。今年WAIC期间，WPS AI也宣布升级到2.0版本，在原先的产品功能基础上，WPS AI 2.0新增了AI写作助手、AI阅读助手、AI数据助手、AI设计助手等功能。

晁云曈表示，AI很多能力要想落地，还是需要在用户应用场景里合理地嵌入AI，所以金山办公在走的路径就是尽量避免追求一键生成、一步到位，而是在用户习惯的环境里做嵌入。

此前，有多位业内专家均向记者表示，生产力工具或是大模型在C端最先成熟落地的场景。因此除了金山办公，钉钉、飞书等协同办公产品也都在大模型重塑产品能力，相对而言，这些办公产品的用户对于AI能力的接受程度以及付费意愿都比较高，这也让他们的大模型商业化路径变得清晰。

除此之外，其他大模型厂商也在摸索更多用户可能高频使用的场景。比如在2024WAIC期间，阿里巴巴达摩院发布的一站式AI视频创作平台“寻光”，是希望为用户提供视频创作工具；百川智能发布的AI健康顾问，则是希望去满足用户的医疗问诊需求。

据21世纪经济报道记者现场测试，在用户提出问询后，百川智能的AI健康顾问能够根据用户的问题持续提问，进而从更多维度去了解用户病症信息，然后再进行综合判断，给出诊断结果和用药建议。

有医疗行业人士向记者表示，目前大模型在医疗场景中的应用，要分清咨询和诊断的区别，现阶段，大模型扮演的角色仍然是建议者，而不是决策者。

京东探索研究院院长何晓冬在接受21世纪经济报道记者采访时指出，大模型的颠覆性、杀手应用，不可能从通用大模型的优化中产生，必然是技术进步与产业积累的结合。

今年，有多位头部大模型厂商人士在接受21世纪报道记者采访时，都提到了1000万DAU的指标。在他们看来，当下大模型应用仍存在非常严重的同质化，接下来各大厂商都要去寻找差异化优势，与其他产品拉开差距，然后扩大用户规模，而1000万DAU（日活用户），将是衡量一款大模型应用是否成功的关键指标。

产业场景是沃土

除了C端应用外，大模型在B端的落地也在如火如荼地进行中。

腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声向21世纪经济报道记者表示，大模型的打造只是起点，把技术落地到产业场景、创造价值才是目标。

对此，何晓冬也认为，通用大模型只是种子，产业场景才是沃土。

他指出，大模型的基础设施建设已经趋于完善，已经有巨大的资源投入，很快产业应用就会向大模型要实效。而大模型必须产生实际的产业价值、让产业愿意买单，才能长久地发展下去。

何晓冬还从数据角度谈道，GPT-4是30%的合成数据，GPT-5将会是90%的合成数据。这说明能用于大模型训练的真实数据正在枯竭，而数据的富矿在于产业场景，只有让产业用上大模型、持续以数据反哺，才能支撑大模型对数据的持续需求。

因此，包括腾讯云、阿里云、京东云等在内的云厂商都在围绕大模型的产业场景积极布局。去年，各个厂商更多是围绕大模型研发提供服务，而今年，服务则不断深入业务当中。

据吴运声介绍，腾讯在大模型领域已经构建了一套全链路产品矩阵，涵盖从底层基础设施到顶层多元智能应用，包括自研通用大模型、模型开发平台、智能体开发平台，针对不同场景定制的智能应用解决方案等。

比如今年5月，为了降低大模型的使用门槛，腾讯云发布了“大模型知识引擎”“大模型图像创作引擎”和“大模型视频创作引擎”三款PaaS工具。在2024WAIC期间，腾讯宣布已对这三款工具进行全面升级。

其中，知识引擎的多模态检索能力得到增强，支持图文互搜、以图搜图，并扩展了企业知识类型的覆盖面；图像创作引擎新增了商品背景生成、百变头像、模特换装、百变换装和线稿生图等接口；视频创作引擎则推出复杂舞蹈编排算法，用户上传一张图片，就可以让人物进行转身舞蹈。

相对于C端场景，B端用户对于大模型的应用要求会更为严格，而通用模型很难满足这些要求，所以结合行业场景进行模型精调，也是目前大模型产业落地的重要路径。

大会上，腾讯联合上海交通大学发布的《2024年AI大模型十大趋势》报告指出，算力底座、推理分析、创意生成、情绪智能、智能制造、游戏环境、移动革新、具身智能、开源共享、人机对齐等将是大模型的重要发展趋势。

报告称，从算力底座、智力增强到人机协作，大模型正在重塑人类社会，成为可依赖的“外脑”。未来，随着大模型与人机协作的深入，每个企业、每个人都有机会借助AI外脑实现自己的创意，实现智力平权，而这一变革将为社会各阶层带来前所未有的机遇。

然而，大模型的发展仍面临诸多挑战。比如随着模型参数量越来越大，算力和数据支撑能否跟上？在落地过程中，大模型的准确性如何进一步提升，去满足更多产业核心业务的需要？以及大模型该采用怎样的商业模式，何时才能跑通？

2024WAIC已经落下帷幕，但大模型的前进脚步并未停止。展望未来，人们将满怀憧憬地期待大模型在各个领域的深入应用，带来更多前所未有的变革与惊喜。