2025上半年AI核心成果及趋势报告

郭太侠2周前 (08-04)AIGC8

2025年上半年,AI领域迎来诸多关键动态。应用上,通用类和垂类Agent崛起,AI编程成热门且获市场验证,模型上下文协议(MCP)受关注但未达规模化水平。

模型方面,推理、工具使用、多模态能力均有提升,小模型加速普及,评估方式也在演变。技术上,训练资源更多投向後训练和强化学习,多智能体系统、在线学习成前沿,Transformer架构持续优化,代码验证和系统提示词成关键。

行业里,头部玩家模型差距缩小,OpenAI领先优势减弱,谷歌和xAI迎头赶上,中美大模型竞争差距缩小,AI编程成必争之地,国内大模型创业公司路线分化。

报告目录:

序言

01 应用趋势

02 模型趋势

03 技术趋势

04 行业趋势

关于量子位智库

关于量子位

01 应用趋势

AI行业发展的底层逻辑是技术范式带来更强的模型能力,进而解锁更大的应用空间,加速价值创造。

通用类Agent:产品深度整合工具使用,主打完成场景多样的深度研究类任务,交付内容丰富,是2025上半年应用亮点。像OpenAI o1等,能完成数小时人类工作量,实现部分生产力自动化,其核心技术包括Agent Planing框架、工具调用、记忆能力和沙盒环境等。

垂类Agent:受益于大模型能力提升,垂直应用场景开始Agent化,自然语言操控成垂类工作流一部分。如飞猪旅行的“问一问”功能、设计领域的LOVART、创作领域的INMAX、时尚领域的GENSMO等,在各自领域提升效率。

AI编程:是当前最核心的垂类应用领域,正改变软件生产方式,头部编程应用收入增长迅猛,如Cursor的ARR突破5亿美元,其产品演化经历代码补全、单文件代码编辑、多文件同时编辑、端到端交付等阶段。

模型上下文协议(MCP):为大模型提供标准化接口,高效安全调用外部数据和工具,赋能Agent,但技术尚未成熟,激励机制不完善,不过前景可观,头部互联网公司正积极推动其生态发展。

02 模型趋势

推理能力:在思维链范式下,通过堆积更多算力持续提升,尤其在数理类、代码类问题上提升显著,部分实验模型在国际数学竞赛中能取得金牌。

工具使用能力:大模型开始走向Agentic,对工具使用进行端到端训练集成,相比仅基于文本的思维链推理有重大提升,可完成更复杂任务,未来或能像人类一样发明新工具。

多模态能力:开始端到端融合视觉和文本走向多模态推理,以语言为中枢解锁多模态推理的“系统2”慢思考,虽存在性能不稳定、幻觉问题等不足,但在部分任务中表现出色。

图像生成能力:全方位增强,语言理解能力升级和审美提升是亮点,普通用户可仅通过自然语言进行完整创作,在文字生成控制、指令遵循、多轮对话编辑、上下文关联、审美、知识理解等方面均有进步。

视频生成能力:整合原生配音,可控性和编辑灵活度增加,生成视频的物体一致性和物理规律协调性增强,商业化和普及度进展积极,如快手可灵、字节的Seeddance 1.0等表现不俗。

小模型:模型智能密度持续提升,厂商积极推出小模型实现极致性价比,降低部署门槛,加速应用普及,如阿里巴巴的Qwen 3系列、字节跳动的Seed-Coder、智谱·AI的GLM系列等,适用于多种场景。

评估方式:加速演化,传统评估榜单快速饱和,动态更新且能在真实世界产生使用价值的任务成重要评估方向,如红杉中国推出的HealthBench、xBench等。

03 技术趋势

训练阶段:资源投入向后训练和强化学习倾斜,但预训练仍有优化空间,二者共同决定模型能力。预训练让模型学会基础能力和世界知识,后训练和强化学习激发基座模型能力。

强化学习:重要性继续提升,算力消耗未来或超过预训练,从数学、代码等奖励清晰领域向其他领域泛化,其关键在于设置奖励模型,训练评估难度随模型集成复杂能力而增加。

多智能体(Multi-Agent)系统:可能成为下一个前沿范式,具有分布式处理、高效利用上下文、能力多样化、鲁棒性与容错性等优势,能弥补单Agent在上下文、工具调用、领域知识等方面的限制,已有多个业界落地案例。

在线学习:从交互经验中学习有希望成为下一代模型学习方式,可使模型摆脱对人类数据的依赖,提高智能上限,具有持续经验流、行动和观察能力、吸收现实反馈等核心特征。

Transformer模型架构:快速迭代,优化集中在注意力机制和前馈神经网络等层面,如UltraMem、Dynamic Tanh、Native Sparse Attention等,在工业界有多个落地案例。

Transformer混合架构:以RNN变体为主涌现,如RWKV的MambaVision、RWKV-7,Google的Titans等,已有工业界大规模应用先例。

代码验证:因生成和验证难度不对称,成AI编程自动化水平提升的前沿方向,可加速软件生产自动化,解决验证问题需遵循客观事实、快速验证等关键原则。

系统提示词:成决定模型用户体验的关键技术要素,相比更新大模型更轻量化、敏捷化,未来将走向个性化,增强用户体验。

04 行业趋势

xAI表现:发布的Grok 4在多个领域达到SOTA水平,跻身全球大模型第一梯队,证明大模型无护城河,改变模型层竞争格局,其成功得益于充足资本、算力、人才及顶尖执行效率等。

算力竞争:算力是AI竞赛关键要素,强化学习对算力需求超过预训练,头部大模型玩家计算集群达数十万卡规模且持续扩张,xAI在GPU集群建设上速度领先。

海外头部玩家:OpenAI技术领先优势弱化,谷歌和xAI在2025年上半年迎头赶上,模型在多个领域达SOTA水准,头部模型公司差距缩小,竞争激烈,Meta的Llama 4表现不佳。

中美竞争:中美通用大模型技术差距缩小,中国模型公司在多模态等领域达SOTA水平,尤其多模态领域表现出色,且在低成本和响应速率上有优势。

AI编程布局:成模型厂商必争之地,海外和国内头部玩家在模型和产品领域密集布局,编程被认为是AI最先超越人类水平的高价值应用场景,国内玩家多采取跟随、对标策略。

国内创业公司:路线开始分化,部分厂商积极发布前沿模型产品追求智能上限,保持技术驱动;其他厂商专注垂类领域和商业化落地,放缓通用模型投入,DeepSeek的出圈改变了国内竞争格局,驱动开源战略。

报告预览如下(末尾下载通道):


1.png