阿里千问大模型技术负责人林俊旸:
研究员本身就是产品经理
Agent与具身智能结合会更有意思

1. 市场分化逻辑:OpenAI做To C平台,Anthropic深度服务企业(在与金融领域客户深度交流中发现真实机会),分化是自然发生的,是顺应市场需求后的自然结果;在美国,Coding任务的Token(文本处理的最小单元)消耗量巨大,这一点目前中国市场还没达到同等量级。
2. AGI的服务本质:今天To B也好,To C也好,我们都是要解决真实的问题,怎么把人类世界变得更好。
3. 强化学习(RL)潜力未充分释放:目前的强化学习范式尚处早期,潜力远未被充分挖掘,全球范围内仍面临基础设施等瓶颈。而下一代范式的核心在于“自主进化”与“主动性”,只是自主进化用什么技术手段、是否需要更新参数,见仁见智。
4. Agent的“模型即产品”思维:研究员本身就是产品经理,需要有产品思维,能端到端地把东西做出来。未来的Agent应该是托管式的,你给它一个模糊通用指令,它能在长周期的执行中自我决策和进化。另外,只有当AI与真实物理世界交互,才是Agent真正能长时间工作的场景。未来3-5年,Agent与具身智能的结合,会更有意思。
5. 通用Agent的机会在于长尾:要不要做通用Agent?如果你是“套壳”高手,套得可以比模型公司做得更好,我觉得可以去做。否则可以留给模型公司,因为它们有算力和数据优势。
6. 对中国AI发展谨慎乐观:未来3-5年中国公司引领全球的概率有多大,这是一个“危险”的问题,从概率角度谈谈中美差异:中美算力差距1-2个数量级;目前美国将更多算力投入前沿研究,中国更多用于交付;“穷则思变”,软硬件协同可能孕育新机会。再加上中国新一代人的成长和营商环境的改善,有机会但面临的困难非常大。
7. Qwen下一步发展的三个重点:
(1)构建具备视觉输出和推理能力的Omni模型,把能力真正收敛到多模态模型,不仅能接收文本、图像和语音,而且也要具备同时生成这些模态的能力。
(2)从训练模型转向训练Agent,尤其是通过多轮强化学习和环境反馈,实现面向长时任务的推理能力。
(3)把语言模型进一步转化为具备行动能力的(具身智能)Embodied模型。