【寻找新质生产力青年】百模大战“潜行者”赵天成
杭州网  发布时间:2024-08-02 09:01   

ed6727c3bb856797668d2bb586dcc628_rB4AiWar94SAEEASAAH4c1RQ1rI511.jpg

记者 陈中秋 摄 制图 李前芳

站在人工智能技术爆发的节点,赵天成回想起多年前在卡耐基梅隆大学(CMU)求学时收获的教诲,依然心存感激。导师告诉他,To be a leader, not a follower,做一个勇于尝试的引领者远比在风口追随着他人来得重要。

作为杭州联汇科技的CEO、首席科学家,这个90后“创二代”正在加速将多模态大模型和智能体,推广应用于与你我每个人相关的民生领域。

大模型变成摄像头“大脑” 能帮老板“看店”

联汇科技位于滨江区互联网产业园,这里曾是网易、阿里崛起的摇篮,互联网、物联网技术从这里走入日常生活。

现在轮到了人工智能。

对一家街边小店来说,摄像头除了监控,还有什么作用?联汇科技说,有了多模态智能体的协助,摄像头会告诉老板今天来了多少顾客、什么商品最好卖、哪个角落的商品摆放不合理易造成拥堵……相当于给了摄像头一颗大脑。

所谓的多模态,你可以把它理解为除了文本语言,还有图像、视频、音频等多种模态信息的协同推理;而智能体,指的是能够自主感知环境、思考,并做出决策、行动的系统,也是眼下许多创业公司最看好的AI应用发展方向。

作为一家多模态大模型公司,在7月初举行的2024世界人工智能大会上,联汇科技发布第二代多模态智能体OmAgent;同时,根据应用需求与落地场景的不同,上线空间运营智能体、知识服务智能体两大系列。

除了帮老板“看店”,再以电力行业为例,“中国现有200万公里高压输电线路,二三十万座变电站。过去,输电线路的巡检主要依赖无人机拍摄的图像,然后由人工逐张检查。”赵天成透露,眼下联汇科技正在和各地电力公司、电科院等机构合作,利用多模态的思考能力,提升图像缺陷识别准确率,并生成相应解决方案,自动化完成输电线路的巡检。

用多模态找到可行的商业化路径

产品系列中的Om,在梵文里有宇宙源头之意,智慧的源泉。连同挂在赵天成办公室里的“创生之柱”画像(2015年由哈勃望远镜拍摄,属于鹰状星云的一部分,后者是银河系中孕育最多恒星的区域之一),代表着他和团队对AGI(通用人工智能)的希冀和求索。

“有人说两三年,我觉得乐观了些,5-10年可能看得到。”他说。而多模态,是通往AGI的必经之路。

虽然技术水平有差距,但这两年,国内不少大模型公司和OpenAI面临着同样的压力:一边要拼命奔跑将追赶者甩开,一边又要寻求将技术转化为实际商业价值的路径,在理想和现实中反复拉扯。

赵天成和团队看上去要从容许多。当行业刚开始关注大语言模型,他们已经坚定地选择走多模态的方向,并取得工信部大模型检测的001号证书;去年“百模大战”打响,他们抢先发布自研OmModel多模态大模型的V3版本,以及国内首批大模型驱动的智能体应用。

目前,联汇科技多个智能体应用,通过与运营商、国家电网、广电媒体等企业机构的合作而实现规模化落地,使得他们成为国内为数不多已经找到可行商业化路径的大模型公司。

要比别人先行一步,甚至是两三步的这种思维模式和行动力,在很大程度上得益于赵天成过往的求学经历。

1991年出生的赵天成初中就读于育才,高中考上了杭二中;在加利福尼亚大学洛杉矶分校(UCLA)的本科阶段,双修电子工程+计算机,以全院第一的成绩成为2014级工程学院杰出毕业生;随后在CMU完成硕博连读。

“大四那年参与到实验室的科研工作,当时一起做了一款App,对着它说一句话,它就能通过分析声音频率测算胸腔大小,反推你的身高,当时吸引了全校很多同学试用。”在这个过程中,AI为他打开了一扇全新的大门。

回国近4年

仿佛又读了个博士

2014年,赵天成如愿考入CMU语言技术研究所,研究基于预训练的端到端的生成式模型,并应用于人机对话系统。在这轮生成式人工智能热潮中,来自CMU的群星正在闪耀。阿里斥巨资入股的月之暗面创始人杨植麟就是其中的代表。

赵天成的导师里,有CMU人机交互中心的Maxine Eskenazi教授,Louis-Philippe Morency教授则于2018年提出多模态,而AI谷歌首席科学家William W Cohen(杨植麟的博士生导师),也给了他诸多指导……

“这种系统性的训练,让我们学会往前看,做5年后才能爆发的技术,而不是在现有技术项目上‘打补丁’。”赵天成用了4年半,便完成了通常需要六七年的博士学业,其间累计发表20多篇顶会论文。

初到CMU时,主导师Maxine Eskenazi和合作导师Alan Black已开发出全球第一个实用人机交互系统Let’s Go,可以实现打电话询问公交车信息和订票的功能。

“之后很多年里,大部分对话类研究基于该系统完成。但它全部靠专家系统模块组合而成,智能上限低,距离真正的应用还有很大距离。”2017年,AlphaGo战胜人类顶尖围棋选手,赵天成意识到,端到端学习有能力改变专家系统拼凑的方式,通过完整的一套学习机制去实现真正的智能体。于是,他们把Let’s Go系统转成了生成式。

2020年,学成后的赵天成在硅谷短暂创业后,选择回国接班。父亲赵凡创办于1994年的联汇科技,是当时国内领先的广电系统解决方案供应商。儿子决定利用所学来全面升级公司,回国的第一天就开始打磨基础模型。2021年,联汇推出首个自研的多模态大模型。

从埋头做技术,到成为联汇科技CEO和首席科学家,对于赵天成来说,这是一个适应和转变新角色的过程。“回国近4年,就好像又读了一个博士,社会大学的博士”。

对话“新青年”

目前研发团队有200人左右

橙柿互动:您在CMU时期研究的生成式对话系统,和现在的ChatGPT等相比,有什么不同?

赵天成:核心原理非常接近,都是自回归模型预训练,最主要区别在规模上。比如,我当时训练的是亿级的RNN(循环神经网络),训练数据可能是几千万个Token(标记),现在可能是百亿级、千亿级Transformer(基于自注意力机制的深度学习模型),几万亿个Token。

橙柿互动:公司目前的核心技术团队,是怎样一个构成?

赵天成:回国前我曾和CMU的同学在硅谷短暂创业,团队也跟着一起回来了,又陆续招聘了一些,像是加州大学、浙大、微软与阿里巴巴等院校和机构的硕博士。目前,浙江大学滨江研究院Om人工智能研究中心差不多有50人,整个研发团队200人左右。

智能体技术

能降低大模型“幻觉”问题

橙柿互动:您和团队的技术研发成果眼下更多是在B端落地,会考虑拓展到C端吗?比方说居家场景,养老就是很大一块市场。

赵天成:孩子有没有按时完成暑假作业,老人有没有准时吃药……AI看懂并解析画面后,都可以提醒主人,充当管家角色。

橙柿互动:大模型存在“幻觉”问题,在输电线路巡检、店铺管理等实际应用场景中,如何避免它“胡说八道”?

赵天成:这也是智能体技术至关重要的主要原因之一。理论上讲,大模型永远无法解决“幻觉”问题,只能使用各种手段将概率降到尽可能低。例如,通过整合外部知识库,或者采用自我校正机制,可以有效减少这种概率。

大模型和智能体技术

还在爬坡阶段

橙柿互动:大家都说今年是智能体的元年,技术上它目前处于哪个阶段?

赵天成:不管是智能体还是大模型技术,我觉得眼下都还属于爬坡阶段,远未到顶峰,也没有所谓的泡沫。过去10年是一个积累过程,现在正要爆发。

橙柿互动:前阵子GPT-4o发布,不少网友拿着它挑西瓜、榴莲,多模态真的可以帮助挑选水果吗?

赵天成:理论上可以。比如人根据形状、瓜皮颜色、纹路等挑西瓜,那么AI也能根据这些特征进行推理。如果加入声音模块,它还能听拍打的声音进行辨认。

多模态在生活中的实际应用场景,还有很多。比如你去法国旅游,看不懂菜单,用手机拍下,然后告诉AI:我想吃得清淡点,帮我推荐几个菜。它就会在看懂菜单的基础上,根据你的需求给出建议。

上阵父子兵

橙柿互动:您和父亲日常会在公司事务上进行交流吗?包括您从事的技术开发。

赵天成:我父亲对技术很了解,对这块很感兴趣,他也比我更懂商业,所以我们平时交流比较多。一个多模态模型开发出来后如何落地,这个其实并不比做算法简单,甚至更难。

橙柿互动:这几年,不少公司到了创业“老将”向二代交棒的时刻,您怎么看传承这个问题?

赵天成:首先是企业文化的传承。我觉得自己比较幸运的一点,是联汇之前就是一家技术驱动的公司,就很容易把它传承下来。如果把贸易公司转化为大模型公司,就会拧巴。

但我们这一代的想法和上一代确实存在着一些差异。比如,年轻人可能更有互联网思维,会将硅谷的一些创新理念带回来。两代人初期在观点上可能有碰撞,但正是这些碰撞和相互适配,会为企业注入新活力。

为了让新质生产力青年的新技术、新想法、新模式能够赋能更多人和行业,共青团杭州市委、都市快报·橙柿互动联合推出“九千光年俱乐部”,致力于打造中国新质生产力青年学习交流平台,联合有能力影响未来的青年们,助推新质生产力发展与青年发展型城市建设。

来源:都市快报  作者:记者 童蔚  编辑:郑海云
返回
杭州网·国家重点新闻网站