徐常亮 北大本科,普林斯顿博士。 阿里云大数据平台ODPS和机器学习平台PAI平台创始人,第一任阿里云大数据总经理。 新华社与阿里巴巴合资公司新华智云联合创始人及首任CEO。 杭州牧语工场科技有限公司创始人 杭州牧语工场科技有限公司:成立于2023年9月,旨在为个人和企业构建专属知识库与操作流程、打造个人与企业多模态智能助理。
Sora、ChatGPT等生成式人工智能的出现,可以文生文、文生图、文生视频等,未来它还会干什么?哪些行业可以最快融合人工智能,哪些行业比较难融合?今天我们请原阿里云大数据总经理、杭州牧语工场科技有限公司创始人徐常亮博士来谈一谈。
记者:Sora、ChatGPT等生成式人工智能的出现,可以文生文、文生图、文生视频等,未来它还会干什么?您认为,人工智能可以触达的边界在哪里?
徐常亮:以前,媒体内容主要分为PGC和UGC,现在又多了AIGC。
对于AIGC来说,目前主要关注的是人工智能生产内容,但其实消费端同样重要。没有消费的需求,生产就得不到更大的促进。UGC/移动互联网当初的蓬勃发展,离不开有同样体量的消费者去消费用户生产的内容。如果我们的消费者仍然是人,那么考虑到几乎全球90%的人都已经拥有了智能手机,并且他们的日常生活中大部分时间都在使用移动设备,那其实今天人类的内容消费能力已经接近饱和。这也意味着我们需要面对一些挑战,整个内容市场将是PGC/UGC/AIGC的零和竞争。例如,张楠已经辞去抖音集团CEO一职,未来将把精力聚焦在剪映的发展上,这表明他们在投入AIGC新模式,将有可能取代现在的UGC自媒体。在这个竞争激烈的市场中,有人成功就一定有人失败。
AIGC在生产端将会带来很大的变革,但同时我们也需要注意到内容的饱和问题。整个消费市场的总量是有限的,这意味着我们需要更加关注如何提高内容的消费。
我就提出一个概念:让AI帮助我们消费内容。想象一下,如果你原来需要花费天级别来阅读和理解某些内容,而现在只需要一分钟就能得到有价值的信息,这是多么有意义的事情。因此,我认为每个人都应该拥有一个AI助理,帮助我们处理那些我们没有精力或时间消费的内容。还可以让AI去消化我们人类没时间消化的信息,比如让AI去7×24小时地盯着科学显微镜、天文望远镜等,去发现还未发现的奥秘和精彩。这是AIGC在消费端的价值和未来的更大可能。
但是今天人工智能观察世界还是从数值解的角度去理解世界,就是不管黑猫、白猫能抓住老鼠的就是好猫去做的,这个一定不是最优解。我相信不少人还是更期待解析解,是明确知其所以然而使然的驱动过程,那今天已知的大模型还没做到这点。
记者:您认为耗能问题是否是人工智能算力发展的阻碍因素,人工智能算力发展的瓶颈是什么?算力发展的趋势是什么?
徐常亮:今天的能耗开销也将是人工智能发展的一个制约因素,数据中心其实已经越来越成为能耗中心,这也是东数西算要推进的重要原因。但这个经济账我相信是算得过来的,今天大模型的价值前景是值得这些投入的,当然也需要绿色能源的更快发展。但我并不觉得能耗是人工智能算力发展的瓶颈,而在于芯片的设计、显存的容量与带宽等硬件条件,以及与硬件匹配的软件生态。在现在Scaling law(规模法则)还没见到上限的时候,算力将永远供不应求,硬件、软件层面都值得大力投入去做优化。
记者:相比OpenAI等国外公司,国内的生成式人工智能发展到了什么水平?
徐常亮:在讨论大厂如何布局时,我们面临着许多挑战。以OpenAI为例,在2016年成立,那时国内外都认为AI是一个值得投入的领域,但对于如何具体实现,各方的选择并不相同。当时,国内的一些公司在资金上比OpenAI更为充裕,但他们对于AI的应用方向也并不明确。直到ChatGPT取得成功后,大家才开始大范围关注内容生成方面的应用和能力。
我在新华智云时,在2017年提出了MGC(机器生成内容)的概念,这与现在热门的AIGC异曲同工。事实上,在2018年,美国西北大学新闻系的教授研究AI内容生成的时候,就援引了新华智云的工作,而当时GPT还没有引起太多关注。大家都在摸索中前进。
Sora的快速出现是值得敬佩的,是ChatGPT之后,又一个大规模算力加大规模数据胜利的成果。从时间线上看,它可能只花了一年时间就实现了突破,这也意味着它已经找到了可行的技术路线。我相信国内半年内就能推出自己的版本。
在技术方面,Sora的技术让我们看到了算力和数据的重要性。当然,人才也是不可或缺的,但相比之下,算力和数据更重要。因此,我认为各大厂都有很大的潜力,应该加快投入,争取技术突破。其中,尤其是阿里,过去在云计算板块的不断投入,使得阿里的算力设施非常强大,加上一直以来的数据沉淀,很期待它的突破。
记者:文生视频的门槛在哪里?
徐常亮:从文本到文本的生成,信息量相对可控。我们可以明确知道需要修改的地方。但视频生成本身的信息含量要大得多。要生成一个几秒钟的视频,就需要处理大量的帧数。
当我们观察那些包含众多参数的视频效果,如光圈大小、焦距等,我们会意识到,要描述一个电影镜头,不仅需要了解这些参数,还需要掌握推、拉、摇、移等摄影技术。这些不仅涉及信息量的差异,还涉及专业技术的门槛。
实际上,有很多基于OpenAI的上层应用正在兴起,并获得了大量的关注。这些应用在不同的平台上都有出色的表现。谁先进入这个领域,并开发出有价值的应用,谁就有可能取得领先。
基于OpenAI开发的视频特效工具,我认为非常有价值,完整制作视频还是需要一个工作流。以做短剧的场景为例。做短剧的起点在于创意,从剧本创作、分镜设计,到角色塑造和场景细化,再到镜头语言的定义,每个环节都至关重要。拍摄一部电影更是一个复杂和漫长的过程。2020年我们曾经讨论过使用AI拍摄电影的可能性,甚至聘请了央视的导演和制片人参与。然而,由于电影制作的复杂性,我们最终决定暂时搁置这个项目。但看到今天的Sora,包括去年出现的Pika,用AI来拍摄短剧或者电影会越来越成为可能,只要我们去实现一个大模型(或者智能体)控制的工作流程。