人类时间有限，AI可以帮我们消费内容对话杭州牧语工场科技有限公司创始人徐常亮博士-杭州新闻中心-杭州网

人类时间有限，AI可以帮我们消费内容对话杭州牧语工场科技有限公司创始人徐常亮博士

杭州网发布时间：2024-04-19 08:22

徐常亮北大本科，普林斯顿博士。阿里云大数据平台ODPS和机器学习平台PAI平台创始人，第一任阿里云大数据总经理。新华社与阿里巴巴合资公司新华智云联合创始人及首任CEO。杭州牧语工场科技有限公司创始人杭州牧语工场科技有限公司：成立于2023年9月，旨在为个人和企业构建专属知识库与操作流程、打造个人与企业多模态智能助理。

Sora、ChatGPT等生成式人工智能的出现，可以文生文、文生图、文生视频等，未来它还会干什么？哪些行业可以最快融合人工智能，哪些行业比较难融合？今天我们请原阿里云大数据总经理、杭州牧语工场科技有限公司创始人徐常亮博士来谈一谈。

记者：Sora、ChatGPT等生成式人工智能的出现，可以文生文、文生图、文生视频等，未来它还会干什么？您认为，人工智能可以触达的边界在哪里？

徐常亮：以前，媒体内容主要分为PGC和UGC，现在又多了AIGC。

对于AIGC来说，目前主要关注的是人工智能生产内容，但其实消费端同样重要。没有消费的需求，生产就得不到更大的促进。UGC/移动互联网当初的蓬勃发展，离不开有同样体量的消费者去消费用户生产的内容。如果我们的消费者仍然是人，那么考虑到几乎全球90%的人都已经拥有了智能手机，并且他们的日常生活中大部分时间都在使用移动设备，那其实今天人类的内容消费能力已经接近饱和。这也意味着我们需要面对一些挑战，整个内容市场将是PGC/UGC/AIGC的零和竞争。例如，张楠已经辞去抖音集团CEO一职，未来将把精力聚焦在剪映的发展上，这表明他们在投入AIGC新模式，将有可能取代现在的UGC自媒体。在这个竞争激烈的市场中，有人成功就一定有人失败。

AIGC在生产端将会带来很大的变革，但同时我们也需要注意到内容的饱和问题。整个消费市场的总量是有限的，这意味着我们需要更加关注如何提高内容的消费。

我就提出一个概念：让AI帮助我们消费内容。想象一下，如果你原来需要花费天级别来阅读和理解某些内容，而现在只需要一分钟就能得到有价值的信息，这是多么有意义的事情。因此，我认为每个人都应该拥有一个AI助理，帮助我们处理那些我们没有精力或时间消费的内容。还可以让AI去消化我们人类没时间消化的信息，比如让AI去7×24小时地盯着科学显微镜、天文望远镜等，去发现还未发现的奥秘和精彩。这是AIGC在消费端的价值和未来的更大可能。

但是今天人工智能观察世界还是从数值解的角度去理解世界，就是不管黑猫、白猫能抓住老鼠的就是好猫去做的，这个一定不是最优解。我相信不少人还是更期待解析解，是明确知其所以然而使然的驱动过程，那今天已知的大模型还没做到这点。

记者：您认为耗能问题是否是人工智能算力发展的阻碍因素，人工智能算力发展的瓶颈是什么？算力发展的趋势是什么？

徐常亮：今天的能耗开销也将是人工智能发展的一个制约因素，数据中心其实已经越来越成为能耗中心，这也是东数西算要推进的重要原因。但这个经济账我相信是算得过来的，今天大模型的价值前景是值得这些投入的，当然也需要绿色能源的更快发展。但我并不觉得能耗是人工智能算力发展的瓶颈，而在于芯片的设计、显存的容量与带宽等硬件条件，以及与硬件匹配的软件生态。在现在Scaling law（规模法则）还没见到上限的时候，算力将永远供不应求，硬件、软件层面都值得大力投入去做优化。

记者：相比OpenAI等国外公司，国内的生成式人工智能发展到了什么水平？

徐常亮：在讨论大厂如何布局时，我们面临着许多挑战。以OpenAI为例，在2016年成立，那时国内外都认为AI是一个值得投入的领域，但对于如何具体实现，各方的选择并不相同。当时，国内的一些公司在资金上比OpenAI更为充裕，但他们对于AI的应用方向也并不明确。直到ChatGPT取得成功后，大家才开始大范围关注内容生成方面的应用和能力。

我在新华智云时，在2017年提出了MGC（机器生成内容）的概念，这与现在热门的AIGC异曲同工。事实上，在2018年，美国西北大学新闻系的教授研究AI内容生成的时候，就援引了新华智云的工作，而当时GPT还没有引起太多关注。大家都在摸索中前进。

Sora的快速出现是值得敬佩的，是ChatGPT之后，又一个大规模算力加大规模数据胜利的成果。从时间线上看，它可能只花了一年时间就实现了突破，这也意味着它已经找到了可行的技术路线。我相信国内半年内就能推出自己的版本。

在技术方面，Sora的技术让我们看到了算力和数据的重要性。当然，人才也是不可或缺的，但相比之下，算力和数据更重要。因此，我认为各大厂都有很大的潜力，应该加快投入，争取技术突破。其中，尤其是阿里，过去在云计算板块的不断投入，使得阿里的算力设施非常强大，加上一直以来的数据沉淀，很期待它的突破。

记者：文生视频的门槛在哪里？

徐常亮：从文本到文本的生成，信息量相对可控。我们可以明确知道需要修改的地方。但视频生成本身的信息含量要大得多。要生成一个几秒钟的视频，就需要处理大量的帧数。

当我们观察那些包含众多参数的视频效果，如光圈大小、焦距等，我们会意识到，要描述一个电影镜头，不仅需要了解这些参数，还需要掌握推、拉、摇、移等摄影技术。这些不仅涉及信息量的差异，还涉及专业技术的门槛。

实际上，有很多基于OpenAI的上层应用正在兴起，并获得了大量的关注。这些应用在不同的平台上都有出色的表现。谁先进入这个领域，并开发出有价值的应用，谁就有可能取得领先。

基于OpenAI开发的视频特效工具，我认为非常有价值，完整制作视频还是需要一个工作流。以做短剧的场景为例。做短剧的起点在于创意，从剧本创作、分镜设计，到角色塑造和场景细化，再到镜头语言的定义，每个环节都至关重要。拍摄一部电影更是一个复杂和漫长的过程。2020年我们曾经讨论过使用AI拍摄电影的可能性，甚至聘请了央视的导演和制片人参与。然而，由于电影制作的复杂性，我们最终决定暂时搁置这个项目。但看到今天的Sora，包括去年出现的Pika，用AI来拍摄短剧或者电影会越来越成为可能，只要我们去实现一个大模型（或者智能体）控制的工作流程。

记者：阿里、百度、华为等大公司都在做大模型，很多小公司则在做AIGC的短视频、动漫等。你们公司主要在AI领域做什么？

徐常亮：做大模型这件事，如果不是独角兽规模的公司，很难实现。即便是独角兽公司，也需要持续融资来支持接下来的商业化进程。我们更倾向于打造智能体。

对于小创业公司来说，我们可以利用底层模型做一些应用，其中的难点在于如何规划。你需要选择一个固定的或特定的领域进入，而不是追求通用性。例如，我们去年选择进入客服领域，智能问答正是大模型的强项。目前，我们的智能客服已稳定运行一个多月，不仅具备回答固定问题的能力，还能进行售前咨询，销售转化率已达到10%以上。这相当于实习员工或新招的临时工的转化率。我们期待通过进一步调整，超越人工水平。

这一流程表明，围绕应用场景，整理数据、建设知识库、设计回答流程至关重要。构建知识库是最大的挑战。为此，我提出了Data Agent的概念，即处理数据的智能体。它能从复杂的聊天记录中抽取重要内容，辅以大模型和人工筛选。这一理念未来也可应用于视频创作等领域。

记者：您觉得哪些行业可以最快融合人工智能，哪些行业比较难融合？很多人就在担心自己的工作会不会被AI代替。对于这个问题您怎么看？

徐常亮：只依赖于电脑就能完成的工种，比如程序员、海报设计师、视频编辑等，将会较快地融合，或者被显著降低门槛，让非专业人士进入甚至直接AI替代。还需要人类行为交互涉及多方合作的行业还需要一定时间，但具身智能/机器人的发展也会带动更多行业的自动化和智能化。

现在大家都在谈论“AI原生”公司，尽管人工智能在某些领域取得了进展，它们并不一定能完全替代人类，但确实有些岗位会被替代。例如，尽管有人期望机器人能帮我们扫地、做饭，但现实是它们更多地被用于写诗作画等领域。因此，如果我们不专注于实体机器人，那么我们应该优先考虑替代PC原生的工作，如电商客服、代码生成、海报制作和视频制作等。这些工作在很大程度上依赖于PC技术，因此它们可能是首批被AI技术替代的行业。相反，那些需要大量人际交往的工作可能更难以被替代。

还有就是AI在科学方面的可能性，有人认为Sora可以替代人类构建世界模型，认为我们无需再去研究物理规律。我不太认同这种看法。Sora可以帮助重建直观的感受，就如人类学骑自行车或踢球等，也并不懂背后的物理学原理。然而，若要真正创造一个世界，我们需要这些原理作为基石。尽管如此，许多事情属于实验科学，例如最初飞机的飞行并非完全基于空气动力学的完整计算，而是依赖于观察和实验。这种直观感受与背后的原理是两个不同的层面。

人工智能对整个人类社会都具有重要意义。它使我们能够生产、创造之前难以想象的事物，并具备强大的推理和消费能力。今后，我们可以利用它们来观察微观世界和外围宇宙，当发现异常时，它们可以提醒我们进行进一步的探索。通过深入思考，甚至和AI一起配合，我们可能会发现背后更深刻的原理。

来源：都市快报作者：记者顾国飞编辑：郑海云