今年5月,某知名音乐人再次就AI合成声音冒充他本人一事发布声明,重申自己“并未营业”,提醒大家不要上当受骗。跳水运动员全红婵、“太乙真人”配音演员张珈铭等知名人士,同样深受AI声音克隆侵权的困扰。
随着技术的进步,AI声音克隆日益泛滥。它不仅能生成逼真的声音,还能模仿人的各种情绪变化。而侵权成本低、举证难度大、维权成本高,让许多人选择息事宁人。
近日,记者暗访AI声音克隆乱象,揭露“偷声术”的同时,也提醒更多人注意保护自己的专属声音。
10元买20秒,让“余华”替你代言
6月2日,记者以“有声书推广”为由,在多家电商平台搜索“AI声音克隆”“音色复刻”等关键词,咨询了大量提供配音服务的线上店铺。询问后发现,这些服务的报价每分钟从10元到几百元不等。大多数店家表示,不仅能克隆用户自己的声音,也能帮忙提取“线上已有素材”中的声音进行克隆,其中便包括名人、明星。
记者选择了一家报价较低的店铺“小小修图师”,花费10元下单了20秒的AI声音克隆服务,并将作家余华的一段公开访谈片段作为原始素材发给店家。店家没有核实记者身份,也未询问与余华的关系,更未提及任何授权问题。
下单仅十几分钟后,店家便发回一个音频文件。点开一听,效果令人震惊——这段推荐图书的语音,声线、语调甚至独特的停顿节奏,都与余华本人高度相似。店家还“贴心”地询问:“你看这个像不像?如果不像还可以再做调整。”
当记者追问“用余华老师的声音做商用,会不会有版权问题”时,店家说“没有考虑过版权的问题”,称客户既然有需要他们就做。
不过对方紧接着话锋一转,向记者兜售起另一套“解决方案”。
最终,记者又花费80元从这家店铺购买了一款所谓的“AI语音克隆软件”及其使用指导。令人颇感意外的是,店家所谓的“软件”并非什么复杂的程序,而是一个网址链接。
记者打开这个网页后发现,它是一款功能强大的在线AI声音工具。上传目标声音样本进行“资料提炼”后,短短十几秒,网站后台便完成了“建模”。随后,在文字输入框中任意输入文本并点击播放,克隆出的“余华声音”就能立刻把文字念出来。
更令人不安的是其精细的操控能力。记者发现,网站还内置了“情绪调节”功能。用户可以选择喜、怒、哀、惧等不同情绪模板,而生成的音频也会随之呈现出完全不同的情感色彩。这意味着,造假者不仅能伪造“余华说了什么”,还能精准地伪造他“说这句话时的情绪状态”。这已不是简单的语音合成,而是能操纵情感、制造更强欺骗效果的“深度伪造”,其潜在危害成倍上升。
而这套工具的收费模式和生产效率同样触目惊心。网站实行充值消费,换算下来,使用成本约为每小时2元。而它的生产效率却高得惊人:以制作20秒的音频为例,从输入文字、选定情绪到生成,整个过程不到半分钟。这意味着,1小时就能批量生产出120条带有名人声音、饱含特定情绪的“代言”音频。这种几乎可以忽略不计的成本,让侵权行为变得更加廉价和便捷。
声音伪造工坊,在网线那头捉迷藏
6月2日中午,记者以“给宠物餐盘做产品推广”为由,又联系了一家AI声音克隆网店“AIGC时代”。
记者把一篇近500字的产品推广文案,以及从网上找来的语音辨识度很高的演员张铁林的12秒真人语音,发给店家。同样,店家没有任何询问,只是报了价格,“每200字1单、29.9元,你下3单就行。”
3小时后,店家将制作好的音频发回给记者。记者试听后,发现克隆的声音和语气不仅逼真,而且干净,没有背景杂音。
店家识别出了这个声音是张铁林的,主动说:“后期如果牵涉版权问题的话,我们不负责的哈。”“对你没有影响吧?”记者追问。“我们没啥的。跟您说过了就行。”店主回了一个“偷笑”的表情。
6月3日上午,记者循着该网店的注册地址来到浙中某县,在一幢大厦的15楼找到了这家电商商行的注册地。但是,该处办公室却大门紧闭,触摸屏门锁怎么碰也没有反应。透过门缝,能看到里面有一套沙发、一张办公桌,桌子上放着两台电脑。记者询问附近办公室的人关于这家店的情况。对方说,不知道人在不在,他们平时没看到过有人进出。
同一天,记者还在杭州寻找另一家从事声音克隆业务的数码店铺。循着平台上查到的注册地址赶到时,发现店铺地址所在地是一家银行。“我们这里根本没有数码店。”多名保安信誓旦旦地告诉记者。记者又向店主询问有没有线下门店,想要线下沟通。店主回答:“杭州没有哦,没有门店。”
记者注意到,网络上提供AI声音克隆服务的大多是个体户,信息比较齐全。还有不少是个人的,信息介绍甚至只有一句声明:“个人从事零星小额交易活动,依法不需要办理市场主体登记”。
一名县级市场监管局行政审批科相关负责人介绍,对于网店来说,线上线下同时经营的,需提供实体经营场所作为注册地址。而纯线上经营的,无需租赁实体办公室。个人从事便民劳务或者开展零星小额交易的,无须办理市场主体登记。监管部门则根据网店的注册地来开展属地监管。
在调查过程中,记者还以“想深入学习技术”为由,向多家店铺提出希望线下见面、当面请教的请求。店家们均婉拒了这一要求。他们给出的理由也如出一辙:这一行根本不需要实体店铺,只要有一台能上网的电脑,随时随地都能操作,因此“不方便,也没必要”进行线下教学。
这一细节,恰好揭开了该灰色产业更深的隐患——不仅生产环节高度隐蔽,从业者也深谙规避之道。一台电脑就是一个“声音伪造工坊”,交易全部在线上完成,经营者可以藏匿在任何角落,这无疑给日后的监管和追责带来了更大困难。
只需1秒音频,声音失窃风险超出想象
和指纹、人脸一样,声纹也是每个人专属的身份密码。每个人的声音,都有特有的音色、语气和节奏,相当于个人专属的“声音身份证”。
每天,在短视频发布、语音聊天、播客录制等场景下,我们的声音被大量记录,而且可以轻易被他人获取。而要复制、模仿一个人的声音,比我们想象中的还要简单。
央视《法治在线》于今年4月针对AI声音克隆乱象做了一组实测。记者仅对着话筒说了一句日常话语,网络安全专家从中截取短短1秒钟的清晰音频,导入到一款普通的声音克隆软件,就能生成一段以假乱真的全新语音。
参与测试的网络安全专家直言:“现在的技术,已经把声音克隆的门槛降到了人人可操作的地步。”
“公开人物的声音太容易拿到了。去网上找几个开源模型,拿公开音频投进去,就能合成出他从来没说过的话。”浙江大学计算机科学与技术学院—网络空间安全学院特聘研究员、博士生导师卢立介绍,他们团队曾做过测试,合成声音不仅骗过了人耳,连银行此前上线的声纹锁都能攻破,“做完实验我们跟银行汇报,对方也觉得太危险,对应进行了声纹功能的下线整改。”
谈及如何治理,卢立认为,单靠技术拦截不现实,单靠法规让人人自觉更不现实,“核心原则就四个字:技管结合。”
监管层面,据介绍,民法典以及个人信息保护法都已将声音纳入法律保护。自2025年9月1日起施行的人工智能生成合成内容标识办法,还要求所有AI生成内容必须打上标识,方便溯源。
技术层面,卢立提到一个更“主动”的防御思路:从源头干扰。比如手机麦克风在录音的时候,可以加一段人听不到的超声波噪声。这个噪声不影响用户的听感,但能干扰AI模型的学习,让它无法合成。他透露,已经有手机厂商开始尝试这个技术,不过要覆盖市场上所有存量设备,还需要时间。
普通老百姓如何才能不受AI侵权影响呢?卢立建议“多看”,像公安反诈宣传那样,有关部门可以通过加强宣传,提升公众对AI产品的防范意识和辨别力。
好在司法实践已经跟上,为AI声音克隆治理提供了样本。2024年,北京互联网法院判决5家涉案公司中的相关责任方向配音演员支付25万元赔偿,并赔礼道歉。原因是相关公司未经同意克隆了该配音演员的声音,并用于商用。这也是中国首例保护声音权免遭人工智能克隆的法律判决。去年,杭州市滨江区人民法院审结了一例离职员工声音被公司AI化侵权案。法院审理认为,被告未经许可AI化并使用原告声音,侵犯其声音权益,酌情判决赔偿经济损失2万元并出具书面道歉声明。
但挑战依然存在。与侵权的低成本相对应的,是举证、维权上的高难度、高成本。例如,声音克隆只需要几十元,而举证时,光声纹鉴定就要花上千元。如果选择打官司,还要走漫长的司法流程,能拿到多少赔偿还不好说。