三只羊“录音门”实为AI伪造，背后技术公司扑朔迷离

admin 阅读：75518 2024年09月28日

21世纪经济报道记者肖潇王俊实习生韩佳序北京报道

三只羊“录音门”实为AI伪造，背后技术公司扑朔迷离
图片来源于网络，如有侵权，请联系删除

直播带货公司“三只羊”的风波又起。一段疑似集团创始人卢文庆醉酒后的音频流出，音频提到客服投诉、竞争对手和三位女主播关系，一时引发了大量讨论。

9月26日，安徽合肥市公安局高新分局确认，相关网传音频为AI伪造，在犯罪嫌疑人（男，25岁）的电脑、手机和制作AI音频的网站中发现了伪造相关音视频的证据，并经部、省专业机构检验鉴定。目前犯罪嫌疑人被依法采取刑事强制措施。

27日凌晨，深圳言域科技有限公司发文称，三只羊事件使用的是“Reecho睿声”大模型，由卢文庆30秒的直播片段克隆生成，现在在加强安全管控措施。

一石再激千层浪。逼真的语气、脏话、安徽口音让许多人不可置信音频为AI生成，而这家似乎“名不经传”的公司则扑朔迷离——去年12月成立，注册资本100万元，面向C端的产品能够瞬时克隆声线，声音市场中已经有刘亦菲、杨幂等角色可以加进“购物车”……

AI声音克隆发展到哪一步了，是不是普通人就能随意完成“以假乱真”？AI内容的标识办法即将出台，这次深度伪造事件又意味着哪些法律挑战？

“没有哪个产品敢随心所欲克隆人声”

天眼查数据显示，深圳言域科技有限公司在去年12月刚刚成立，注册资本100万元。产品官网显示，商业伙伴已经有Keep、央视网等。

21记者实测了旗下To C产品“Reecho睿声”，克隆声音的流程非常简单：首先上传一段音频文件，作为训练素材；随后AI自动学习这段音频，生成一个克隆角色；最后就可以输入文本，用克隆角色的声音念出任何内容。

简单来说，这是一套不用十分钟可以完成个性化定制的文生音模型。如果是“瞬时克隆”，用户只需要上传5～8秒的声音样本；如果是精度更高的“专业克隆”，需要1分钟～60分钟的训练素材。

专业克隆的成本门槛不高，198元就可以定制一个角色，千元出头能定制6个角色。

但这套技术和产品模式可能要打上一个问号。

AI技术博主数字生命卡兹克在文章中分析，目前的声音克隆技术主要有两种：一种叫TTS（Text-to-speech），即文生音。只需要几十秒的素材训练AI模型，再让大模型念出指定文本。优点是成本低、时间快，而缺点是情绪、停顿、语气都不够逼真。

另一种为SVC，也可以理解为AI变声。区别是并非把文本简单转为音频，而是需要真人先录制一段音频，再用AI替换声线。去年爆红的AI孙燕姿唱歌，使用的便是SVC克隆技术。

一位看到新闻后去试用了睿声产品的AI业内人士告诉21记者，“他们的大模型质量一般，（生成的音频）10秒以内的还能听，10秒以上就不行了。”

他分析，要达到伪造卢文庆音频的逼真效果，AI无法做到一键生成，但如果用户有心“一段一段生成去硬凑，也是可以做到的。”

长期用该产品配音的用户踯躅说，生成音频的重音、语气并不自然，“原始音频是什么语气，后面（生成的）台词就是什么语气，我都是生成之后用修音软件重新处理”。而睿声的主要吸引力是可以完全模仿音色。

更大的问题或在于此——在这款向所有人免费开放的产品里，用户可以“模仿”任何人的音频文件，并且能公开发布。

睿声产品首页专门有一个“声音市场”板块，21记者在9月27日下午进入市场时，已经看到了杨幂、刘亦菲、丁真等人的声音。尽管生成的音频听起来不够自然，但使用非常方便，只要像加入购物车一样，把克隆声音添加到角色库里即可。

“其实在国内，基本没有可以随心所欲克隆声音的产品开放（给用户）的。”前述业内人士有些惊讶于这款产品的“野蛮”。

业内更常提起的模范生做法是剪映和豆包。今年年初，剪映和豆包AI分别上线了音色克隆功能，卖点都是几秒内创建自己的克隆声音，但在使用过程中，用户需要点击话筒，实时录制一段自己的声音。

前述业内人士表示，“这样就限定了条件，你只能克隆你自己的声音，没办法随心所欲克隆别人。”而睿声允许用户上传任何已经录制好的音频文件训练AI，无疑埋下了隐患。

目前国内的深声科技、小米、华为、百度、字节跳动等公司，都有布局人声克隆技术，但少有已经成形的产品。像深声科技的声音定制服务，产品面向的也是企业端，而非所有普通用户。

垦丁律师事务所联合创始人欧阳昆泼分析称，声音克隆可能涉及民事侵权，声音也属于一种人格权益，具有人身专属性。未经授权的情况下使用他人声音可以构成民事侵权。今年4月，北京互联网法院一审就开庭宣判了全国首例AI生成声音人格权侵权案，认定在具备可识别性的前提下，自然人声音权益的保护范围可及于AI生成声音。

平台是否应担责？

问题不仅仅在于声音侵权，而是更广范围内应用的不可控性。

“随着AI技术发展，生成合成技术不仅在逼真程度上日臻成熟，技术工具的可及性及易用性极大提高。当人人均可低成本地制作、传播深度伪造的内容时，现实与虚拟的界限不再显而易见，互联网信息传播的基本逻辑遭到挑战。”欧阳昆泼指出。

Data Bridge市场研究分析，在2021年到2028年间，声音克隆的市场规模将达到约4446.08亿美元，并以接近26%的复合年增长率增长。如何将这些深度合成技术关进笼子已经成为全球范围内的课题。

欧阳昆泼向21记者解释称，关于平台的责任认定，目前仍主要以红旗原则和避风港原则为参考。一方面，为了促进技术发展和表达自由，对于平台课加的义务仍应是克制的。

另一方面，也随着平台对社会公众的影响力越来越大，加之AI、算法等的发展，平台对其上内容的监管正变得越来越重要。

中国施行的《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》中均对利用AI技术实施违法犯罪行为进行了规制，旨在要求深度合成服务提供者应当落实信息安全主体责任。

具体来看，平台具有事前预防的义务，《深度合成管理规定》设立了安全评估、算法备案、内容审核等事前预防措施；此外，平台也有事后应对义务——如果深度伪造的谣言没有在生成之前被拦截，则需由服务者设置的用户申诉和公众投诉、举报入口，并通过已经建立的辟谣机制采取及时措施进行辟谣。

深圳言域科技有限公司声称，在收到合肥警方调查取证后，公司启动了内部审核机制。记者在产品的使用文档中看到，如果要用专业克隆功能，现在需要进行支付宝人脸实名认证，但仍然没有约束实名制用户克隆声音的范围。

使用文档的底部，有提示用户——“请勿使用我们的服务克隆或生成任何侵犯版权的内容”“我们生成的所有内容均带有详细日志，自动/人工复审，以及可溯源的隐形音频水印，若发现您违反了相关规则，我们保留终止您的服务并上报公安机关等机构的权利。” 但在使用界面，记者没有看到有关提醒。

值得一提的是，21记者也没有在互联网信息服务算法系统上，找到深圳言域科技有限公司的备案信息。

欧阳昆泼表示，睿声公司若没有履行备案义务，对内容审核、安全评估等义务也没有做到位的情况下，是有可能被监管机关追究相关法律责任的。

欧阳昆泼还补充道，对于深度合成技术的标识义务，已有相关法规要求在使用合成内容时进行标识，各个社交平台也已采取了相关措施，会在AI生成的内容旁标注类似于“本内容为AI生成”的内容。然而，在实际操作中，对AI生成内容标识仍存在一定挑战。例如，合成内容经二次传播后，标识就可能被省略或忽视，导致接收方对内容来源产生误解。这会是接下来各个平台需要处理的课题。