因此,对企业来说,在不断寻求技术突破和商业价值的同时,也应该树立对技术安全的责任心。
语音合成技术在实操层面还有非常多的硬伤
据了解,逼真的语音合成技术,背后是神经网络和机器学习的支持。神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理,它利用分层的神经元,从大量样本数据中总结出共同特征。
语音合成技术在商业化落地方面,可见的在诸如语音交互、有声读物、新媒体、智能客服、泛娱乐等领域被应用。
在接受新浪科技采访时,蜻蜓FM大教育品类负责人牛森表示,语音合成技术在音频领域会大大降低文字内容转向音频的人员、时间和经济成本。
在谈到语音cos时,牛森指出,这件事在实操层面有非常多的硬伤,比如合成后的音频与真实的人声在情绪和情感表达上肯定是做不到完全一致的。
他表示,对于音频用户来说,同样的内容,读稿和讲述的收听体验会有很大区别,只有最真实的人声才能引发深刻的情感共鸣,也是音频的价值所在。
而在道德和安全层面上,牛森认为,首先要从技术上对人声和合成音进行筛选确认,从权利上需要明确版权链条,任何未经授权的合成音频属于侵权违法行为,“作为平台方我们会进行严格的版权和品质把控”。
据了解,在一些音频平台上,语音合成技术主要用于儿童类节目,其他的内容上,AI模拟效果没那么好,尚未被广泛应用。
对于语音合成存在的安全隐患,在发布了变声技术后,刘庆峰现场曾强调:人工智能要持续发展,最核心的是它的价值观如何阳光健康与人为善,所以像变声技术这样一个黑科技,我们显然是不会轻易在各种App中对外开放的,一定是要有一种健康、安全又有趣的方式来跟这个世界来对接。
此前,刘庆峰还提到,人工智能领域要技术合作,更要法律伦理的合作。
对于安全问题,搜狗公司向新浪科技表示,“技术是一柄双刃剑,可以用来造福也可能带来灾难,搜狗坚守科技向善。变声技术是当下人工智能的前沿应用,基于语音表征学习、迁移学习技术,可以将任何人的声音转换成特定人的声音(Any-to-One)。搜狗在这方面取得突破,率先进入实用阶段。这项技术还可以应用到影视配音,家人陪伴等场景中帮助人们提升工作效率和生活幸福感。”
搜狗透露,为了保证这项技术不被有心之人滥用,公司作了严格的管理和限制:
1、搜狗不向第三方输出变声技术,确保该技术的可控性和安全性。
2、变声功能的所有目标音色都由搜狗定义,不支持用户随意模仿。
3、变声后的声音在微信、QQ等App中使用,不能转发复制,能够做到对发送者追踪溯源。
此前,王小川在媒体采访中也提到过人工智能立法:在当前人工智能发展的阶段,尽快根据技术发展不断调整和完善,是应对人工智能所带来的法律和伦理风险最为切实的手段。
不过,目前技术的发展仍然是走在伦理、法律的前面。周鸿祎曾在今年5月份的世界智能大会上提到过,在AI领域,如果没有人文的思考,可能设计出来的系统就是一个悲剧。
AI技术背后的人文思考
其实,AI技术背后的“以假乱真”现象不只出现在声音领域,近日三星的一项技术应用也引起人们的注意。
据外媒报道,三星位于莫斯科的人工智能实验室研究人员,基于大量动图和视频素材,以及“深度卷积神经网络”训练,通过AI技术准确识别某些面部特征,可以将静止图像变为动图甚至视频。
在实验中,研究人员以爱因斯坦、玛丽莲·梦露甚至蒙娜丽莎的静止图像为基础,分别生成了他们正在说话的视频,不过目前视频质量较低。
也就是说,未来随着AI图像生成技术的进步,可以仅仅通过一张照片就能生成虚假视频。