秋无痕淘宝天猫优惠券网	秋无痕常用软件全功能装机光盘 2023年金秋版	秋无痕一键优化Windows 10专版	秋无痕一键优化Windows 11专版
秋无痕论坛官方QQ群	获取无痕币和提高等级

主题 : MIT又一突破！用AI过滤音源，让音乐更悦耳

使用道具 | 复制链接 | 浏览器收藏 | 打印

加为好友

hexj9

千山同一月万户尽皆春千江有水千江月万里无云万里天

级别: 总版主

作者资料发送短消息

UID: 998
精华: 0
发帖: 605020
威望: 528937 点
无痕币: 0 WHB
贡献值: 0 点
在线时间: 62068(时)
注册时间: 2008-12-25
最后登录: 2024-04-20

0 发表于: 2018-07-10 11:00｜请将IE368导航设置为首页，支持论坛

只看楼主 | 小中大

0 MIT又一突破！用AI过滤音源，让音乐更悦耳

一般利用均衡器可以将音乐中的低音部分调出来，但是麻省理工学院的计算机科学和人工智能实验室（Computer Science and Artificial Intelligence Lab，CSAIL）的研究人员发现了更好的解决方案。他们所研发的新系统PixelPlayer，能够利用人工智能来区分和过滤声音，让音乐听起来更洪亮或更柔和。
将指定视频录入经过充分训练的PixelPlayer，系统随机能够过滤伴奏，同时识别音源，接着计算图像中每个像素的音量，然后通过“空间定位”确定产生相似音波的片段。
今年9月，德国慕尼黑即将举行欧洲计算机视觉会议（European Conference on Computer Vision），会议中要发表的一篇新论文则详细论述了“像素的声音（The Sound of Pixels）”。麻省理工学院计算机科学和人工智能实验室的博士生，同时也是这篇论文的合著者Zhao Hang同学表示，“最好的情况就是，我们能识别出哪种乐器发出怎样的声音。”

PixelPlayer的核心是一种基于乐器组合多模态训练的神经网络，数据集采用了Youtube上714条未经修剪且未经标记的视频。其中，总时长为60小时的500条视频用于训练，剩余的则用于验证和测试。在训练过程中，研究人员分别根据原声吉他、大提琴、单簧管、长笛和其他乐器向系统馈入了算法。
这只是PixelPlayer多重机器学习框架的一个部分。经过训练后的视频分析算法将从剪辑帧中提取出视觉特征，这就是系统的第二个神经网络，即音频分析网络。音频分析网络将声音拆分为片段，并从中提取特征。最后，音频合成网络将把上述两个网络输出的特定像素和声波关联起来。
PixelPlayer进行完全自监督的学习，人们无需对数据注释，而且系统目前已经能识别20种乐器。Zhao Hang说，较大的数据集增强了系统的识别量，但识别乐器子类的能力却不佳。系统也可以识别音乐元素，例如小提琴的谐波频率。
研究人员认为PixelPlayer可以进行声音剪辑，或者帮助机器人理解动物、车辆和其他物体所制造的环境声音。他们写到，“我们希望我们的工作能够开辟新的研究途径，从视觉和听觉信号角度实现声源分离”。

来自：评分选定顶端

回复引用评分

加为好友

longyun0405

像风一样自由