深度学习模型GANSynth音乐生成技术分析

  • 格式:docx
  • 大小:27.12 KB
  • 文档页数:2

下载文档原格式

  / 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

深度学习模型GANSynth音乐生成技术分析

摘要:基于人工智能(AI)的算法作曲技术一直是讨论的热点,研究者们在此领域进行了多次尝试。深度学习模型GANsynth依托算法上的特殊优势,打破目前

AI音乐生成技术的多种局限性,将音乐生成的品质推进了一大步。本文主要对GANsynth音乐生成技术进行分析,旨在为GANSynth音乐生成技术的潜力挖掘以

及功能完善提供力所能及的帮助。

关键词:GANSynth;人工智能;音乐生成

GANSynth是一种利用生成对抗网络合成音频的算法,由谷歌大脑团队在2019年ICLR会

议论文中提出的一种利用GAN生成高保真音乐的新方法,这个模型生成音乐速度比以前的标准WaveNet快5万倍,且音乐质量更好,总体已达到作曲素材要求的质量标准。

1.基于深度学习的音乐生成技术的发展梳理

人工智能算法作曲,是使用算法创造音乐的一种技术,使用一些看似于音乐无关的算法

或数据来创作音乐,基于深度学习的音乐生成技术发展历史不长,但是却有丰硕的成果,下

面对几种算法模型进行介绍:

(1)RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。例如时间

序列数据,是指在不同时间点上收集到的数据,一个显著的特点就是后面的数据跟前面的数

据有关系。

(2)LSTM(Long short term memory),它基于普通RNN在隐藏层各神经单元中增加记

忆单元,从而使时间序列上的记忆信息可控,可以控制之前信息和当前信息的记忆和遗忘程度,从而使RNN网络具备了长期记忆功能。

(3)WaveNet:在2016年,Google旗下DeepMind实验室推出了WaveNet深度神经网络,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。

(4)WaveGAN:生成对抗网络被广泛用于合成逼真图像,2018年初WaveGAN被提出,WaveGAN可以从人类语音的小词汇中产生可理解的单词,以及合成来自其他领域的音频,如鸟类发声,鼓和钢琴。

(5)GANSynth:谷歌大脑团队2019年ICLR论文提出用GAN生成高保真音乐的新方法,速度比以前的标准WaveNet快5万倍,且音乐质量更好。

2.GAN生成对抗网络的工作原理

生成对抗网络GAN是由蒙特利尔大学Ian Goodfellow在2014年提出的机器学习架构。

要全面理解生成对抗网络,首先要理解的概念是监督式学习和非监督式学习。监督式学习是

指基于大量带有标签的训练集与测试集的机器学习过程,而非监督式学习则不需要这么多额

外的工作,它们可以自己从错误中进行学习,并降低未来出错的概率。监督式学习的缺点耗

时耗力,但非监督式学习准确率往往更低。GAN可以说是对于非监督式学习的一种提升。其

次需要理解的概念是“生成模型”,这类模型能够通过输入的样本产生可能的输出。举个例子,一个生成模型可以通过视频的某一帧预测出下一帧的输出。另一个例子是搜索引擎,在你输

入的同时,搜索引擎已经在推断你可能搜索的内容了。

基于上面这两个概念就可以设计生成对抗网络GAN,相比于传统的神经网络模型,GAN 是一种全新的非监督式的架构(如下图所示)。GAN包括了两套独立的网络,两者之间作为互相对抗的目标。第一套网络是我们需要训练的分类器(下图中的D),用来分辨是否是真实数据还是虚假数据;第二套网络是生成器(下图中的G),生成类似于真实样本的随机样本,并将其作为假样本。

4.未来展望

GANSynth是使用 GAN 生成高保真音频的初步尝试,但仍存在许多问题。虽然上述方法在处理音乐信号方面效果不错,但在音频合成方面仍产生了一些明显的缺陷。接下来工作就是在此基础上,探索从生成的频谱图中恢复相位的方法,同时减少伪影。其他有前途的方向包括使用 multi-scale GAN、处理可变长度输出,以及用灵活的可微分合成器替换上采样卷积生成器。

参考文献:

[1]Goodfellow I J,Pouget-Abadie J,Mirza M,et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems,2014,3:2672-2680.

[2]Engel J,Agrawal K K,Chen S,et al. GANSynth:Adversarial Neural Audio Synthesis[J]. 2019.