深度学习模型GANSynth音乐生成技术分析
- 格式:docx
- 大小:27.12 KB
- 文档页数:2
深度学习模型GANSynth音乐生成技术分析
摘要:基于人工智能(AI)的算法作曲技术一直是讨论的热点,研究者们在此领域进行了多次尝试。深度学习模型GANsynth依托算法上的特殊优势,打破目前
AI音乐生成技术的多种局限性,将音乐生成的品质推进了一大步。本文主要对GANsynth音乐生成技术进行分析,旨在为GANSynth音乐生成技术的潜力挖掘以
及功能完善提供力所能及的帮助。
关键词:GANSynth;人工智能;音乐生成
GANSynth是一种利用生成对抗网络合成音频的算法,由谷歌大脑团队在2019年ICLR会
议论文中提出的一种利用GAN生成高保真音乐的新方法,这个模型生成音乐速度比以前的标准WaveNet快5万倍,且音乐质量更好,总体已达到作曲素材要求的质量标准。
1.基于深度学习的音乐生成技术的发展梳理
人工智能算法作曲,是使用算法创造音乐的一种技术,使用一些看似于音乐无关的算法
或数据来创作音乐,基于深度学习的音乐生成技术发展历史不长,但是却有丰硕的成果,下
面对几种算法模型进行介绍:
(1)RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。例如时间
序列数据,是指在不同时间点上收集到的数据,一个显著的特点就是后面的数据跟前面的数
据有关系。
(2)LSTM(Long short term memory),它基于普通RNN在隐藏层各神经单元中增加记
忆单元,从而使时间序列上的记忆信息可控,可以控制之前信息和当前信息的记忆和遗忘程度,从而使RNN网络具备了长期记忆功能。
(3)WaveNet:在2016年,Google旗下DeepMind实验室推出了WaveNet深度神经网络,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。
(4)WaveGAN:生成对抗网络被广泛用于合成逼真图像,2018年初WaveGAN被提出,WaveGAN可以从人类语音的小词汇中产生可理解的单词,以及合成来自其他领域的音频,如鸟类发声,鼓和钢琴。
(5)GANSynth:谷歌大脑团队2019年ICLR论文提出用GAN生成高保真音乐的新方法,速度比以前的标准WaveNet快5万倍,且音乐质量更好。
2.GAN生成对抗网络的工作原理
生成对抗网络GAN是由蒙特利尔大学Ian Goodfellow在2014年提出的机器学习架构。
要全面理解生成对抗网络,首先要理解的概念是监督式学习和非监督式学习。监督式学习是
指基于大量带有标签的训练集与测试集的机器学习过程,而非监督式学习则不需要这么多额
外的工作,它们可以自己从错误中进行学习,并降低未来出错的概率。监督式学习的缺点耗
时耗力,但非监督式学习准确率往往更低。GAN可以说是对于非监督式学习的一种提升。其
次需要理解的概念是“生成模型”,这类模型能够通过输入的样本产生可能的输出。举个例子,一个生成模型可以通过视频的某一帧预测出下一帧的输出。另一个例子是搜索引擎,在你输
入的同时,搜索引擎已经在推断你可能搜索的内容了。
基于上面这两个概念就可以设计生成对抗网络GAN,相比于传统的神经网络模型,GAN 是一种全新的非监督式的架构(如下图所示)。GAN包括了两套独立的网络,两者之间作为互相对抗的目标。第一套网络是我们需要训练的分类器(下图中的D),用来分辨是否是真实数据还是虚假数据;第二套网络是生成器(下图中的G),生成类似于真实样本的随机样本,并将其作为假样本。
4.未来展望
GANSynth是使用 GAN 生成高保真音频的初步尝试,但仍存在许多问题。虽然上述方法在处理音乐信号方面效果不错,但在音频合成方面仍产生了一些明显的缺陷。接下来工作就是在此基础上,探索从生成的频谱图中恢复相位的方法,同时减少伪影。其他有前途的方向包括使用 multi-scale GAN、处理可变长度输出,以及用灵活的可微分合成器替换上采样卷积生成器。
参考文献:
[1]Goodfellow I J,Pouget-Abadie J,Mirza M,et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems,2014,3:2672-2680.
[2]Engel J,Agrawal K K,Chen S,et al. GANSynth:Adversarial Neural Audio Synthesis[J]. 2019.