返回列表 发新帖

Pop Music Transformer:基于节拍事件表示的流行钢琴作品 ...

[复制链接]

1404

主题

2933

帖子

5742

积分

论坛元老

Rank: 8Rank: 8

积分
5742
发表于 2022-7-30 10:11:25 | 显示全部楼层 | 阅读模式 IP:香港
Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions

原文:https://dl.acm.org/doi/abs/10.1145/3394171.3413671
近年涌现的大量基于深度学习的自动作曲模型中,Transformer架构表现突出、具有较大潜力,能够在没有人类干预和领域知识的情况下生成具有一致结构且富有表现力的古典钢琴曲。此前的SOTA模型Music Transformer可以参考下文
本文的主要贡献:在此前模型的基础上进行改进,提出了一种新的音乐数据表示方式REMI(revamped MIDI derived events)。通过在数据表示中加入度量结构以刻画节拍-小节-乐句的层次结构,并灵活地融入速度变换、和弦等信息,新的数据表示方式能够使现有模型性能进一步提升。



REMI事件序列示例

模型

神经序列模型(Neural Sequence Model)是一种被用于自动作曲的模型,主要的思想是将音乐视作一种语言进行处理。乐谱被符号化、离散化,成为一个依时序排列的离散符号序列。诸如Transformer的序列模型被用于建模数据中的概率分布,也被用于(通过抽样的方式)生成新的音乐作品。
基于事件的音乐表示

相比此前基于MIDI的表示(MIDI-like),新的表示方式REMI存在以下方面的异同:

  • Note-On 和 Note Velocity
Note-On事件表示某一特定音高的音的开始事件,Node Velocity则表示响度。这两种事件在Midi-like和REMI表示中都存在。

  • Note-Off 和 Note-Duration
在REMI中,使用Note-Duration取代了Note-off,将一个音符用三个连续的token表示:Note Velocity,Note-On,Note-Duration。这样做主要有两个原因:
(1)MIDI-like表示中,必须通过开始结束之间的gap推断时值,通过专门的时值事件表示更为清晰直接
(2)MIDI-like表示中的开始事件与结束事件往往中间间隔若干其他事件,这使得成对出现关系的学习存在困难

  • Time-Shift 和 Position & Bar
以固定时值出现的位置&小节(Position & Bar)事件取代原先伴随音符的时间偏移(Time-Shift)事件,能够在音乐数据表示中加入度量结构,避免基于Time-Shift的模型中时间错误累积的问题。此外,基于Position & Bar的表示还有若干有点:
(1)更容易学习不同小节中同一位置的音符的相关关系
(2)便于添加小节级别的约束关系
(3)在多音轨/多乐器音乐创作中,以位置&小节表示作为时间参照,便于协调多个不同声部

  • Tempo
用于考虑速度变化(比如常见的beats per minute; BPM)。这类事件在MIDI乐谱中不一定存在,但是在MIDI演奏数据中可以通过对音频进行乐曲速度估计得到。

  • Chord
按根音和类型定义的共60种和弦被作为额外的支持符号(supportive token)输入给模型。
这样的数据表示使模型有相当的灵活性,可以通过在输出中遮盖(mask)特定事件的概率对和弦、速度等特性进行控制。
模型架构




本文的音乐建模与生成框架

采用了Transformer-XL作为主要的模型架构。Transformer-XL在Transformer的基础上,引入了循环的概念并修改了位置编码的方式。理论上,Transformer-XL有将任意长度的序列编码为定长表示的能力。一个N层的M头注意力的Transformer-XL的计算过程表示如下


本文选择采用一个Transformer模型对所有的事件一起建模,而不采取用多个模型、以互不重叠的方式建模不同类型事件的方式。
节拍追踪与强拍追踪

为了获取Bar事件位置,本文使用RNN从音频中估计得到强拍(downbeat)位置,并用线性插值的方法得到节拍位置。这样的表示方式可以得到更规则的时间(节奏)序列。


和弦识别

使用基于规则的启发式方法进行符号域和弦识别。遍历片段中的每个音作为可能的和弦根音,并通过与其他音的音程关系计算似然得分,最终得到和弦估计。


实验&评估

用本文提出的表示方式与模型,生成流行钢琴音乐作品(Pop piano composition)。选取的baseline是采取了原始的数据表示方式(包括MIDI-like)的Transformer模型。
客观评估

主要考虑以下客观统计指标




主观评估





参考文献
[1] Huang Y S, Yang Y H. Pop music transformer: Beat-based modeling and generation of expressive pop piano compositions[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 1180-1188.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册   手机动态码快速登录

x
打赏鼓励一下!

发表回复

您需要登录后才可以回帖 登录 | 立即注册   手机动态码快速登录

本版积分规则

 
 
点击这里给我发消息
点击这里给我发消息
官方微信

招募城市商务合作 电话/微信 18702940294
 
快速回复 返回顶部 返回列表