硅谷101: E147｜Suno引爆音乐圈，与音乐人聊聊AI生成音乐与艺术的随机数

AIGC的风终究是吹到了音乐圈——今年3月，“音乐届的ChatGPT” Suno V3粉墨登场，用户只需要在Suno上输入一句话的提示词，即可在数秒内生成两首两分钟的完整歌曲，从作词、作曲、演奏到人声演唱一气呵成，大大降低了普通人创作音乐的门槛。

已经习惯了各类“AI歌手翻唱”的听众和用户迅速拥抱了Suno，从《宫保鸡丁咏叹调》到《让我们荡起双桨》重金属，从英语、日语、俄语到普通话甚至是粤语，网友们自发上传的作品包罗万象，网易云音乐、QQ音乐等平台也迅速上线了SunoAI音乐专区，甚至还推出了定期更新的官方推荐歌单。

本期《硅谷101》邀请到了来自音乐和AI音乐生成领域的两位嘉宾，分享他们对以Suno为代表的文生音乐模型的看法，以及AI如何影响音乐产业的未来。

【主播】
泓君Jane，硅谷101创始人，播客主理人
【嘉宾】
冯建鹏，美国哈特福德大学哈特音乐学院打击乐讲师，百老汇全职演奏家，知名音乐博主“叨叨冯”（Youtube@daodaofeng）
Roger Chen，Meta Music Tech Lead

【你将听到】
02:26 为什么大家感觉是Suno是最火的呢？因为他敢最先把自己的文生音乐模型公之于众
02:43 【测评一】“找不到工作的悲伤摇滚乐”，结果并不悲伤
07:30 能听但没有态度，AI只能写出不愤怒的摇滚乐
11:02 AI写的歌可以达到业界平均水平，但无法出挑成为头部作品
14:40 速度是音乐创作最重要的指标之一，为什么AI写不出80 BPM的音乐？
18:26 AI写歌与人类作曲不是一个逻辑，只能从左到右按顺序写，没有全局观
22:07 训练素材足够全面和丰富，AI可能写出Taylor Swift水平的歌曲?
25:55 同样的音乐，水平不同的演唱者演奏出来也不一样
27:20 【测评二】英雄主题的交响乐，听感能得7分，作为乙方它不及格
33:40 Suno不能按提示词生成指定的乐器，它只追求听上去大概相似
37:48 AI生成音乐是无法抗拒的洪流，但暂时做不到像音乐家一样写歌
43:13 【测评三】挑战规则严谨的赋格，Suno会表现得更好吗？
47:05 赋格研究在AI音乐有20年历史，不过在巴赫的原曲面前还很稚嫩
52:32 音乐技术与心理学：Mp3技术是如何被发明出来的？
53:57 音乐的本质是“有组织的声音”，这是文生音乐大模型的底层逻辑
58:58 最怕无聊？艺术需要跳出人类总结
63:12 创作者的脑洞大开：在音乐里加入随机数机制

【提示词参考】
开场曲
《The future is now》 by Suno, an opening music for a podcast called Silicon Valley 101, discussing innovative technology, AI and business stories, jazz, easy, catchy.
【测评一】
05: 56 《Struggling in the shadows》by Suno, sad story of not finding a job, Classic Rock, 80 BPM, Guitar, Base, Drum, Keyboard.
【测评二】
27:46/29:42 《Hero themed symphony》by Suno, instrumental, strings, woodwinds, brass, timpani
【测评二】
30:27 《Hero themed symphony》by Suno, instrumental, strings, woodwinds, brass, timpani, Classical, 19th century.
【测评三】
46:21 赋格曲 by Suno,Toccata and Fugue in D Minor. Dark and dramatic, featuring solo organ creating a serious and powerful mood.
结束曲
《Silicon Pulse》 by Udio, closing note for the episode of AIGC music, hip pop, extended intro and outro.

【补充信息】
BPM
beats per minute，度量速度的音乐单位，每分钟多少拍（BPM）表示一个指定的音符，例如四分音符，在一分钟内出现的次数，BPM的数值越大代表速度越快。

Fairly Trained：
由来自前Stability AI、Humanistic AI等科技公司高管、知名好莱坞律所和音乐界人士发起的非盈利组织，对涵盖图像、音乐和歌曲生成的人工智能模型进行认证，证明他们已申请使用受版权保护的训练数据的许可。

赋格：
为拉丁文“fuga”的译音，是盛行于巴洛克时期的一种复调音乐体裁，又称“遁走曲”，是复调音乐中最为复杂而严谨的曲体形式。赋格的结构与写法比较规范。乐曲开始时，以单声部形式贯穿全曲的主要音乐素材称为“主题”，与主题形成对位关系的称为“对题”，之后该主题及对题可以在不同声部中轮流出现，主题与主题之间也常有过渡性的乐句作音乐的对比。

掩蔽效应:
是指由于出现多个同一类别（如声音、图像等）的刺激，导致被试不能完整接受全部刺激的信息。具体分为视觉掩蔽效应和听觉掩蔽效应。其中，听觉掩蔽效应是指人的耳朵只对最明显的声音反应敏感，而对于不敏感的声音，反应则较为不敏感。例如在声音的整个频率谱中，如果某一个频率段的声音比较强，则人就对其它频率段的声音不敏感了。

卷积神经网络（Convolutional Neural Network，CNN）：
卷积神经网络是一种深度学习网络，主要用于识别图像和对其进行分类，以及识别图像中的对象。在卷积神经网络 (CNN )出现之前，人们通常使用耗时的人工特征抽取方法来识别图像中的对象。现在，卷积神经网络提供更加可扩展的方法来执行图像分类和对象识别任务：卷积神经网络利用线性代数原理（特别是矩阵乘法）来识别图像内的图案。卷积神经网络从其他神经网络中脱颖而出的地方在于：卷积神经网络在图像、语音或音频信号输入方面表现出超高的性能。

【监制】
杜秀
【后期】
AMEI
【Shownotes】
杜秀

【BGM】
The future is now——Suno & 杜秀
Lazy Art - Martin Landstrom
Bubble Bee - The Fly Guy Five
Silicon Pulse —— Udio & 杜秀

【在这里找到我们】
公众号：硅谷101
收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客
海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music
联系我们：[email protected]

Episode Link

Embeddable Audio Player

Download URL

Social Network Quick Links