潮头之上 最知潮汐| 聊聊传统音乐制作与AI音乐
2024-06-07
Intro/ 前奏
以 ChatGPT 为代表的AI大模型,热热闹闹了整个 2023年,去年也被普遍视为「生成式 AI 元年」。
而对于AI 音乐来说,堪比ChatGPT时刻的里程碑事件来得晚了一些,直到今年 3 月——Suno V3的横空出世。
不需要懂音乐,不需要明乐理,只需键入主题,一分钟内音乐大模型就完成作词、作曲以及演唱,关键它还有模有样。
Suno 一鸣惊人短短 20 天后,号称“强过 10 倍的” Udio 席卷而来,与Suno使用方式几乎一致,用户只需输入简单的提示词,比如音乐风格、音乐流派、歌词内容、音色等,等待几秒就能快速生成带有歌词和节拍的音乐片段。
轮番上线的音乐大模型,在 2024 年的春天,疯狂挑战着传统音乐制作。
已经被抖音式神曲冲击地七零八落的现代音乐,再迎严峻挑战。AI 音乐们是降低了音乐创作的门槛,让普通人也能体验音乐创作的乐趣,还是来抢音乐人饭碗来了?
时间的河流奔腾不息,站在更高的山丘上,方见千浪脚下过。
嗨翻屋 HIFIVE,作为深耕音乐行业多年、在音乐技术和版权内容拥有相当竞争力的科技企业,我们回望近几个月的 AI 音乐热潮,审度当下、展望前路。
毕竟,站在潮头之上的,才最知潮汐。
Verse / 主歌
井喷的 AI工具,良莠不齐的AI歌曲
AI 音乐大模型的发展,遵循着精英创企打头阵,大厂紧随其后的路数。
去年Meta、谷歌Lyria已在音乐大模型中排兵布阵;Suno掀起热潮后,天工SkyMusic、网易天音、腾讯TME Studio也先后上线大模型或开设AI频道。
AI 井喷,素人们的创作热情达到顶峰。
在深度体验了多款 AI 音乐产品后,曲多多音乐内容部门的同事们态度倾向于“对于音乐爱好者、缺少理论知识的创作者来说,Suno是个很好的工具,可以提供开拓旋律、和声、配器等很多方面的思路。但对于职业音乐人来说,AI作曲用处不大。”
AIGC or HUMAN GC ?
AIGC(生成式人工智能 artificial intelligence generated content)
HUMAN GC (生造意译词 人类创作)
我们试着对比了一下 AI 音乐与传统制作的音乐,并尝试通过技术分析体现结果:大多数AI 音乐差在哪里?
一:AI生成音乐评测
1.声音模糊不清晰、声音偏薄、某些频段缺失
清晰度比较低,比较“糊”,声音较为干瘪、机械感重、没有质感,第一耳朵就能听出“合成”的感觉。与用心制作且经过混音、母带的音乐天差地别。
2.人声演唱/器乐演奏不真实 在生成的大部分流行音乐中,编曲相对比较成熟,但是对于一些器乐的演奏会显得比较生疏或“稚嫩”。这与比较成熟的编曲产生了较大的割裂感,尤其体现在原声器乐的演奏上。
3.演奏/演唱动态较差(演奏力度、情绪较为单一) 演奏/演唱的动态是表现情绪、起伏的一大元素,而AI音乐大部分的演奏力度都较为单一、很平,像是没有情感投入的机械式演奏。
4.演唱/演奏旋律单一,旋律编写较为模板化 这点尤其体现在演唱上,AI对于旋律的创作大部分情况下较为单一,对于字句、Flow的处理方式并不丰富,对于不同歌曲的处理都高度一致。
5.咬字发音奇怪(特别是中文歌词) 马can到什么,是run决定的。大家应该明白什么意思吧。「编者注:魔性“商务殷语”出自热映的电影《封神第一部》,片中费翔饰演的商王“in show”(殷寿)凭借“迷之发音”被网友热炒」
6.没有气口/换气 众所周知,人不出气会被憋死。在许多AI生成的音乐中是缺少气口的,一口气唱到尾不换气。在一般情况下的音乐后期中,不大会将气口全部剪掉(特殊情况除外)。但就算将气口剪掉,真人演唱的气息感还是会存在。
7.不确定性&不可自定义修改 这也是目前AI音乐最大的问题,无论你描述地有多详尽,AI生成的结果很难在第一时间给到你满意的结果,可能需要尝试无数次,更有可能完全达不到你想要的。就像刮刮乐一样。不可修改其实也是一样,用户并不知道AI的创作动机,你无法针对性的对某一点进行修改。就算开放了部分修改,修改的结果也和上述的问题一样,可能需要尝试无数次,也可能达不到预期。 听多了音乐大模型的产品,用户们很快会对这类缺少灵魂的套路感到厌倦。短暂的兴奋后,AI音乐迎来更理性的目光审视。那么,被大多数人诟病的 AI 味儿,到底是什么味儿?AI 味儿其实可以用三个字概括:不耐听。 口水歌、大白嗓,旋律简单,缺乏抑扬顿挫和起承转合,工业糖精味浓。
二、传统音乐和 AI 音乐的创作流程
如何炮制一首 AI 歌曲(以 Suno为例) 前文提到,目前市面上大多数AI音乐工具的制作流程都较为简单,只需要输入流派、情绪、器乐等关键词,如果是人声演唱的音乐,再附上歌词即可(大多数ai工具甚至可生成随机歌词)
简单模式:
1.输入关键词/描述语句
2.点击生成在该模式下,歌词也是自动生成的。但是不能保证生成的音乐一定是纯音乐或人声音乐。
自定义模式:
1.输入歌词(如制作纯音乐可忽略这一步)
2.输入流派、关键词
3.输入音乐名称
4.生成音乐
如果生成不完整,可以选择延长。AI会根据上一段落的音频和给出的描述继续生成。以获得完整的结尾。
市面上其它的AI工具或许会在步骤上有些许区别,但是整体来看,基本的逻辑是不变的。大部分AI工具诞生的目的就是为了让大众可以更轻松、极低的金钱成本“创作”音乐。用户可以不用有任何的音乐素养、乐理知识,即可获得一首属于自己的音乐。
传统音乐产出过程
1.作词(创作歌词)
2.作曲(创作旋律)
3.编曲(编排框架、段落;编写配器;预混等)
4.乐手录音(音乐中涉及到的所有器乐进行录音,如完全由软音源(Midi)制作则可略过该步骤)
5.歌手录音(若创作音乐为纯音乐,则可忽略该步骤)
6.混音(处理各个声部/乐器之间的音量平衡、摆放位置。处理音色、添加调试EQ、混响、压缩效果器等等等等)
7.母带(数字音乐成品诞生前的最后一道工序,不做赘述)
8.发行(发实体唱片、上传至各大流媒体平台)
Ps:作词/作曲不分先后,根据创作者的创作习惯或当下情况而定,即可先作词再谱曲,也可先作曲再填词。甚至有些音乐流派,像摇滚或金属乐还可以先创作RIFF(可以简单理解为一段重复的乐句),再根据RIFF往下发展词曲。
在现代音乐的制作中,以上每一步都是不可或缺的。作词、作曲是给音乐赋予生命、注入灵魂。编曲、录音是将音乐变成一首完整的作品。而混音、母带是为了给音乐进行润色、将音乐最好的听感带给听众。最后的发行则是把音乐带到大众的视野中。
通过上述的内容中大家可以清晰感知,AI音乐致力于让用户以最简单的方式创作音乐。
在这个过程中,用户可以控制的部分只有词、音乐流派、音乐情绪等,而其余的部分则全权交给了AI,人在这个“创作”的过程中起到的作用是非常少的。
更有甚者直接以最简单的方式,只提供流派、情绪,剩下的完全交给AI来实现。这也就是为什么大家经常讨论说AI音乐没有“灵魂”。
当然我们并不是在否认科技的进步,更不是拒绝拥抱变化,AI音乐也有非常高质量、很值特细品的存在。
只是我们认为音乐应该是被创作者注入更多心血而诞生的作品,不该粗制滥造。
相信随着时间的推移,以上提到的大部分AI音乐存在的问题都会得到解决,AI也可以成为创作者的有限使用的“工具”,而不是过度依赖AI甚至使用AI批量化生成音乐来变现。
在AI音乐这个话题下并不存在劣币驱除良币,是李逵是李鬼一眼便知。大众当前对AI的看法还处于受新鲜事物冲击的震惊中,但是仔细想想,AI音乐真的可以代替人吗?
AI音乐与人造音乐(即人类创作的音乐)在创作过程和作品特点上存在显著差异。AI音乐是通过算法和数据训练生成的,虽然能够模仿各种音乐风格,但在情感表达和创新性上往往有所欠缺。
相反,人造音乐则是音乐家们通过丰富的情感体验和独特的创作灵感所创作的,具有更强的个性和深度。
警惕滥竽充数!AI 音乐的识别很重要
为了保护音乐创作的原创性和艺术价值,音乐行业应当对AI音乐和人造音乐进行明确的区分。这不仅是对原创音乐创作者的尊重,也是维护音乐市场健康发展的必要措施。
AI音乐火爆以来短短几个月,已经出现了一系列的问题:
1、一些平台和开发者在未经许可的情况下使用音乐作品来训练和生产AI仿制品,这一动作大大的削弱音乐人和版权持有人的权益,例如,通过使用AI声音来减少向艺术家支付版税,以及AI开发人员,这些行为大大稀释了支付给艺术家的版税,对许多努力维持生计的音乐家、艺术家和歌曲作者来说,这将是灾难性的,如果不加以控制,AI可能会成为一场行业的滑坡起点,将整个行业推向一个低标准的深渊。
2、虽然AI音乐工具可以生成大量的音乐作品,但并不是每一首都能达到艺术水准。有些作品可能缺乏情感和灵感,仅仅是机械生成的音符组合,缺乏真正的音乐创作价值。这可能导致音乐市场充斥着大量质量低劣的音乐作品,影响到真正有创意和才华的音乐人的发展
我们应该正确认识AI音乐工具的能力,它可以辅助音乐创作过程,提供灵感和素材,但创作过程中真正起决定作用的还是人类的创造力和情感。音乐是一种表达情感和思想的艺术形式,需要艺术家的独特视角和个人风格。要想创作出深具艺术性和情感共鸣的音乐作品,仍然需要音乐人付出大量心血和努力。
另外,随着5G时代到来,视频内容的制作在各个领域的应用越来越普及,其中音乐作为不可或缺的重要元素,相比AI音乐,自制音乐由于音乐人独特的创意和个性,能确保音乐和视频内容的完美契合,将音乐作为一种情感传达的媒介,帮助营造视频的氛围和情绪,增强视频的影响力和吸引力。
那么,我们应该如何辨别一首音乐是否是由AI制作的呢?
首先我们需要了解下AI音乐是如何生成的:
首先,AI音乐创作的第一步是收集大量的音乐数据,这些数据可能包括已有的音乐作品、乐谱、音乐理论等。通过算法对这些数据的分析,AI可以学习音乐的结构、风格和情感表达等特征;算法中通常会使用深度学习模型对收集到的音乐数据进行训练,这些模型能够学习音乐的创作规律,并生成新的音乐作品。常见的算法有以下几类:
循环神经网络(RNN):RNN特别适合处理序列数据,如音乐旋律和节奏,因为它们能够记住过去的信息并将其用于预测未来的输出。RNN模型可以生成连贯的音乐片段,适合用于音乐创作。
长短时记忆网络(LSTM):LSTM是RNN的改进版本,它解决了RNN在处理长期依赖问题时的困难。LSTM通过引入门控机制,能够更有效地学习音乐序列的长期依赖关系,从而生成更复杂的音乐作品。
生成对抗网络(GAN):GAN由生成器和判别器两部分组成,通过相互竞争来生成新的音乐风格或音乐风格混合。GAN可以生成具有音乐特征的新音乐,适合音乐风格的转换和创新。
变分自编码器(VAE):VAE通过学习音乐数据的潜在分布,生成具有多样性的音乐。VAE模型可以用来生成新的音乐作品,或者对现有音乐作品进行风格转换。
Transformer:Transformer模型在音乐生成中的应用越来越广泛,尤其是在处理MIDI音符序列的预测和变换上。Transformer模型通过自注意力机制,能够捕捉音乐中的长距离依赖关系,生成具有复杂结构的音乐作品。
Tips:以上几类算法优势各有侧重,因此创作出的AI音乐在音乐的结构、曲风、器乐和情感表达的特征会有所区别;例如,广为应用在音乐创作领域的生成对抗网络(GAN)模型,就能模拟出具备人创作思路与灵感的特性。
其次,在算法完成对音乐数据的学习后,AI便可以根据预设的音乐风格和主题创作全新的音乐作品
在了解完AI音乐生成逻辑后,我们回到如何识别一首音乐是否是AI生成,通常来讲,分为两大类:
第一类,同样通过算法进行解析识别,这里提到两种比较常见算法识别的方式:“水印检测’和”伪影检测“:
水印检测即通过算法检测音乐中是否携带水印标记,但该种方式缺陷在于仅能检测已知特征的水印,一旦水印被删除或修改,那么算法便会失效,无法检测或检测错误。
目前水印检测算法还适用在AI文本和AI图片的检测中,如:OpenAI在2023年2月推出的AI文本检测工具“AI Text Classifier”,但由于准确性较低,目前已下架
另外谷歌DeepMind推出一款名为 SynthID的工具,这是一种可以可靠地为 AI 生成的图像添加隐形数字水印的方法,识别出 AI 生成的图像
伪影检测是检测音乐内容中的“伪影”,即不符合常理的内容,此方式通过参考在早期的图像生成模型中,人的手经常是畸形的,又或者汽车的轮子不是圆形;但是该方案的缺陷在于本身必须依赖它应该检测的内容来作为训练数据才能对音乐进行检测,因此,伪影检测将始终落后于人工智能生成模型的发展,针对最新生成的AI音乐只能说无能为力
下图可以很好的解释通过识别图片中的“伪影”来识别是否是AI生成:
(图片来源于网络)
乍一看这是一张购物超市的照片,但是仔细一看,图片中所有的文字都是乱码,因此判定是由AI生成的,因此可以看到当生成的图片元素越丰富时,出现“伪影”的概率也就越大
因此目前准确度较高的算法识别方案是通过内容识别技术,以人声音乐为例,算法将歌手的真实声音进行记录,通过识别声音的生物特征并以数字指纹的形式来记录该歌手的声音,再将需要识别的音乐与该歌手的声音做生物特征匹配,从而识别出音乐中该歌手身份的真实性,进而判定音乐是否是由AI制作;
获索尼、环球、腾讯多家巨头投资的专注于音视频数据识别的公司Pex()基于以上提到的水印检测和伪影检测开发出系列AI音乐检测方案,目前其更深度的Pex Voice ID技术已经可以将歌声与其身份进行匹配,即使录音中有多个歌手演唱,又或者声音是人工智能生成。
法国一家音乐技术服务提供商Ircam Amplify提供的AI音乐检测服务宣称准确率达 98.5%,他们则是将2个技术参数值将作为识别音乐是否为AI制作:
参数一:isAI,值分为“True"和"False",True表明音乐是通过AI制作,False则不是
参数二:Confidence,值为数字,区间从1~100,数值越大,表示对"isAI"这个值的置信度越高,结果就更加可信
随着 AI 的不断迭代,以 AI 查 AI,用“魔法打败魔法”的方式工具也必将出现。但届时是否需要一个有足够公信力的 AI 来作为公正处般存在,那就是后话了。
第二类,还是得靠人。
即通过专业的音乐制作人员也可以通过听觉来判断歌曲是否由AI生成。虽然这种方法主观性较强,但对于某些特定的音乐风格和特点,人工试听仍然是一个有效的鉴别方法。嗨翻屋HIFIVE旗下曲多多版权服务平台(https://agm.haifanwu.com)在AI音乐的制作浪潮来临之时,严格把关音乐品质,呼吁原创,并通过各种技术手段以及人工介入的方式,识别出上架售卖的音乐中是否存在AI音乐。
所以,我们认为无论在任何场景出于何种目的,AI的生成品都应有明显标识。
目前市面上部分音乐流媒体平台已经开始对AI音乐进行对应的标识:
QQ音乐:
旗下「超越AI」是由酷狗阿波罗声音引擎实验室结合艺人杨超越声音打造的首位明星AI歌手,目前上架在QQ音乐中的音乐,已经明确标识出音乐的表演者为“超越AI”
同时,在QQ音乐中上架的其他AI制作的音乐,如由AI孙燕姿演唱的歌曲,演唱者统一显示为“Musicbot"
OpenAi:
旗下音乐生成工具"MuseNet"就提供了由AI生成的音乐,平台明确表示这些都是由AI创作的
AI 音乐的版权纷争
AI 音乐出现,注定引发复杂的版权问题讨论。
由于AI音乐作品的生成依赖于大量的已有音乐数据,这些数据的使用是否侵犯了原作者的版权,成为了一个亟待解决的问题。此外,AI生成的音乐作品本身是否具有版权,版权归属应当如何界定,也是当前法律体系尚未明确的问题。
我国首例 AI 声音侵权案例在今年4月23日迎来判决,北京互联网法院对全国首例“AI声音侵权案”进行一审宣判,认定作为配音师的原告,其声音权益及于案涉AI声音,被告方使用原告声音、开发案涉AI文本转语音产品未获得合法授权,构成侵权,书面赔礼道歉,并赔偿原告各项损失25万元。
判决书明确表示,AI生成声音可识别性的认定应综合考虑行为人使用情况,并以相关领域普通听众能否识别作为判断标准。
无独有偶,5月16日,版权巨头索尼音乐在官网上发布了一则声明,宣告索尼音乐将退出AI训练,禁止任何企业在尚未取得授权的状态下,以其内容训练AI模型,包括且不限于旋律、歌词、音频录音、视听录音、插图、肖像等。
可见在AI 版权归属问题尚未得到妥善解决之前,音乐行业需要在使用AI技术时保持谨慎,避免因版权纠纷影响行业的正常发展。作为音乐版权服务商,我们有责任引导行业规范AI音乐的使用,保护原创音乐创作者的合法权益。
自AIGC技术诞生至今,关于其训练内容的版权纷争从未平息,现如今也着实跨界动了创意行业巨头的蛋糕。而索尼音乐的声明,也为这场AIGC的版权捍卫战再添战火。
AI对艺术创作所提供的相关工具,早已不止于对创作者和版权方的威胁,这不似画家放下画笔拿起手绘板的进化,更像是对行业未来的颠覆,也正因此,各大公司的介入也将倒逼相关法律法规的快速迭代与完善。
曲多多:尊重原创 拥抱高质量 AI
AI音乐作为科技发展的产物,为音乐创作带来了新的可能性,但也带来了新的挑战和问题。为了维护音乐行业的健康发展,我们呼吁大家尊重原创音乐,对AI音乐与人造音乐进行明确区分,避免因AI音乐的泛滥影响原创音乐的价值和市场秩序。
同时,针对AI音乐带来的版权问题,行业内各方应积极探索和建立相应的法律法规,确保版权保护体系的健全和完善。作为音乐版权服务商,我们将继续履行我们的责任,推动音乐版权保护事业的发展,为音乐产业的可持续发展贡献力量。
Outro / 尾奏
我们常打趣,世界就是一个轮回,人类音乐历史里其实也不乏这样的“巧合”。
1787年,莫扎特发明了一个音乐骰子游戏。游戏参与者可以用它来创造数以百计的莫扎特风格的小步舞曲和三重奏。
它包括272个乐段和一个用于选择特定乐段的规则表,给定两个骰子,其结果是随机选择的16小节小步舞曲和16小节三重奏。通过任何选择,产生的旋律都是一个漂亮的小步舞曲。理论上来说,这个游戏可以生成45949729863572161(4亿亿)首不同的小步舞曲和2821109907456(2万多亿)的三重奏。
快 300 年了,井喷的 AI大模型本质也不过就是经过训练的数据的更多种组合。
真正的背后推手,还是人类。
参考文章:https://m.cyol.com/gb/articles/2024-04/05/content_mO8jpKSVLq.html《AI“音乐创作”横行给音乐家带来哪些隐忧》 https://36kr.com/p/2784456453162120《AI席卷音乐圈,索尼音乐率先“退出群聊”》https://www.sohu.com/a/778566003_121124377/《Pex 推出 AI 音乐检测方案 》