AI音乐创作：三个我的下午茶

2026年4月到5月，我用Suno 5.5版本，将我写的歌词变成可以演唱的歌曲。这个创作实验得到了一张包含九首歌的AI音乐专辑，名字叫《三个我的下午茶》，其中的歌曲主要由我作词，Suno AI作曲并演唱。大部分歌曲的主题是“认识自己，喜欢自己，成为自己”。

以下按专辑歌曲顺序，给出每首歌的YouTube视频链接。专辑之后，还专门附上一万多字的创作手记，记录了创作心得，以及创作过程中控制Suno AI的具体技巧和方法。

三个我的下午茶

我就是我

周末我们聊起孤独

舞进尘埃

忘了告别

从自己身边路过

即兴表演

功夫盒饭

那天我们走进五台山

附录：暗夜里的光——我的AI音乐制作手记

诗、歌合体的未来

我从小就喜欢写自由诗，读大学之后又试着填些古近体诗词。虽然水平有限，但诗词对我来说，像灵魂里的一根支柱。

我很早就意识到，用于阅读和朗诵的汉语诗歌其实从上世纪90年代后就已经“死掉”了。因为最近三十年，最好的汉语诗歌总以流行歌曲“歌词”的方式出现。就像影视挤占小说的生态位，短视频又挤占影视的生态位一样，在大众视野里，可以自由歌唱的“歌词”在文字质量与流行程度上都远远超越了为阅读和朗诵而存在的诗。

流行歌曲的歌词创作本身，早已开创了一个全新而繁盛的，不亚于“宋词”当年辉煌的诗歌时代。崔健、黄家驹、林夕、黄伟文、罗大佑、李宗盛、方文山、林振强、周耀辉、小柯等人写的歌词，即便用朗诵的方式呈现出来，其情感的细腻程度、表达手段的多样化，也早已超越了宋词的平均水平。

周耀辉作词的《写得太多》中，“文字没有了，人类突然哑了”这一句，似乎也反映了今天这个手机影像时代里，纯文字创作者在表达手段上的缺失。或者换句话说，单独作为文字的诗歌，已经失去了行走在这个世界上的“双腿”。

AI音乐对于我的灵魂价值

我只会写诗词，却不懂音乐，唱歌也是五音不全——这简直成了我灵魂上最大的缺失。

汉语诗歌史上，所有依词牌或乐府曲式填词得到的文字，大多要借由演唱来传播。技术上，古代词人拥有独立完成一首歌曲的条件：首先，因为词牌固定，词作者并不需要真正懂得音乐（当然，懂音乐的词人有加分）；其次，填好的词可直接交给熟悉的歌伎演唱，又因为词牌固定，歌伎甚至不用练习，就可以把柳永等风流词人在酒桌上的即兴作品弹唱出来，博宾客们一笑。

在音乐创作高度工业化的今天，只会写诗词的人，想创作完整的歌曲就难如登天了。因为表达方式复杂化，听众口味多样化，固定的词牌、曲牌已基本消亡。要想独立创作新歌，就要既懂作词，又懂作曲，还要掌握编曲工具，找歌手演唱，到录音棚录音——连专业人士也极少能覆盖所有这些制作环节，更不要说不懂音乐的人了。

AI大模型时代到来后，我灵魂深处的第一个冲动就是借用AI音乐生成工具，弥补我的灵魂创伤。每次有机会写出一些自己满意的诗句，第一时间想到的就是：何时这些句子才能被谱曲、传唱？

比如《周末我们聊起孤独》这首诗，是两年前和朋友聊天时，我们几个人真实感触的提炼和再表达。其中有这样的句子：

人们戴着面具寒暄客套
嘈杂在空气中四处奔跑
社交的基因像病毒蔓延
只有我
静静站在那里
眼神迷离
灵魂出窍

这种越热闹越孤独，游离于社交之外的心情，可能很多人都有过切身体验。这和王籍说“蝉噪林逾静，鸟鸣山更幽”相似，但内涵迥然不同。王籍的诗更多是在凸显一种自然界原本就存在的反差感——越是听到平常不留意的声音，越发说明环境和心情的安静。但我写“人们戴着面具寒暄客套”，描绘的是那种热烈但全无价值的社交场合。有独立思考能力的人大多都不喜欢那样的场合。古诗含蓄，现代诗歌则更擅长直抒胸臆——讨厌就是讨厌，不喜欢就是不喜欢。而这种直截了当的情绪表达，其实是最适合被配以旋律，加以演唱的。

但，这首自我表达意味很强的《周末我们聊起孤独》写成后近两年，我都没找到特别合适的机会把它做成歌曲。早期版本的Suno AI我试过很多次，前两年也做过类似的AI歌曲MV实验，直到今年（2026年）3月，Suno 5.5发布，我才觉得，这是一个我可以自己驾驭，足够产出可发布音乐的工具了。

但仅有Suno 5.5还不够。在专业分工上，Suno 5.5做的是谱曲、编曲、演奏和演唱。我还需要一个统领全局的音乐总监——这个角色，我选择由Claude AI的Opus 4.6模型来扮演。

与Opus 4.6这位“音乐总监”聊的第一个话题，是歌词本身适合哪种音乐风格。我当时的提问是：

你是全球最专业的音乐人。以下是一首将由女歌手演唱的中文歌的歌词。你能给出这首歌词最适合的音乐风格的几种推荐吗？每种推荐请写出原因，风格描述，可参考的类似风格的代表作品（演唱者、歌名、年代等信息）。参考歌曲不限中文歌曲，请在全世界近百年来最适合的曲风中寻找推荐，且不要落俗套，要有创造力。

Opus 4.6帮我推荐的音乐风格有五种：

推荐一：Art Pop / 艺术流行（偏 Kate Bush 路线）
推荐二：Chamber Pop / 室内流行（偏 Fiona Apple 路线）
推荐三：Trip-Hop / 迷幻节拍（偏 Portishead 路线）
推荐四：Progressive / Cinematic Ballad（电影感叙事谣曲，偏 Radiohead 与坂本龙一交汇处）
推荐五：Nouvelle Chanson / 新香颂（偏 Carla Bruni 与 Françoise Hardy 之间）

我请Opus 4.6帮我做了五个版本的Suno 5.5提示词（一般会要求它生成两份文本，一份是风格提示，一份是带有英文标注的歌词），并逐一丢到Suno工作流里，生成实验样歌。

逐一听完样歌，我在室内流行和新香颂这两个选项之间反复横跳了几次后，因为偏爱歌词里的孤独感与纯净音乐的结合，我坚定选择了室内流行这个方向，且希望配器时以弦乐四重奏为主。

第二步，我把我的构思，以及对试验样歌的反馈告诉Opus 4.6，并请它修改、细化成新的提示词版本。比如，我对实验样歌的配器很不满意：乐器种类太多，复杂和弦太多，高潮部分人声合唱也干扰了单纯的主旋律。Opus 4.6虚心接受我的意见，它最终写出的Suno 5.5风格提示词（英文）是这样的：

Genre: “Chamber Pop, Indie Ballad, Art Pop”

Instruments: “string quartet only; first violin melody; second violin harmony; viola mid-tone warmth; cello pizzicato bass; soft female vocals; breathy intimate voice; brush drums; no piano”

Tags: “72 BPM; slow; melancholic; cinematic; emotional; intimate; classical crossover; heartfelt; sparse pizzicato verses; arco swelling chorus; warm reverb; dynamic build”

Opus 4.6也将纯文字的歌词改写成带有曲式、唱法及编曲风格标签的版本。下面是副歌部分被添加了曲式和风格标签的样子：

[Pre-Chorus]
(strings silent, voice alone, fragile)
只有我
静静站在那里
眼神迷离
灵魂出窍

[Chorus]
(full quartet fortissimo, drums fill, emotional peak)
我们大笑，我们拥抱
我们讴歌最极致的孤独
我们理解，我们记忆
哪怕死亡之后再无相聚

第三步，我就把Opus 4.6设计的提示词，直接拿到Suno 5.5的工作流里，完成音乐创作。在整个专辑里，《周末我们聊起孤独》的音乐创作过程最为顺利。我大概只让Suno生成了十几个版本。按顺序听过一遍，很容易就挑选出其中音乐最干净，旋律最柔美的那一个。

这首歌我最满意的地方是室内弦乐四重奏的初始设计得到了很好的贯彻。不同声部的提琴组合，也简单而克制，核心旋律对情感的表达不算突兀。至于纯净和优美这两个更高级的要求，肯定还有很多可以提高的地方（如果由人类作曲家来操刀的话），但对目前版本的Suno来说，可能已经接近它的创作极限了。

单说音乐本身的纯净程度，这可能是专辑里我最喜欢的一首歌。做完这首歌曲，我甚至会在上下班路上，或在周末下午，单曲循环着，把它反复播放一两个小时。那种感觉，像极了我在梦中组建了一个古典、优雅的室内弦乐团，然后在维也纳、莱比锡、里斯本、芝加哥、横滨、上海、北京等地的小剧场里巡回演出。

请注意，讨论AI作品的价值时，必须从当事人视角，严格区分专业诉求与爱好者诉求两种情形。比如，一位类似小柯的专业音乐人，他们对AI作曲水平的判断一定是准确而严苛的，不可能相信今天的AI可以独立写出媲美人类高手的作品；但，像我这样为梦想写作的爱好者，AI音乐的出现不亚于为我的黑暗房间打开了一扇窗。借助Opus 4.6和Suno 5.5完成音乐创作，这是我目前能找到的，将梦想变为真实的唯一方案。

推广来说，今天一个非专业的影视爱好者，借助Seedance模型，也可以做出像模像样的故事短剧；或者，今天的一个美术和设计门外汉，借助Nano Banana或Seedream模型，也可以输出可直接用于大多数营销场景的海报、广告图片、文章插画等作品。AI对非专业人士的这类普惠效应，有人叫它“AI平权”。但也有人说，根本不存在什么“AI平权”，原来的赢家在AI时代还是赢家，原来的专业创作者有了AI帮助，只会更加专业并遥遥领先，这世界仍符合“赢者通吃”的残酷法则。

我从不参与这样无意义的概念辨析。我所知道的只有一件事：没有AI音乐模型时，我即便写了自己满意的诗句，也总觉得心头有一个地方空空的；自从有了Suno 5.5这一代AI音乐模型，我就能做出我自己可以单曲循环听上一两个小时的歌曲。即便这首歌在专业音乐人看来，可能连60分的及格线都没到，那又怎样呢？我自己的创作灵魂因此而充实。到底有没有“AI平权”，这世界是不是遵循“赢者通吃”的法则，跟我又有什么关系呢？

与“均值回归”的AI硬伤做搏斗

AI生成艺术类内容，最大的硬伤是AI倾向于向人类创作者的平均水平做“均值回归”。这是AI大模型核心算法的基本原理决定的。

“均值回归”这件事放在非艺术类的任务里，结果通常是可接受的。例如，用类似“龙虾”的AI Agent帮我整理邮件、收集数据、写摘要、做PPT……在这些任务里，即便AI的水平只相当于人类文秘的平均水平，我也完全可以接受；或者，用Claude Code写代码时，AI输出的代码质量大致相当于人类中级程序员的水平，但已经足够颠覆整个编程行业了——因为AI出现之前，人类的编程任务本来就是由少量高级程序员、架构师带领大量初中级程序员来完成的；有了AI，几个高级程序员、架构师组成的小团队，就可以干以前数十人团队的活儿，还不开心至极？

但，“均值回归”在艺术领域，却意味着作品的极度平庸、流俗甚至油腻。全唐诗五万多首，能让人反复诵读、欣赏的，可能连百分之五都占不到。或者，每年网络发布的华语歌曲有数十万首，即便只统计专业音乐制作人的正式作品，每年也有五六千首之多——其中，能给你我留下深刻印象的有几首？

在艺术领域，无法跻身一流行列，通常就意味着质量低下。AI音乐模型“吃”进去大量人类音乐作为训练数据，但其中一流歌曲占比极少。AI学到的作曲、演唱规律，几乎一定会与人类的平庸作品趋同：一说摇滚，AI就生成那种金属味道饱满的配器和声嘶力竭的吼叫；一说“空灵、天籁”，AI生成的女声就一定像极了王菲、齐豫、林忆莲三者声线的平庸合体；一说“甜美旋律”，AI的作曲风格就一定会向着拙劣模仿邓丽君、孟庭苇、梁静茹的方向大踏步前进……

作为工程师，我当然知道在预训练和后训练阶段有很多具体技术，可尽量引导AI不要太容易堕入“平庸”的深渊。但没办法，这些技术的效果有限。如果不用心控制，Suno 5.5的大多数生成结果总会有那种“乍一听有点儿意思，再仔细听又索然无味”的感觉。

制作我的AI专辑时，最多的时间都花在了如何让Suno 5.5跳出“平庸”陷阱，尽量写出富有新意和变化的旋律这件事上。最折磨人心态，让我几度想放弃的，也是这件事。

例如，《忘了告别》是一首简单、优美而情感深厚的歌。为了避免Suno 5.5滑入“平庸”，我当时提供给AI的歌词修改了整整13版，每一版歌词在Suno中尝试生成了少则三五个，多则二三十个的样本歌曲。加起来，这首歌的音乐生成一共尝试了172次——真的是一次既辛苦又幸福的学习与修行过程。幸好，最终获得的音乐是让我满意的，旋律上确实有那种纯美古典民谣的味道了。

下面，逐一讲讲我在制作专辑的过程里，遇到的几个最典型的“均值回归”问题。

旋律与歌词字数紧耦合的问题

很多Suno技术论坛或用户社区都在讨论这个话题：一旦选定某种音乐风格，且歌词某个乐句的音节数（对中文而言就是字数）和音步数已经固定，Suno为这个乐句生成的旋律就相对一致，无论生成多少次，听起来都差不多是一个基准旋律的轻微变种。

《忘了告别》这首歌的风格是“古典民谣”，“20世纪80年代港台金曲”，“深沉女声”，核心的英文风格提示词是“folk ballad”。歌词第一段是：

溪水忘了和山林告别
却悄悄带走了山林的气息
溪水不知道
哪一处美景最值得期许
山林的爱
就这样走遍了大地

这一段里，中文字数相对每一句的分布是9、11、5、10、4、8，而中文音步的分布是4、4、2、4、2、3。音步的分布会明显影响Suno生成的旋律、气口或停顿。清晰起见，我在下面用斜杠标记出每句的音步边界来：

溪水 / 忘了 / 和山林 / 告别
却悄悄 / 带走了 / 山林的 / 气息
溪水 / 不知道
哪一处 / 美景 / 最值得 / 期许
山林的 / 爱
就这样 / 走遍了 / 大地

只要风格不变，歌词每一句的字数、音步数不变，Suno 5.5为这几个句子生成的旋律就大差不差，总是“均值回归”到某个平庸的参考旋律上。更恼人的是，在这个字数参差不齐，符合自由体诗歌规律的段落中，第一句、第二句、第四句因为音步数都是4，大多结果中，这几句的旋律就高度雷同，听下来就有强烈的油腻感。

Suno高级选项里有两个控制项可用于解决旋律重复的问题，一个叫“Weirdness”，另一个叫“Style Influence”。但实际体验下来，这两个选项并不那么友好。因为我对每首歌需要的音乐风格有强要求，“Style Influence”的值就不能设得太低，否则风格偏离就变成更大的难题了。而“Style Influence”设置到60-80这个区间时，“Weirdness”会变得有些古怪，对不同风格设定，“Weirdness”的行为很难预测。有时，当我把“Weirdness”设置成30-50这个区间时，结果更可控，但旋律雷同的情形更普遍；当我将“Weirdness”滑标移动到60-80区间时，说实话，得到好听旋律的可能性反而下降了，因为这个参数鼓励AI在旋律和编曲上引入更多随机性，大部分结果因为随机扰动，就朝着“音乐垃圾”的方向飞驰而去了。

因此，要化解这个难题，除了对生成样本坚持抽卡选优以外，对乐句字数、音步数的调整就是一种很重要的调控手段了。

比如，在做《我就是我》这首歌时，作词人小小最初提供的歌词初稿（片段）类似这样：

今天是 / 星期几
我到底 / 在哪里
我是 / 男人吗
我是 / 女人吗
我有 / 性别吗
我有 / 年龄吗
我是 / 大人吗
我是 / 孩子吗

这类整齐的双音步排比句，在朗读时非常有情感冲击力。但用AI生成歌曲旋律时，就成了重复旋律的核心诱因。基于这版初稿，生成的样歌就像相声里唱的太平歌词那样，上下两句简单旋律，翻过来覆过去地唱，听起来味同嚼蜡。

征得小小同意，我们一起将歌词（片段）修改成下面这样字数、音步交错的样子：

我的 / 未来，我的 / 过去
过去 / 我是 / 何人，未来 / 走向 / 哪里
我的 / 年龄，我的 / 性别
男人 / 还是 / 女人，大人 / 还是 / 孩子
我 / 是不是 / 天真 / 至极
天真 / 是不是 / 傻的 / 同义语

这个修改是立竿见影的。《我就是我》这首歌选择的核心风格是“Jazz Swing”。当Suno看到这段音步数参差不齐的歌词后，乐句间的旋律差异迅速呈现，音乐里一下子就有了“摇摆”的感觉。尤其是最后两句，“我是不是天真至极，天真是不是傻的同义语”，直接促使Suno套用了经典爵士那种丝滑的乐句衔接技巧。

对《忘了告别》这首歌，我潜意识里有些抗拒调整每一句的字数。因为那份歌词也是投入了非常深的感情，尝试了许多写作方法后，才最后找到的一种节奏和感觉。最终版的歌词看似平铺直叙，极少修辞，如儿童歌谣般简单，但读起来是相当有音乐感的——这是对具体用词、用字反复推敲后的结果。

既然不愿改歌词，我只好尝试另一种方法：用标点符号和换行符来强行控制Suno对乐句长度的理解。例如，我尝试过类似下面这样的分行策略：

溪水忘了
和山林告别
却偷偷带走了
山林的气息
溪水不知道
哪一处美景
最值得期许
山林的爱
就这样
传遍了大地

我还像下面这样使用标点符号强制分隔音步，或强化情绪语义：

溪水忘了，和山林告别
却悄悄—带走了，山林的—气息
溪水不知道
哪一处—美景，最值得—期许
山林的爱—
就这样—走遍了大地

标点符号和换行符的不同组合是明显有助于Suno 5.5输出不同旋律的。这个过程有点儿像碰运气，但能在反复尝试后碰到好运气，也总比早早向“平庸”投降要强得多。

“风格溢出”或模糊化的问题

“风格溢出”不是孤立现象。AI图片或视频生成就经常遇到“风格溢出”或“风格模糊化”的挑战。例如，当我们指令AI画一幅日系少儿卡通风格的漫画，但提示词里又包含了日系少儿卡通漫画中很少出现的元素时，AI就常常会把一幅少儿卡通画做成风格上的四不像：或者在少儿卡通的整体画面中，嵌入了一个写实风格的景物；或者，整个画面变成了少儿卡通风格与写实影像风格的混合，看上去要多别扭有多别扭。

Suno 5.5在制作音乐时，也经常犯这样的错误，且极难解决。我这张专辑里，最典型的“风格溢出”问题发生在制作《从自己身边路过》的过程里。

本来，我是想探索我特别喜欢，今天也特别流行的Melodic Rap风格的。我的“音乐总监”Opus 4.6为我提供了非常详实的，Melodic Rap方向的歌词写作指南——摘选一段：

Melodic rap最常用的结构是：Hook → Verse → Hook → Verse → Hook (→ Bridge → Hook → Outro)注意第一个关键差异：很多Melodic Rap歌曲是Hook开头，不是Verse开头。这是因为在流媒体时代，你只有大约15秒来说服听众留下来，所以先用hook抓住注意力。这和传统说唱（verse先行、hook在后）的逻辑完全相反。

Melodic rap不像传统说唱那样严格遵循某种固定音步（iambic/trochaic），它的节奏更”自由”，但存在几个强规律：

规律一：重音落在beat上。 4/4拍中，第1拍和第3拍是强拍，第2拍和第4拍是次强拍。歌词中的重要词（名词、动词、形容词）的重音应该落在这四个拍点上。
规律二：句末拉长。 Melodic Rap最标志性的特征——每句的最后1-2个音节被拉长成旋律音（延音/melisma）。这意味着每句的”有效节奏音节”比实际音节少1-2个。
规律三：句间有呼吸间隙。不像密集说唱那样bar和bar之间无缝衔接，Melodic Rap的句与句之间通常有半拍到一拍的呼吸空间。
规律四：句长有变化但有规律。典型的4-bar组合中，前两句较长（10-12音节），第三句可以稍短或加快，第四句（punchline/押韵）回到中等长度。

专业音乐人应当可以看出，Opus 4.6总结的规律并非绝对正确，但有一定参考价值。我也确实基于Opus 4.6的建议，准备了符合要求的歌词。

关键问题在于，尽管Melodic Rap是西方最流行的音乐风格之一，用中文写成的歌词以及歌词的字面意义，还是会刺激Suno 5.5在生成音乐时，身不由己地“串台”到其他音乐风格那里。比如，《从自己身边路过》的一段主歌歌词是这样的：

从自己身边我莽撞地路过
抑制不住的忐忑
镜子里哪有什么真诚
自恋时根本记不住承诺
我从未如此讨厌自己
讨厌肉身还有精神的蹉跎
我怕逃离
那些我曾伤害过的
怕我的冤孽被时间饶过
我怕面对
那些我曾假扮过的
怕我的卑鄙被一语道破

而Hook部分的歌词是这样的：

为什么沮丧却期待拥抱
为什么伤痛竟难以忘掉
为什么真诚敌不过玩笑
为什么虚伪就大行其道
说什么爱就爱恨就恨，全是因果
竟不知天与地古与今，终将残破
怨什么是与非情与仇，自我折磨
偏不懂你和我我和你，只是路过

主歌更多用散句，Hook更多用排比，这是Opus 4.6给我的建议之一。从作词者的个人喜好来说，我也倾向于让Hook部分有一种层层递进，不断放大情绪的感觉，因为Hook这几句话无论在节奏上还是思想上，都是在致敬北岛当年那句“卑鄙是卑鄙者的通行证，高尚是高尚者的墓志铭”。

但也正因为Hook部分的歌词过于整齐，过于有节奏感，Suno 5.5对Hook段落的处理就明显偏离了Melodic Rap歌手尤其是黑人歌手与生俱来的松弛感。很多顶尖的Melodic Rap歌曲里，即便Hook部分的歌词音步整齐，歌手也会用极强的自由度来处理排比句。Suno 5.5明显没有学到Rap歌手的演唱精髓。

最终生成的《从自己身边路过》在主歌部分更接近Melodic Rap的精神实质，在Hook部分则不可抗拒地向C-Pop与轻摇滚的常见旋律靠拢，制造出了一种生硬的拼凑感。

当然了，Suno 5.5在风格上的“串台”有时也可以用来作为对抗“平庸”的一种手段——故意找两种差异较大的音乐风格，用它们的交叉组合来创造“不平庸”。只不过，这种探索的实验意义很浓，成功概率不会太高。

选择“小样本风格”时的风险问题

AI大模型本质上是从海量数据里统计并压缩人类知识。假如我们选择的某种音乐风格在Suno 5.5的训练数据中占比过小，那我们对结果质量的预期就不要太高。

这次专辑制作过程里，《功夫盒饭》的歌词中含有明显的武侠元素，例如这一段：

风欲静，月孤悬
低眉垂首按弓弦
我也曾飞矢射归雁
也曾匹马战幽燕
影未动，寒光闪
血花飘飘飞如霰
身既止，心又远
天涯何处无悲欢

假如这一段歌词能用类似《刀剑如梦》的武侠电视剧主题曲风格演唱出来，该是多么完美的一件事。可惜，别说《刀剑如梦》这样的最顶级武侠金曲了，Suno 5.5连“90年代TVB武侠主题曲”的粗略模样都写不出来。我和Opus 4.6一起想了很多种办法，尝试了七八种版本的风格提示词，Suno生成的音乐没有一种哪怕是接近TVB武侠歌曲的旋律特征的。

用“笛子”“二胡”“古筝”等关键词来提示Suno为曲子加入更多中国武侠特征时，Suno会迫不及待地在主旋律或间奏中混入喜庆的中国民乐；提示严格按中国五音阶来创作时，Suno又经常会跌入旋律简单、重复的深渊；提示Suno像《刀剑如梦》这样的大制作一样，用西方交响作为基调，用古筝、笛子作点缀时，Suno生成的旋律就大踏步向《指环王》配乐里的玄幻风格、史诗风格靠拢……

没办法，我只好彻底放弃了将《功夫盒饭》制作成90年代TVB武侠风的想法。专辑中最终呈现的《功夫盒饭》，是建议Suno 5.5走R&B加中式说唱路线的结果。

想了想，Suno 5.5很难生成TVB武侠金曲的原因也很简单——在人类歌曲库里，武侠本就是占比极少的一个风格门类，其中优秀的，值得学习的旋律更是沧海一粟。我们可以随意打开一个音乐APP，搜索“武侠”字样，看看能查到的相关歌曲有多少。值得我们反复听的，符合传统TVB武侠电视剧主题曲风格的所谓金曲，总数可能连30首都不到。这点儿数据量，和动辄数百万首歌的R&B、爵士、摇滚、说唱等类别比，简直可以忽略不计。

我的另一位朋友曾建议我写一首献给当代独立女性，套用90年代武侠曲风的歌曲，体现“初心”和“侠义”两大主题。我初步写成了一首歌词，名为《白衫侠女传》，其中一个段落是这样的：

那一次，我也恐惧
那一天，我也惊惶
入险境，我曾挣扎
遇挫折，我曾迷茫

谁知道，被刀剑入骨冰凉
谁懂得，遭朋友背后刺伤
谁心疼，在夜晚几近崩溃
谁想到，遇日出再度刚强

山也多，水也长，你竟千斤重担自己扛
剑还在，人还在，任它东西南北风雨狂

基于这样的歌词，我勉强用Suno 5.5生成了一首男女对唱的所谓“武侠”歌曲：

大家听一段就可以知道，别说“武侠风”了，这首歌的旋律完全说不上有任何一种可识别的特色，就是一支平庸到极点的口水歌。我的朋友和我都对这个结果不满意。这歌儿听一遍也就罢了，再多听是绝对不会的。因此，这首《白衫侠女传》就没有被收录到最终的专辑里。

情绪高潮等价于“大嗓门”的问题

在艺术上，今天的AI经常犯“幼稚病”。就像刚学会修辞的小学生，恨不得在一篇作文里堆砌所有修辞方法一样，Suno 5.5如果不加控制，一到副歌的高潮部分，它就大概率把配器用满，声部全开，人声音量推向最高。一首歌的情绪高潮，在Suno 5.5心里，大概就和“大嗓门”是等价的吧。

例如，做《舞进尘埃》这首歌的时候，Opus 4.6给我推荐的候选风格有两种：一个是东方梦幻民谣（Ethereal / East Asian Folk），另一个是暗色电子氛围（Trip-hop）。

这首歌的歌词是我很多年前发表在学校内部刊物上的一首诗。写那首诗的时候，我还是个单纯、幼稚的大孩子；现在把它转写成歌曲，我特别想在其中添加一些暗黑感、成人感，以真实反映出我已经长大了，变“坏”了的事实。

例如，改写成歌词后，副歌部分是这样的：

舞在梦里呀
舞上瑶台
舞得碧叶迎风落
舞得琼花踏雪埋
快把这尘埃
舞到心里来
快把这尘埃
舞到心里来

我觉得这样纯净的歌词与暗色电子氛围（Trip-hop）的组合，肯定有一种极致的反差感，于是，就坚定地在这个风格路径上探索下去。但，这个路径上遇到的最大困扰，就是Suno对副歌处理的简单、粗暴。第一次做样歌时，副歌部分的标签就是简单的一个词：

[Chorus]
舞在梦里呀
舞上瑶台
……

这样简单的标注，在Suno 5.5里有很大概率得到一种尽情释放情绪的电子乐，就像夜店里的DJ在高潮部分直接把所有通道的音量推到最大一样。只要不去夜店，就没有人会希望听到这样粗暴的情绪释放。

我请Opus 4.6帮忙分析整首歌的情绪起伏，并精确标记出不同段落的情绪反差，得到的第一版正式提示词是下面这样（补充了副歌前面的部分主歌）：

[Verse 2] [slightly warmer, playful tenderness, light percussion joins]
说你喜欢它们吧
那些脏了小手的无赖
别在意它们爬上烛台
咬你的鼻尖呀
掀你的刘海
想象吧
真的洁白

[Chorus] [soaring, open, full strings and reverb bloom, voice lifts]
舞在梦里呀
舞上瑶台
舞得碧叶迎风落
舞得琼花踏雪埋
快把这尘埃
舞到心里来
快把这尘埃
舞到心里来

很明显，Opus 4.6并不是特别清楚Suno 5.5对情绪释放的理解有多么幼稚。上面这一版还是基于人类惯常思维，用“slightly warmer”来表示逐渐起来的情绪，用“soaring, open, full”之类指示性很强的形容词来指导Suno的工作。这不是精确指导，而是火上浇油。这一次，Suno生成的电子乐歌曲，从头到尾就是一路升级并径直走向高亢，连迂回婉转都不要了。

不得不向Opus 4.6严肃指出这个问题并要求他认真检讨。Opus 4.6终于明白，我们不能把Suno视为专业的音乐人，而要将它视为幼稚的音乐初学者。有时候，需要连哄带骗地避免Suno做出幼稚的事情来。真正让我们满意的最终版提示词是下面这样的：

[Verse 2] [beat continues, Rhodes or keys add warmth, voice more melodic]
说你喜欢它们吧
那些脏了小手的无赖
别在意它们爬上烛台
咬你的鼻尖呀
掀你的刘海
想象吧
真的洁白

[Chorus] [bass drops an octave, voice soars above the weight]
舞在梦里呀
舞上瑶台
舞得碧叶迎风落
舞得琼花踏雪埋
快把这尘埃
舞到心里来
快把这尘埃
舞到心里来

所有对情绪的写法，都改成了克制，婉转的英文标签。“add warmth”比“slightly warmer”更适合情绪渐强的段落，“bass drops”为副歌部分的情绪划定了基调，“voice soars above the weight”对人声和配乐的关系做了简洁而收敛的说明。

上面这些婉转的英文标签写法，都是Opus 4.6根据我的要求发明出来的，并不一定适合所有歌曲。但这个过程再次说明，目前的AI音乐创作过程，最好要请另一个通用AI模型来帮忙做“音乐总监”（我使用的是Claude的Opus 4.6，但其他任何通用大模型应该都可以胜任），并一定要与这位“音乐总监”沟通清楚，让它提前懂得，Suno 5.5的能力与个性特点，很多时候，要用骗着、哄着的方法来写提示词，指挥Suno的工作。

一种复杂但可控性更高的Suno工作流

面对“均值回归”特征明显的AI大模型，如何与“平庸”搏斗，如何尽可能激发AI的创作力，可能是未来每个与AI共创艺术作品的人必须深入并长期思考的技术问题。这一次制作AI音乐专辑，我可以说用尽了我能在论坛中检索到的，能与AI聊出来的所有“秘技”。其中，最复杂的一种Suno控制技术，被社区中的创作者命名为多轮分解生成法（Multi-Pass Decomposition）。实验证明，这个方法的确有机会创作出一些意料之外的好旋律来。

多轮分解生成法（Multi-Pass Decomposition）的基本思路其实很简单：

不要让AI来迁就你，而是让你的歌词曲迁就AI。AI最擅长搞出什么样的旋律，就针对这样的旋律来填上歌词。

具体的做法要把整个工作流分成三轮，依次指导Suno 5.5生成不同的阶段性结果。

第一轮：无歌词的纯旋律探索

说“无歌词”，指的不是不提供歌词或让Suno自己生成歌词，而是提供一份完全无意义，仅表达音节、音步个数的歌词。例如下面这样：

[Verse]
da da da-da
la la la la la
la la la, da da da
la la la la la la la-

[Chorus]
da da da da da
la la la la la-
da da da-da
la la la-la
da da da la la la la la la-

这份“空白歌词”里，其实只包含两个表示读音的单字，“da”对应于较急促的音节，也可以用来表示较轻的读音（如汉语里的仄声字或英语里的轻音节），“la”对应于较舒缓的音节，也可以用来表示较重的读音（如汉语里的平声字或英语里的重音节）。此外，还可以用逗号、破折号等进一步表示音节、音步之间的停顿或延续关系。

指定风格关键词，再把上面这样的空白歌词送入Suno 5.5，可以得到非常有意思的哼唱版样歌。如果对Suno生成的旋律不满意，就直接调整空白歌词中“da”或“la”的音节数量，然后再次尝试生成。今天的Suno模型写旋律时，对音节数、音步数的依赖度极高，只要知道这个道理，就会大胆尝试各种音节数的组合，大胆探索最有趣的旋律了。

一旦对某一次生成的哼唱版歌曲基本满意，就可以进入下一步，直接填词。

第二轮：填入歌词，匹配候选旋律

假如Suno可以为“da”、“la”组成的空白歌词写出有特色的音乐，那它大概率也会对音节、音步数相同的歌词写出类似的音乐——这是目前Suno 5.5的技术原理决定的。

因此，假设我们上面的空白歌词已经得到了不错的哼唱版旋律，那我们就按照每个“da”、“la”的位置，填入或发音急促，或发音舒缓的汉字就好。

随便套用上面的空白歌词，填上一版中文歌词（仅示例作用，这不是任何一首真正的歌曲）：

[Verse]
莫名惆怅 (da da da-da)
还不曾放下 (la la la la la)
看到他，微风里 (la la la, da da da)
我的心总是牵挂 (la la la la la la la-)

[Chorus]
那一回日落 (da da da da da)
那一片晚霞 (la la la la la-)
几只飞鸟 (da da da-da)
几行浪花 (la la la-la)
终究会洗净心头的沙 (da da da la la la la la la-)

然后，推荐放弃此前的所有哼唱版歌曲，转而用新填好的歌词，让Suno重新生成歌曲，完全不用考虑与之前哼唱版的关联。Suno的生成结果通常会和哼唱版的旋律近似。而且，因为已经填入了带有实意的文本，Suno在生成旋律时，也会重新考虑文本内容的适配度，并对旋律细节做出调整。

第三轮：添加演唱、配器、编曲标签，做最后一轮精细控制

第二轮如果顺利，那我们就已经获得了一首歌曲的旋律框架，以及与之适配的歌词。这时，通常还需要再做一步精细控制，以便对所有修饰性的音乐成分，例如前奏、间奏，配器方案，和声方案等做最后的优化。

这时就不能随意抛弃第二轮生成的歌曲结果了。Suno提供了好几种功能，允许我们基于一个已经生成好的主旋律，做进一步的优化和改进。

最常用的是“Remix/Edit”菜单里的“Cover”功能，就是把已经生成好的歌曲当做基准，用新的提示词来做一次覆盖式的生成。

其次是Suno提供的Studio或Editor功能，可以在其中打开已经做好的歌曲，然后逐段修改歌词、风格、编曲的提示词，让Suno生成新的版本。

这三个工作轮次，肯定是第一轮最重要。只要第一轮输出了还不错的主旋律，第二轮、第三轮的工作就相对容易，就更有把握获得一首有特色的好歌。

Suno 5.5实用控制技巧小结

做完这个专辑，学到的经验不少。除了上面提到的那些避免“均值回归”的方法外，还有不少简单、明确的小技巧。在这里一起总结下：

找个通用AI模型当“音乐总监”，与你一起讨论风格候选，帮你撰写Suno提示词。
作为“音乐总监”的AI模型必须预先知道Suno当前版本的局限性。可以直接告诉它，也可以让它自己做个网络搜索，自己总结。
歌词每一行的音节数、音步数对Suno 5.5生成的旋律有最大的影响力。其中，每段歌词第一行的影响因子最大。一旦音乐风格和某一段的音步数确定，Suno总会生成类似的旋律。因此，想办法调整每行字数、音步数，尤其是每段第一行的音步数，或善用标点符号和换行符来精确控制，是避免平庸旋律的最关键技巧。
无论是风格提示词，还是歌词里的音乐标签，都是越少越好。过多的提示词只会让Suno陷入混淆，输出四不像的音乐。
风格提示词里由“NO”开头的否定提示词，数量少时很有效，可以精确控制Suno不要生成什么。但数量多时，经常会起反作用。
提示词里涉及到情绪的形容词要尽量克制，不要轻易使用“高亢”“饱满”等形容词，因为这些词只会激发Suno写出简单粗暴的“大嗓门”音乐来。
Suno 5.5对汉语繁难字、多音字的处理非常差，演唱时经常读错音。解决方法也很简单：将Suno读错的字替换成一个同音但更简单的字就行了。比如，《周末我们聊起孤独》里的“讴歌”一词，就是刻意改成“鸥歌”后，Suno才唱对的。
做一首男女对唱的歌曲时，必须为歌词的每一行详细标注“[Male]”、“[Female]”或“[Both]”标签，不要嫌麻烦。即便如此，Suno也经常不听话，将男声、女声该唱的句子翻转或混淆。多数情况下，需要抽卡很多次才能找到满意的结果。
因为歌词太长，生成歌曲的时长可能超过5分钟时，有很大概率触发Suno 5.5臭名昭著的7:59 Bug：每次生成的结果长度都是7分59秒；明明歌词已经唱完，歌曲又突然转向前奏，并从歌词的开头循环演唱，一直到7:59时才被Suno的错误控制逻辑强行截断。这是目前模型本身的内在Bug。要解决这个Bug，要么把歌词改短些，要么在Suno Studio/Editor里手工截断歌曲，再重新生成结尾。我在制作主打歌《三个我的下午茶》时遇到了这个Bug，又不想牺牲歌词的完整性，最后，干脆手工在Audacity声音编辑软件里重新制作了一段歌曲结尾。
Suno经常在生成的歌曲中混入中高频噪音，其中特别常见的一种是瞬时的高频电流噪音。这也是模型内在的Bug，无法控制和预测。一旦遇到，一种解决方案是用Suno自己的Editor打开，不做编辑，另行保存一次，就有一定概率减少噪音；另一种方法是用Audacity声音编辑软件打开，使用Filter Curve EQ，Graph EQ，Notch Filter等频域上的过滤或编辑功能，削弱噪音所在频率范围的音量。

写在最后

我不是专业音乐人，《三个我的下午茶》这张专辑也只是一次AI歌曲创作的小实验。上面总结的经验、技巧不一定是最有效、最实用的，仅供参考。网上有很多专业的工作室、音乐人，以虚拟人方式制作了更加专业的单曲、专辑等，那些才是今天AI音乐的天花板。

客观说，今天Suno 5.5所代表的AI音乐创作，仅相当于初学作曲的学生水平。但作为工程师，我还是特别期待AI音乐模型的快速进步——也许明年我再做一张AI专辑时，就有机会得到有特色、打动人心的高水准音乐了。

另：如果对我写的诗歌感兴趣，可以移步到我的诗歌页面看看我写的其他诗歌作品。