从作词到MV，AIGC全流程创作实战：一首《新世代失业》的诞生记

最近，一种百无聊赖又略带焦虑的情绪挥之不去。为了将这份复杂的心情转化为某种创造性的表达，我决定尝试一个全新的领域：利用 AI 来完成一首原创歌曲及其 MV 的制作。

令人震惊的是，这个过去可能需要耗费数月、涉及作词、作曲、编曲、演唱、视频拍摄、后期剪辑等繁琐流程的工程，在 AI 的协助下，我仅仅用了两三天就全部完成了。这不仅是一次技术实践，更是一场关于创作效率与未来可能性的深刻体验。

创作流程解析：我的 AI 工具链

整个过程的核心思路是：人类负责创意（作词），AI 负责执行（作曲、演唱、生成画面、后期处理）。

第一站：灵魂注入 - 作词

一切始于歌词。这首歌我命名为《新世代失业》，试图捕捉当下年轻人面对未来的迷茫与现实的冰冷。

我的观点： AI 时代，创意和情感的源头依然是人。

第二站：旋律与歌声 - `ACE-Step` 开源项目

作词完成后，我面临了最大的挑战：如何将文字变成歌曲？这里我使用了 ACE-Step。

【背景补充】 ACE-Step 是一个开源的 AI 歌曲创作项目，全称为 Awesome-Chinese-End-to-end-Singing-voice-synthesis-and-singing-voice-conversion。它能够根据用户提供的歌词、甚至只是简单的旋律哼唱，自动完成作曲、编曲和人声演唱，生成一首完整的歌曲。

虽然生成过程有点像“抽卡”，需要多次尝试才能得到满意的效果（我抽了多次卡，最终得出两个相对来说最好的版本），但它确实极大地压缩了创作时间，将作曲、演奏、演唱这些极具专业门槛的步骤一键包办。AI 在生成时对个别字词进行了微调，但整体上完美地承载了歌词的情感。

第三站：视觉呈现 - MV 的诞生

MV 的制作是另一个重头戏，我采用了一套“文生图 -> 图生视频 -> 口型同步 -> 剪辑”的流水线。

生成主角形象： 我使用「豆包」的文生图功能，生成了MV的女主角形象。
动态画面生成： 接着，利用「豆包」和 FramePack-Studio 的图生视频功能，将静态的女主角图片转化为动态的视频片段。
口型同步与画质增强 (核心步骤)： 这是最耗时也最关键的一步。为了让角色能够“演唱”歌曲，我对比测试了两款工具：
- LatentSync1.5：一款开源的 AI 口型同步工具。它的优点是口型同步的效果相对精准自然，但缺点是处理速度非常慢，且生成视频的清晰度不高。更麻烦的是，如果视频原片中某些片段未能识别人脸，它会直接中断生成。
- FaceFusion：另一款功能强大的开源面部处理工具。它的口型同步效果虽然不如 LatentSync 精准，但在处理速度、易用性和功能多样性上都表现更优。
我的最终方案是：先用 LatentSync1.5 完成核心的口型同步，然后再利用 FaceFusion 强大的面部增强和清晰化功能，对不满意的低画质片段进行“二次加工”，提升整体的视觉质感。
(P.S. MV 成片里两种工具处理的片段都有，大家可以猜猜看哪部分是哪款工具的杰作)
最终剪辑： 将所有生成好的视频素材导入传统剪辑软件，配合歌曲节奏，完成最终的 MV 剪辑。

作品呈现：《新世代失业》

作词： Rewrite Zeroth
演唱/作曲： 人工智能 (ACE-Step)
MV制作： AI 工具链
版本一，男声演绎（YouTube）：
https://www.youtube.com/embed/LRMMvSSJuF8

版本二，女声演绎（YouTube）：
https://www.youtube.com/embed/ligQrj4VEDA

原始歌词

[Verse 1]
闹钟又催命地响
阳光刺眼却冰凉
一页页简历投向远方
回音是“系统繁忙”

[Verse 2]
曾以为学有所长
能在这都市里发光
如今却像搁浅的船桨
找不到停靠的海港

[Pre-Chorus]
十年寒窗的理想
换不来一纸聘状
摩天大楼的辉煌
照不亮我的迷茫

[Chorus]
谁能告诉我方向这世界是否正常
机器取代了胸膛热情被现实埋葬
我呐喊直到缺氧为何努力只换来空荡
这城市吞噬梦想只留下滚烫的绝望

[Verse 3]
西装革履的战场
微笑是标准的伪装
经验和学历都只是过场
潜规则更加嚣张

[Verse 4]
父母期盼的目光
朋友关切的老样
每一次强颜欢笑的勉强
都在心底刻下新的伤

[Pre-Chorus]
十年寒窗的理想
换不来一纸聘状
摩天大楼的辉煌
照不亮我的迷茫

[Chorus]
谁能告诉我方向这世界是否正常
机器取代了胸膛热情被现实埋葬
我呐喊直到缺氧为何努力只换来空荡
这城市吞噬梦想只留下滚烫的绝望

[Bridge]
难道就该这样默默承受这荒唐
不我的心还在烫拒绝就这样投降
就算折断了翅膀也要嘶吼着歌唱

[Instrumental]

[Chorus]
谁能告诉我方向这世界是否正常
机器取代了胸膛热情被现实埋葬
我呐喊直到缺氧为何努力只换来空荡
这城市吞噬梦想只留下滚烫的绝望

[Outro]
绝望...在蔓延...
空荡...这世间...
谁来...回答...我的明天...

（作品已发布在 YouTube，欢迎前往品鉴）

一些思考：效率的革命，而非创意的终结

这次经历让我感慨万千。回想去年，我同样是自己作词，然后使用类似 VOCALOID 的虚拟歌手技术（OpenUtau）进行翻唱和调教，再使用自己拍摄素材、后期剪辑特效，一整套流程走下来，花费了两三个月的时间。

而现在，借助 AI，一切被压缩到了几天之内。

这无疑是一场效率的革命。它极大地降低了技术门槛，让像我这样没有专业的音乐知识，不擅长作曲和演唱的普通人，也能将内心的想法和情感转化为完整的音乐作品。当然，我们也要看到，目前在线 AI 工具的便利性和速度远超本地部署，这背后是钞能力的较量。但好消息是，几乎所有环节都有效果不错的开源替代品，为普通个人创作者保留了低成本创作的可能性。

AI 不是来取代创意的，它是来将创意放大的。我们依然需要构思，需要表达，需要传递情感。AI 所做的，是为我们扫清了通往最终成品道路上的技术障碍。未来，或许人人都可以是导演，是歌手，是艺术家。

如果当年在我有空去做游戏开发、写小说的时候能够有 AI 的辅助，我又怎么会挖下这么多未填完的坑……