最近,一种百无聊赖又略带焦虑的情绪挥之不去。为了将这份复杂的心情转化为某种创造性的表达,我决定尝试一个全新的领域:利用 AI 来完成一首原创歌曲及其 MV 的制作。
令人震惊的是,这个过去可能需要耗费数月、涉及作词、作曲、编曲、演唱、视频拍摄、后期剪辑等繁琐流程的工程,在 AI 的协助下,我仅仅用了两三天就全部完成了。这不仅是一次技术实践,更是一场关于创作效率与未来可能性的深刻体验。
创作流程解析:我的 AI 工具链
整个过程的核心思路是:人类负责创意(作词),AI 负责执行(作曲、演唱、生成画面、后期处理)。
第一站:灵魂注入 - 作词
一切始于歌词。这首歌我命名为《新世代失业》,试图捕捉当下年轻人面对未来的迷茫与现实的冰冷。
我的观点: AI 时代,创意和情感的源头依然是人。
第二站:旋律与歌声 - ACE-Step 开源项目
作词完成后,我面临了最大的挑战:如何将文字变成歌曲?这里我使用了 ACE-Step。
【背景补充】 ACE-Step 是一个开源的 AI 歌曲创作项目,全称为
Awesome-Chinese-End-to-end-Singing-voice-synthesis-and-singing-voice-conversion。它能够根据用户提供的歌词、甚至只是简单的旋律哼唱,自动完成作曲、编曲和人声演唱,生成一首完整的歌曲。
虽然生成过程有点像“抽卡”,需要多次尝试才能得到满意的效果(我抽了多次卡,最终得出两个相对来说最好的版本),但它确实极大地压缩了创作时间,将作曲、演奏、演唱这些极具专业门槛的步骤一键包办。AI 在生成时对个别字词进行了微调,但整体上完美地承载了歌词的情感。
第三站:视觉呈现 - MV 的诞生
MV 的制作是另一个重头戏,我采用了一套“文生图 -> 图生视频 -> 口型同步 -> 剪辑”的流水线。
- 生成主角形象: 我使用「豆包」的文生图功能,生成了MV的女主角形象。
- 动态画面生成: 接着,利用「豆包」和
FramePack-Studio的图生视频功能,将静态的女主角图片转化为动态的视频片段。 - 口型同步与画质增强 (核心步骤): 这是最耗时也最关键的一步。为了让角色能够“演唱”歌曲,我对比测试了两款工具:
LatentSync1.5:一款开源的 AI 口型同步工具。它的优点是口型同步的效果相对精准自然,但缺点是处理速度非常慢,且生成视频的清晰度不高。更麻烦的是,如果视频原片中某些片段未能识别人脸,它会直接中断生成。FaceFusion:另一款功能强大的开源面部处理工具。它的口型同步效果虽然不如LatentSync精准,但在处理速度、易用性和功能多样性上都表现更优。
LatentSync1.5完成核心的口型同步,然后再利用FaceFusion强大的面部增强和清晰化功能,对不满意的低画质片段进行“二次加工”,提升整体的视觉质感。
(P.S. MV 成片里两种工具处理的片段都有,大家可以猜猜看哪部分是哪款工具的杰作) - 最终剪辑: 将所有生成好的视频素材导入传统剪辑软件,配合歌曲节奏,完成最终的 MV 剪辑。
作品呈现:《新世代失业》
- 作词: Rewrite Zeroth
- 演唱/作曲: 人工智能 (ACE-Step)
- MV制作: AI 工具链
- 版本一,男声演绎(YouTube):
- https://www.youtube.com/embed/LRMMvSSJuF8
- 版本二,女声演绎(YouTube):
- https://www.youtube.com/embed/ligQrj4VEDA
原始歌词
[Verse 1]
闹钟又催命地响
阳光刺眼却冰凉
一页页简历投向远方
回音是“系统繁忙”[Verse 2]
曾以为学有所长
能在这都市里发光
如今却像搁浅的船桨
找不到停靠的海港[Pre-Chorus]
十年寒窗的理想
换不来一纸聘状
摩天大楼的辉煌
照不亮我的迷茫[Chorus]
谁能告诉我方向 这世界是否正常
机器取代了胸膛 热情被现实埋葬
我呐喊直到缺氧 为何努力只换来空荡
这城市吞噬梦想 只留下滚烫的绝望[Verse 3]
西装革履的战场
微笑是标准的伪装
经验和学历都只是过场
潜规则更加嚣张[Verse 4]
父母期盼的目光
朋友关切的老样
每一次强颜欢笑的勉强
都在心底刻下新的伤[Pre-Chorus]
十年寒窗的理想
换不来一纸聘状
摩天大楼的辉煌
照不亮我的迷茫[Chorus]
谁能告诉我方向 这世界是否正常
机器取代了胸膛 热情被现实埋葬
我呐喊直到缺氧 为何努力只换来空荡
这城市吞噬梦想 只留下滚烫的绝望[Bridge]
难道就该这样 默默承受这荒唐
不 我的心还在烫 拒绝就这样投降
就算折断了翅膀 也要嘶吼着歌唱[Instrumental]
[Chorus]
谁能告诉我方向 这世界是否正常
机器取代了胸膛 热情被现实埋葬
我呐喊直到缺氧 为何努力只换来空荡
这城市吞噬梦想 只留下滚烫的绝望[Outro]
绝望...在蔓延...
空荡...这世间...
谁来...回答...我的明天...
(作品已发布在 YouTube,欢迎前往品鉴)
一些思考:效率的革命,而非创意的终结
这次经历让我感慨万千。回想去年,我同样是自己作词,然后使用类似 VOCALOID 的虚拟歌手技术(OpenUtau)进行翻唱和调教,再使用自己拍摄素材、后期剪辑特效,一整套流程走下来,花费了两三个月的时间。
而现在,借助 AI,一切被压缩到了几天之内。
这无疑是一场效率的革命。它极大地降低了技术门槛,让像我这样没有专业的音乐知识,不擅长作曲和演唱的普通人,也能将内心的想法和情感转化为完整的音乐作品。当然,我们也要看到,目前在线 AI 工具的便利性和速度远超本地部署,这背后是钞能力的较量。但好消息是,几乎所有环节都有效果不错的开源替代品,为普通个人创作者保留了低成本创作的可能性。
AI 不是来取代创意的,它是来将创意放大的。我们依然需要构思,需要表达,需要传递情感。AI 所做的,是为我们扫清了通往最终成品道路上的技术障碍。未来,或许人人都可以是导演,是歌手,是艺术家。
如果当年在我有空去做游戏开发、写小说的时候能够有 AI 的辅助,我又怎么会挖下这么多未填完的坑……
Comments NOTHING