Suno爆红不到一个月，文生音乐的头把交椅就要换了？

2024-04-18

不到一个月，Suno就走红了，文生音乐的头把交椅迎来了新的挑战者。——Udio。

前几天，一位知情人士透露，他看到了一个比Suno强两倍的AI音乐产品演示，这给了他自Sora以来最大的震撼。他认为AI音乐将以这种模式席卷全球。

AI音乐已经风靡全球两次。

AI孙燕姿在2023年初的出现，让孙燕姿自己说“人类无法超越AI”。

上个月，Suno的出现让音乐大家集体表示，低端编曲产业已不再需要存在。

比Suno还要强一倍？那么AI音乐的制作水平可能会淹没到著名制作人的脚上。

四月十日，这款将“改变音乐产业”的商品终于正式发布。究竟能不能比Suno高两倍？

Udio，将生成式音乐带到录音棚水准

Udio想称王靠的绝技就是“还原度”。

经过一轮深入检查，Udio确实在音质恢复方面击败了Suno。无论是器乐还是人声，Udio几乎都达到了混乱的水平。

那就是它敢于自称强于Suno两倍的自信。

过去的音乐生成软件也可以生成高达32kHz的音乐，但无论如何，它们离真实音乐总有一点“生成味”，即使是Suno也逃不掉。但是Udio基本上跨越了这个音质氧化的障碍。

比如“生成味”往往体现在声音和声音的联系上。在过去的音乐生成中，似乎总有一座桥在声音和声音之间发生变化，切割并不简单。但是Udio产生的音乐声音非常清晰。声音和声音之间的联系没有以前的音乐生成软件那么粘和清晰。

另一个“产生味道”的重灾区在于器乐的音质。在过去的合成音乐中，器乐有一种无果的擦拭声和一种有点突然秃顶的质感。然而，在Udio这里，器乐上几乎完全没有产生的音色，恢复真的达到了一个全新的高度。而且和弦更丰富，混响更饱满。

Udio在人声方面的改善更加清晰。Suno的“产生味道”相当明显，可能会在一句话的结尾或开头留下扭曲的残影。但是Udio的声音几乎达到了11。像Lab这样的合成音的真实性。

除了最容易识别的音质恢复，Udio在编曲的丰富性上并不逊色于Suno，可以产生多变的音乐开发部门。

但是我们基本上不知道为什么Udio能有这么好的效果，它在模型上做了什么。就像Suno一样，没有开源，没有论文，甚至没有技术博客。

致命的短板是挑战者的

在声音特征上，Udio的确“遥遥领先”。

但是它也有“致命的弱点”。Udio和C端的流行很可能会失去这些弱点。

最为致命的就是产生时间问题。

在腾讯科技之前，我们分析了Suno成功的原因，并将其定位为它能够理解音乐的长结构。默认情况下，它过去的产品的生成片段和理解能力控制在30s左右，所以我们根本无法理解音乐的结构，也无法形成完整的音乐。

但是Udio的默认生成长度也只有33秒。Suno的默认生成长度是1分半以上的三倍。这大约是六个歌词在自己的产品介绍中的长度。这个可以用吗？

所以Udio是否和它的前辈一样，无法理解曲子的结构？

不是。Udio提供了延伸生成的选项。过去AI音乐的延伸可能只是根据结构生成的，而不是根据结构生成的，因为它不能理解结构。与它们不同，在Udio的延伸中，你也可以选择延伸段落在结构中的哪一部分，它可以延伸引子和结尾，然后生成一首结构完整的音乐。

它表明Udio实际上可以理解整首歌曲的结构。

我尝试过《谢天谢帝》。它的延伸非常完美，保持了风格的一致性，理解了音乐的结构，正确制作了介绍。

然而，这一步其实相当复杂。如果你想形成一首完整的音乐，你必须至少延伸两次同一首音乐，增加一个开头和结尾，每次都需要独立生成。

更加可怕的是，它产生的时间是相当死板的，默认的33秒生成长度，你想再增加33秒。每一次增加都是固定的时间。对定制歌词的方法来说，这是非常不友好的。歌词很长，放不下，歌词很短，就像上面的例子一样，Udio可能会自动用生成的歌词填空。而且更糟糕的是，如果你写的歌词是中文的，那么Udio的中文生成支持是有限的，它只能无缘无故地产生一些呢喃。

事实上，我并不理解Udio这样设定的想法，即使是根据歌词长度来产生适应性，也远远优于现在的方法。

这一缺点会使创作受到完全不自由的限制。你们要根据音乐速度自己算出要多少句歌词，然后去填词。

一键生成的快乐游戏变成了写律诗。

其次是商品。

Udio的产品界面与Suno高度相似。边栏分为三个部分:探索广场/我的创作/我最喜欢的音乐库。音乐可以通过直接在上部输入Prompt来生成。

但是问题出在创作栏上。

下拉列表将出现在您生成音乐的过程中，具有三个比较重要的功能。

上面有一个开关，是“手动模式”。根据它的介绍，Udio会严格按照你的Prompt来制作手动模式下的音乐。如果不打开这个选项，模型会在生成之前自动润色你的指令翻译。

在中间，也可以选择音乐的类型，不要因为对你Prompt的误解而跑得太远。

以下是三个歌词选项，包括三个选项:“定制歌词”、“纯乐器”和“一键生成”。如果选择定制歌词，会有一个可以填充歌词的下拉框。

水平放置的Prompt窗口，过度压缩的功能界面。这些都会让用户有一种沉积感，让你觉得自己填不进去。

但是在Suno中，只要你进入创作界面，创作信息就在左栏，频道本身也提供了足够的上下两行文字框，减少了压缩感。但是在Udio这里，即使进入创作页面，它的创作栏总是在上面，仍然缺乏延伸感。这将大大降低创作者的输入主动性。

而且一种明显定位toC的创意商品，能否让用户有创意欲望才是核心的赢家。

所有的核心团队都来自谷歌期货项目。

去年12月，Udio背后的企业成立。Davidid是其核心成员。 Ding, Conor Durkan, Charlie Nash, Yaroslav Ganin, Andrew Sanchez，都是从谷歌Deepmind开始创业的。

这四位研究人员在业内并不出名，但是这家公司一经创业就获得了包括a16z和Instagram在内的知名度。 CTO Mike 像Krieger这样的硅谷大佬的投资。Krieger还对团队说了一句赞美的话：“这些技术合作伙伴是那些非常务实的人，因为我们的进步一直很快。”

那是肯定的。由于这个企业创立了三个核心技术人员，包括CEO David 在离开谷歌之前，Ding已经为谷歌最新的AI音乐生成软件Lyria做出了重要的研究。

(Lyria项目的声明和感谢部分)

(谷歌lyria项目博客页面)

去年11月谷歌首次发布Lyria产品时，引起了相当大的震惊。它的音色恢复水平超出了当年所有其他音乐的AI。尤其是声音恢复，水平相当惊人。即使和Udio相比，差别也不是很明显。

此时距离Suno诞生还有四个月。每个人都认为这一生成应用的完成率确实足以“改变音乐的未来”。

谷歌制定了一个雄心勃勃的计划，准备将其整合到Youtube中，作为一个没有版权配乐的短视频生产设备，并将其命名为Dream。 Track。

但事实上，到目前为止，你不能在Youtube上使用它。这个工具只在1-2月对Youtube上的一小群创作者开放，从未批量放开。

谷歌认真尝试，不敢放手。结果，Suno从天而降。这张本可能被视为音乐领域的Sora牌不会响。

而且从Udio的表现来看，我们也知道，它本来是可以响的。

这让我们想起了谷歌最初是行业领导者，Transformer模型提出者。显然，手头有类似ChatGPT的功能。的AI CahtBot，只是担心舆论不敢发表。最终被OpenAI划掉了时代，自己成了后来者。

这个习惯在2023年没有太大变化。谷歌的AI部门一直在发论文，但三四个月后才发布产品和模型。那些令人羡慕的新功能和尖端模型最终都是期货。

今天Udio的发布，让我们再一次确定：如果谷歌在AI时代被埋葬，那是因为他每天只发期货。

强大的理由，也是Udio的阿喀琉斯之后。

然而，谷歌并没有发布Lyria，也许是不得已而为之。由于它可能无法解决训练模型的版权问题。

过去OpenAI的成功证明了Scaling。实际效果。更多数据，更大的参数模型=更好的效果。

Suno和Udio突然突破了过去AI文学音乐的各种瓶颈，一方面依靠模型的进步。但是可以实现跨越性的突破，大量的数据是不可逾越的障碍。

当我在之前的文章中分析Suno的技术突破时，我提到了更多的训练材料，这可能是这个突破的关键。在过去的文学音乐模式中，谷歌、OpenAI和Meta给出的版权训练库只集中了30万小时左右的音乐，也就是150万首歌。

但是有多少音乐可以使用呢？基于Music Business 根据Worldwide的统计，到2022年底，Apple 确定曲库的Music有超过1亿首歌曲。当初，全球音乐集团CEO兼董事长卢西恩·格兰奇（Grainge）“在新加坡举行的”Music Matters“论坛上透露，每天大约有10万首新歌被上传到音乐流媒体平台。十五十万首歌，不过是可以用音乐的沧海一粟而已。

虽然Suno还没有被抓，但它有一个明确使用音乐家声音的情况。但仅仅两天后，Udio就被发现有相当多的异常歌曲。

他们确定Udio产生的音乐在滚石杂志的相关文章中是有用的。 Petty声音产生的演唱。在Twitter上，网络上会发现形成类似约翰·列侬声线的音乐。