Suno爆红不到一个月,文生音乐的头把交椅就要换了?

04-18 07:12

不到一个月,Suno就走红了,文生音乐的头把交椅迎来了新的挑战者。——Udio。


前几天,一位知情人士透露,他看到了一个比Suno强两倍的AI音乐产品演示,这给了他自Sora以来最大的震撼。他认为AI音乐将以这种模式席卷全球。


AI音乐已经风靡全球两次。


AI孙燕姿在2023年初的出现,让孙燕姿自己说“人类无法超越AI”。


上个月,Suno的出现让音乐大家集体表示,低端编曲产业已不再需要存在。


比Suno还要强一倍?那么AI音乐的制作水平可能会淹没到著名制作人的脚上。


四月十日,这款将“改变音乐产业”的商品终于正式发布。究竟能不能比Suno高两倍?


Udio,将生成式音乐带到录音棚水准


Udio想称王靠的绝技就是“还原度”。


经过一轮深入检查,Udio确实在音质恢复方面击败了Suno。无论是器乐还是人声,Udio几乎都达到了混乱的水平。


那就是它敢于自称强于Suno两倍的自信。


过去的音乐生成软件也可以生成高达32kHz的音乐,但无论如何,它们离真实音乐总有一点“生成味”,即使是Suno也逃不掉。但是Udio基本上跨越了这个音质氧化的障碍。


比如“生成味”往往体现在声音和声音的联系上。在过去的音乐生成中,似乎总有一座桥在声音和声音之间发生变化,切割并不简单。但是Udio产生的音乐声音非常清晰。声音和声音之间的联系没有以前的音乐生成软件那么粘和清晰。


另一个“产生味道”的重灾区在于器乐的音质。在过去的合成音乐中,器乐有一种无果的擦拭声和一种有点突然秃顶的质感。然而,在Udio这里,器乐上几乎完全没有产生的音色,恢复真的达到了一个全新的高度。而且和弦更丰富,混响更饱满。


Udio在人声方面的改善更加清晰。Suno的“产生味道”相当明显,可能会在一句话的结尾或开头留下扭曲的残影。但是Udio的声音几乎达到了11。 像Lab这样的合成音的真实性。


除了最容易识别的音质恢复,Udio在编曲的丰富性上并不逊色于Suno,可以产生多变的音乐开发部门。


但是我们基本上不知道为什么Udio能有这么好的效果,它在模型上做了什么。就像Suno一样,没有开源,没有论文,甚至没有技术博客。


致命的短板是挑战者的


在声音特征上,Udio的确“遥遥领先”。


但是它也有“致命的弱点”。Udio和C端的流行很可能会失去这些弱点。


最为致命的就是产生时间问题。


在腾讯科技之前,我们分析了Suno成功的原因,并将其定位为它能够理解音乐的长结构。默认情况下,它过去的产品的生成片段和理解能力控制在30s左右,所以我们根本无法理解音乐的结构,也无法形成完整的音乐。


但是Udio的默认生成长度也只有33秒。Suno的默认生成长度是1分半以上的三倍。这大约是六个歌词在自己的产品介绍中的长度。这个可以用吗?


所以Udio是否和它的前辈一样,无法理解曲子的结构?


不是。Udio提供了延伸生成的选项。过去AI音乐的延伸可能只是根据结构生成的,而不是根据结构生成的,因为它不能理解结构。与它们不同,在Udio的延伸中,你也可以选择延伸段落在结构中的哪一部分,它可以延伸引子和结尾,然后生成一首结构完整的音乐。


它表明Udio实际上可以理解整首歌曲的结构。


我尝试过《谢天谢帝》。它的延伸非常完美,保持了风格的一致性,理解了音乐的结构,正确制作了介绍。


然而,这一步其实相当复杂。如果你想形成一首完整的音乐,你必须至少延伸两次同一首音乐,增加一个开头和结尾,每次都需要独立生成。


更加可怕的是,它产生的时间是相当死板的,默认的33秒生成长度,你想再增加33秒。每一次增加都是固定的时间。对定制歌词的方法来说,这是非常不友好的。歌词很长,放不下,歌词很短,就像上面的例子一样,Udio可能会自动用生成的歌词填空。而且更糟糕的是,如果你写的歌词是中文的,那么Udio的中文生成支持是有限的,它只能无缘无故地产生一些呢喃。


事实上,我并不理解Udio这样设定的想法,即使是根据歌词长度来产生适应性,也远远优于现在的方法。


这一缺点会使创作受到完全不自由的限制。你们要根据音乐速度自己算出要多少句歌词,然后去填词。


一键生成的快乐游戏变成了写律诗。


其次是商品。


Udio的产品界面与Suno高度相似。边栏分为三个部分:探索广场/我的创作/我最喜欢的音乐库。音乐可以通过直接在上部输入Prompt来生成。


但是问题出在创作栏上。


下拉列表将出现在您生成音乐的过程中,具有三个比较重要的功能。


上面有一个开关,是“手动模式”。根据它的介绍,Udio会严格按照你的Prompt来制作手动模式下的音乐。如果不打开这个选项,模型会在生成之前自动润色你的指令翻译。


在中间,也可以选择音乐的类型,不要因为对你Prompt的误解而跑得太远。


以下是三个歌词选项,包括三个选项:“定制歌词”、“纯乐器”和“一键生成”。如果选择定制歌词,会有一个可以填充歌词的下拉框。


水平放置的Prompt窗口,过度压缩的功能界面。这些都会让用户有一种沉积感,让你觉得自己填不进去。


但是在Suno中,只要你进入创作界面,创作信息就在左栏,频道本身也提供了足够的上下两行文字框,减少了压缩感。但是在Udio这里,即使进入创作页面,它的创作栏总是在上面,仍然缺乏延伸感。这将大大降低创作者的输入主动性。


而且一种明显定位toC的创意商品,能否让用户有创意欲望才是核心的赢家。


所有的核心团队都来自谷歌期货项目。


去年12月,Udio背后的企业成立。Davidid是其核心成员。 Ding, Conor Durkan, Charlie Nash, Yaroslav Ganin, Andrew Sanchez,都是从谷歌Deepmind开始创业的。


这四位研究人员在业内并不出名,但是这家公司一经创业就获得了包括a16z和Instagram在内的知名度。 CTO Mike 像Krieger这样的硅谷大佬的投资。Krieger还对团队说了一句赞美的话:“这些技术合作伙伴是那些非常务实的人,因为我们的进步一直很快。”


那是肯定的。由于这个企业创立了三个核心技术人员,包括CEO David 在离开谷歌之前,Ding已经为谷歌最新的AI音乐生成软件Lyria做出了重要的研究。


(Lyria项目的声明和感谢部分)


(谷歌lyria项目博客页面)


去年11月谷歌首次发布Lyria产品时,引起了相当大的震惊。它的音色恢复水平超出了当年所有其他音乐的AI。尤其是声音恢复,水平相当惊人。即使和Udio相比,差别也不是很明显。


此时距离Suno诞生还有四个月。每个人都认为这一生成应用的完成率确实足以“改变音乐的未来”。


谷歌制定了一个雄心勃勃的计划,准备将其整合到Youtube中,作为一个没有版权配乐的短视频生产设备,并将其命名为Dream。 Track。


但事实上,到目前为止,你不能在Youtube上使用它。这个工具只在1-2月对Youtube上的一小群创作者开放,从未批量放开。


谷歌认真尝试,不敢放手。结果,Suno从天而降。这张本可能被视为音乐领域的Sora牌不会响。


而且从Udio的表现来看,我们也知道,它本来是可以响的。


这让我们想起了谷歌最初是行业领导者,Transformer模型提出者。显然,手头有类似ChatGPT的功能。 的AI CahtBot,只是担心舆论不敢发表。最终被OpenAI划掉了时代,自己成了后来者。


这个习惯在2023年没有太大变化。谷歌的AI部门一直在发论文,但三四个月后才发布产品和模型。那些令人羡慕的新功能和尖端模型最终都是期货。


今天Udio的发布,让我们再一次确定:如果谷歌在AI时代被埋葬,那是因为他每天只发期货。


强大的理由,也是Udio的阿喀琉斯之后。


然而,谷歌并没有发布Lyria,也许是不得已而为之。由于它可能无法解决训练模型的版权问题。


过去OpenAI的成功证明了Scaling。 实际效果。更多数据,更大的参数模型=更好的效果。


Suno和Udio突然突破了过去AI文学音乐的各种瓶颈,一方面依靠模型的进步。但是可以实现跨越性的突破,大量的数据是不可逾越的障碍。


当我在之前的文章中分析Suno的技术突破时,我提到了更多的训练材料,这可能是这个突破的关键。在过去的文学音乐模式中,谷歌、OpenAI和Meta给出的版权训练库只集中了30万小时左右的音乐,也就是150万首歌。


但是有多少音乐可以使用呢?基于Music Business 根据Worldwide的统计,到2022年底,Apple 确定曲库的Music有超过1亿首歌曲。当初,全球音乐集团CEO兼董事长卢西恩·格兰奇(Grainge)“在新加坡举行的”Music Matters“论坛上透露,每天大约有10万首新歌被上传到音乐流媒体平台。十五十万首歌,不过是可以用音乐的沧海一粟而已。


虽然Suno还没有被抓,但它有一个明确使用音乐家声音的情况。但仅仅两天后,Udio就被发现有相当多的异常歌曲。


他们确定Udio产生的音乐在滚石杂志的相关文章中是有用的。 Petty声音产生的演唱。在Twitter上,网络上会发现形成类似约翰·列侬声线的音乐。



(一位专注于AI音乐的开发者质疑其中一位生成音乐和著名RapperCommon的声音重合度为99%)


Udio的CEO也很清楚这一点。


当MusicAlly接受采访时,David Ding在回答其信息来源时表示:“对于语言模型和图像模型,事实证明,为了获得高质量的导出,你必须练习大量高质量的输入。“但显然,这里的目标不是复制披头士乐队或类似的东西。如果我想重现披头士乐队,我可以直接听披头士乐队的歌。”


没有拷贝但是用了吧?



(在接受WSJ采访时,OpenAICTO米拉·穆拉蒂被问到Sora训练内容源时的经典尴尬表情)


另一位联创Sanchez很快补充道:“这就是为什么我们有非常强大的艺术家过滤器和版权重点,以确保我们不会反刍任何版权音乐。”


但是你不能用它来训练。最近,全球音乐和Concord都加入了一个名为“公平训练”的音乐家项目,呼吁音乐家的版权内容在未经允许的情况下被禁止练习。这基本上是音乐家内部的共识。


与文字或视频领域不同,有许多模糊的版权界限。音乐领域的版权墙一直是最高的。基本上所有的音乐都有相应的版权,从编曲到歌手的声音都是包罗万象的,这些版权都是由具体的音乐公司维护的。作为以内容为核心资产的企业,他们都有很强的诉讼能力。


即使谷歌手握Youtube,这也是谷歌。 Music的版权库,都不敢用它来训练AI。就算Lyria真的用了,它也不敢发布核心原因。


所以也许Udio在登上文生音乐之前,必须跌倒在版权上。


本文来自微信微信官方账号“腾讯科技”(ID:qqtech),作者:郝博阳,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com