首页 > 行业资讯 > 科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力

科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力

时间:2024-04-17 来源: 浏览:

科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力

原创 路雨晴 DeepTech深科技
DeepTech深科技

deeptechchina

DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

“同行们认为我们用大模型把音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。
并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 刘山松 研究员表示。
图丨刘山松(来源: 刘山松 )
近期,他所在的腾讯 ARC Lab 团队与新加坡国立大学 Sun Chenshuo 助理教授课题组联合开发了一种多模态音乐理解与生成大模型 M 2 Ugen ,能够满足用户对音乐理解和生成的需求,填补了多模态大模型在音乐领域的空白。
具体来说,该模型不仅可以理解音乐,还能在此基础上生成音乐。
前者指的是不但能对输入的音乐文件进行描述性的注解,而且可以回答用户与输入音乐文件相关的问题,比如音乐中包含哪些乐器等。
后者指的是不仅可以根据用户指令生成音乐,比如生成一段吉他弹奏的音乐,还能根据用户输入的图像或视频生成音乐。
图丨通过 M 2 Ugen  大模型进行多模态音乐理解和生成(来源: arXiv
近日,相关论文以《M 2 Ugen :借助大型语言模型的力量进行多模态音乐理解和生成》( M2Ugen: Multi-modal Music Understanding and Generation with the Power of Large Language Models )为题在预印本平台 arXiv  上发表[1]。
刘山松 和新加坡国立大学阿廷·萨克克尔·侯赛因( Atin Sakkeer Hussain )是第一作者, 刘山松 和 Sun Chenshuo 、腾讯 ARC Lab 单瀛 担任共同通讯作者。
图丨相关论文(来源: arXiv
当前,大语言模型领域正在蓬勃发展。该领域的从业者或利用它强大的推理能力,理解文本、图像等模态;或通过它理解人类意图,并生成图像、音乐等用户需要的内容。
然而,过去大多数基于大语言模型的研究仍然侧重于理解层面,只有少量将理解和生成结合起来的相关研究。
但具体到实际应用场景,用户对于理解和生成的需求往往是交织存在的。
例如,每到年末,许多员工都需要制作年终总结 PPT。如果想借助大语言模型完成这项工作,那么它不仅要具有理解能力,以便用户从中获得符合用户想法的 PPT 模版风格,还要拥有生成文字和插图的能力。
因此,理解和生成能力有必要被融合到同一款模型中。
就该成果而言,该团队为何选择将音乐作为研究的切入点?
据 刘山松 介绍,他在读博期间就从事音频研究,对音乐有着较为浓厚的兴趣。工作以后又发现许多用户都有配乐的实际需求。
“比如,视频制作者要想快速积累粉丝,就要制作出一个爆款视频引流。其中,选择合适的配乐非常重要。
不过,音乐对艺术鉴赏水平有一定要求,那些普通用户在选择时往往面临困难。此时就需要有一个能够帮助他们选择合适配乐,并提高创作效率的小助手。” 刘山松 表示。
另外,值得一提的是,该成果也是该课题组在前序研究 MU-LLaMA[2]基础上的延续。据了解,后者主要集中于单一的音乐理解任务,而 M 2 Ugen  则是在音乐理解的基础上,增加由多模态信息引导的音乐生成能力,让模型不仅仅可以理解音乐,也能够创作音乐。
“我们在 2023 年 9 月完成 MU-LLaMA 的投稿后,就开始了对 M 2 Ugen  的研究。” 刘山松 表示。
在调研和确定研究现状和研究目标之后,研究人员先选用 MERT、ViT 和 ViViT 这三个特征处理器,来分别处理音乐、图像和视频输入。
接着,将编码器的输出引入所选用的 LLaMA2 开源大模型,让其能够理解、处理多模态的输入,进而为下游任务做决策。
然后,再将理解和生成任务巧妙地结合在同一个大模型中。
最后,通过探索 AudioLDM 2 和 MusicGen 两款模型的使用,让模型得以具备生成音乐的能力。
在完成模型架构设计的基础上,他们搜集了目前市场上可以找到的所有开放版权音乐,并利用 MU-LLaMA 和一些视觉基础模型来生成文本/图像/视频到音乐的多模态数据集,从而助力 M 2 Ugen  模型的训练。
需要说明的是,拥有更多优质的开放数据,是发展生成式 AI 的关键。
“如果未来我们能够与更多专业机构合作,得到更多高质量的音乐训练数据,并解决版权和标注数据质量的问题,就能完成对该模型性能和表现的更进一步迭代。” Sun Chenshuo 表示。
在后续研究中,他们将继续迭代优化模型性能,提升模型泛化性,以更好地适应国内用户的需求。

参考资料:

1.S., Liu, A., Hussain.et al. M 2 Ugen : Multi-modal Music Understanding and Generation with the Power of Large Language Models.  arXiv :2311.11255. https://doi.org/10.48550/ arXiv .2311.11255

2. S., Liu, A., Hussain.et al. Music Understanding LLaMA:Advancing Text-To-Music Generation with Question Answering And Captioning.  arXiv :2308.11276v1. https://arxiv.org/abs/2308.11276

运营/排版:何晨龙

01/  科学家制备2英寸二硫化钼单晶薄膜,开关比接近10的9次方,推动亚纳米芯片走向实际应用
02/  科学家研发锂离子导体,结合机器学习与结构预测,为下一代固态电解质提供新可能性
03/  科学家打造绿氢制备新方法,每千瓦仅使用0.04克钌,所产绿氢单位价格逼近煤制氢价格
04/  科学家造出新型可降解离子弹性体,室温愈合效率大于99%,可用于数字光处理三维打印
05/  独家专访ASML CTO:不相信摩尔定律会终结,公司下一个大战略将是超数值孔径光刻机

下一条:返回列表
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。
相关推荐