大型模型也“刷模拟题”?复旦AI4S团队为解决模型数据稀缺问题提供了新的思路

03-25 09:19

原创 曾译萱 复旦大学


他说:“在真题有限的情况下,学生可以通过做模拟题来提高成绩,在基础模型训练中也建立了类似的思路。“复旦大学计算机科学技术学院颜波教授团队针对部分垂直领域基础模型培训中高质量数据稀缺的问题,创新性地提出了实现高数据利用率的基础模型培训框架,利用可控生成人工智能AIGC)生成生成数据,并使用“真实数据” 混合数据模式生成数据训练的基本模型。依靠这个框架来训练医学基础模型的性能。


日前,《自然生物医学工程》取得了相关成果。(Nature Biomedical Engineering)上,《数据高效、高性能医学基础模型训练策略》(A data-efficient strategy for building high-performing medical foundation models)发表论文。该策略采用生成式AI生成大规模生成数据,进而扩展有限的真实预训练数据集,为解决数据稀缺问题提供了新的思路。



基本模型是一种基于深度神经网络和自我监督的学习。(SSL)技术,在大规模、一般来源数据上训练的AI模型。与只能完成特定任务的专用AI模型相比,基础模型的独特性在于其强大的泛化能力。各种下游任务可以通过大规模数据预训练提取通用特性,垂直领域的基础模型可以完成。


然而,获取大规模优质数据面临挑战。以医疗为例,收集大规模真实数据集不仅成本高、耗时长,而且存在隐私泄露的风险。传统的基础模型训练方法在数据稀缺的情况下,如恶性肿瘤诊断、工业焊缝缺陷检测等,效果有限,难以推广。


如何在数据有限的情况下开发基础模型?在AIGC领域深耕10多年后,颜波团队将目光投向了AI生成的数据,选择了大量的生成数据进行模型学习,填补了目前真实数据的不足,实现了模型的“良好训练”。在少量公开的真实医学数据中,团队微调可控生成AI,整合特定疾病知识,根据疾病的概念生成大规模的医学数据集。在生成数据和有限的真实数据中,医学基础模型采用SSL技术进行预训练,以初始化模型参数,学习精确的医学表征。最后,团队通过对标签明确的基本模型进行监督和微调,使其适应特定的任务。




医学基础模型训练框架数据高效


如何保证模型训练中生成数据的有效性?一方面,生成的数据是基于真实的数据标签生成的,非常接近真实的数据特征;另一方面,团队在训练过程中引入条件混合和增强,使数据特征更加多样化。颜波用“做模拟题”来描述这个过程:


“真正的问题是有限的,但我们可以根据真正的问题写出更灵活、更多变的模拟问题。让学生先做模拟题,然后练习题,这样学生才能在考试中取得更好的成绩。从真实数据中诞生,具有丰富特色的合成数据,可以增加数据集的多样性,基本模型也可以“博学多才”,从而提高性能。”


按照这种方法,团队建立了第一个基于生成数据的视网膜基础模型RETFound-DE,利用16.7%的真实数据,即RETFound模型[1]性能相当于《自然》杂志在多项疾病诊断任务中报道的RETFound模型[1]。CXRFM-DE,采用20%的真实数据构建的胸片X光基础模型,也显示出良好的性能和泛化能力,进一步验证了训练框架的有效性。


除了智能医疗,这种创新的基础模型培训方法为所有因数据限制而难以构建基础模型的行业提供了新的解决方案。目前已初步应用于工业缺陷检测、监测异常分析、新材料设计、船舶发动机智能制造等行业实际痛点。在整个AI领域,缺乏高质量的数据是一个重要问题。颜波表示,“在算法方面,试图处理小样本问题的效果有限,在数据层面上取得突破为这个问题提供了新的思路。今后,这一理念将为智能制造、智能医疗等各行各业提供支持。”


这项研究也启发了促进生成数据的应用。该团队验证了生成数据在泛化能力、标记效率和训练效率方面的价值,并对生成数据在平衡样本分布、生成信息量控制、克服数据误差等方面的使用进行了详细探索。虽然生成数据在AI基础模型训练中表现出很大的潜力,但需要注意的是,过度依赖生成数据可能会影响泛化能力,引入数据误差,需要有效的验证和监督,以确保生成数据在AI模型训练中的正确使用。


这项工作由复旦大学计算机科学技术学院数字媒体实验室完成(https://dml.fudan.edu.cn/)。实验室博士生孙玉齐和年轻研究员谭伟敏博士是这项工作的第一个共同作者。颜波教授是通讯作者。作者还包括实验室博士生何瑞安、谷卓遥、陈思源和庞淼。这项研究得到了国家自然科学基金委员会和上海市科委的资助。


原文链接:


https://www.nature.com/articles/s41551-025-01365-0


Code:


https://github.com/Jonlysun/DERETFound


注解:


[1] Zhou, Y. et al. A foundation model for generalizable disease detection from retinal images. Nature 622, 156–163 (2023).


组 稿


校融媒体中心


文 字


曾译萱


图 片


被访者供图


责 编


殷梦昊


编 辑


郑艺


▼更多关于复旦新闻的信息,请关注复旦大学官网。继续滚动阅读下一篇轻触阅读原文。



向上滑动复旦大学,看下一个。


原题:“大模型也是“刷模拟题”?复旦AI4S团队提供了解决模型数据稀缺问题的新思路。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com