新浪新闻客户端

大模型也“刷模拟题”?复旦AI4S团队为解决模型数据稀缺难题提供新思路

大模型也“刷模拟题”?复旦AI4S团队为解决模型数据稀缺难题提供新思路
2025年03月24日 08:31 新浪网 作者 热点聚焦

  转自:上观新闻

  “真题有限的情况下,学生可以通过做模拟题提高成绩,类似的逻辑在基础模型训练上也成立。”针对部分垂直领域基础模型训练中的高质量数据稀缺难题,复旦大学计算机科学技术学院颜波教授团队创新性地提出了一种实现数据高利用率的基础模型训练框架,利用可控生成式人工智能(AIGC)生成合成数据,并采用“真实数据+合成数据”的混合数据模式训练基础模型。依托该框架训练的医疗基础模型性能表现优秀。

  日前,相关成果在《自然·生物医学工程》(Nature Biomedical Engineering)上,以题为《数据高效的高性能医学基础模型训练策略》(A data-efficient strategy for building high-performing medical foundation models)的论文发表。该策略利用生成式AI生成大规模合成数据集,从而扩展有限的真实预训练数据集,为解决数据稀缺难题提供了新思路。

  基础模型是一种基于深度神经网络和自监督学习(SSL)技术,在大规模、广泛来源数据集上训练的AI模型。相较于只能完成特定任务的专用AI模型,基础模型的独特之处在于其强大的泛化能力。通过大规模数据预训练提取通用特征,垂直领域的基础模型可以完成各种不同下游任务。

  然而,大规模高质量数据的获取面临挑战。以医疗为例,收集大规模真实数据集不仅成本高昂、耗时漫长,还具有隐私泄露风险。在恶性肿瘤诊断、工业焊缝瑕疵检测等数据稀缺场景,传统基础模型训练方法效果受限,难以推广。

  在数据有限的情况下,如何开发基础模型?在AIGC领域深耕10余年,颜波团队将目光瞄准了AI合成数据,采用大量合成数据让模型学习,弥补现有真实数据的不足,实现让模型“训得好”。团队在少量公开的真实医学数据上微调可控生成式AI,整合特定疾病知识,并以疾病概念作为条件生成大规模合成医学数据集。医学基础模型先后在合成数据和有限真实数据上使用SSL技术预训练,以初始化模型参数并学习精确医学表征。最后,团队通过带明确标签的监督微调基础模型,使其适配特定任务。

  数据高效的医学基础模型训练框架

  如何确保合成数据在模型训练中的有效性?一方面,合成数据均基于真实数据标签生成,与真实数据特征非常接近;另一方面,团队在训练过程中引入条件混合增强,使数据特征更加多样。颜波用“做模拟题”比喻这一过程:

  “真题是有限的,但我们可以根据真题编写更加灵活、多变的模拟题。让学生先做模拟题了解题型、再做真题,学生考试就能考得更好。脱胎于真实数据、具有丰富特征的合成数据可以增加数据集的多样性,基础模型也能‘见多识广’,从而提升性能。”

  团队遵循该方法构建了首个基于合成数据的视网膜基础模型RETFound-DE,使用16.7%的真实数据即在多项疾病诊断任务中和《自然》杂志报道的RETFound模型[1]性能相当。使用20%真实数据构建的胸片X光基础模型CXRFM-DE同样展现了较好的性能和泛化能力,进一步验证了该训练框架的有效性。

  除了智慧医疗之外,该创新基础模型训练方法为所有因数据限制而难以构建基础模型的领域提供了新的解决方案,目前已经在工业界瑕疵检测、监控异常分析、新材料设计、和船舶发动机智能制造等产业实际痛难点中得到初步应用。高质量数据缺乏问题是所有AI领域均面临的重要问题。颜波介绍,“在算法层面尝试解决小样本问题效果有限,在数据层面进行突破为这一问题提供了新思路。未来,这一理念将为智能制造、智慧医疗等各行各业提供支持。”

  该研究还对推动合成数据的应用提供了启发。团队验证了合成数据在泛化能力、标注效率和训练效率上的价值,并详细探索了合成数据在均衡样本分布、合成数据量控制、克服数据偏差等方面的使用方式。尽管合成数据在AI基础模型训练中展现出巨大潜力,但需注意过度依赖合成数据可能影响泛化能力,并引入数据偏差,确保合成数据在AI模型训练中的正确使用,需要有效的验证和监管。

  该工作由复旦大学计算机科学技术学院数字媒体实验室完成(https://dml.fudan.edu.cn/)。实验室博士生孙玉齐和青年研究员谭伟敏博士为该工作的共同第一作者,颜波教授为通讯作者,作者还包括实验室博士生何瑞安,硕士生谷卓遥、陈思源、庞淼。该研究工作得到国家自然科学基金委和上海市科委项目资助。

  原文链接:

  https://www.nature.com/articles/s41551-025-01365-0

  Code:

  https://github.com/Jonlysun/DERETFound

  注释:

  [1] Zhou, Y. et al. A foundation model for generalizable disease detection from retinal images. Nature 622, 156–163 (2023).

  组 稿

  校融媒体中心

  文 字

  曾译萱

  图 片

  受访者供图

  责 编

  殷梦昊

  编 辑

  郑艺

  ▼更多复旦新闻,敬请留意复旦大学官方网站。

  特别声明:本文经上观新闻客户端的“上观号”入驻单位授权发布,仅代表该入驻单位观点,“上观新闻”仅为信息发布平台,如您认为发布内容侵犯您的相关权益,请联系删除!

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

权利保护声明页/Notice to Right Holders
0条评论|0人参与网友评论
最热评论

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2025 SINA Corporation

All Rights Reserved 新浪公司 版权所有