2025-05-25
大模型数据合成新框架
麦吉尔大学提出统计可控的数据合成框架LLMSynthor,解决大模型自生成数据偏差与崩溃难题,为后训练阶段提供高质量、可扩展的“合成燃料”,降低对真实数据依赖。
2025-04-27
AI数据与人才争夺
OceanBase CTO亲掌AI一号位、谷歌601案例库、上海AI Lab开源垂域数据合成框架,显示“高质量数据+顶尖人才”已成AI下一阶段胜负手,企业组织架构随之重构。
2024-07-27
数据合成与对齐新法
华盛顿大学与Allen AI提出Magpie方法,利用LLM自回归特性全自动合成高质量指令数据,MacBook Air即可运行,缓解人工标注短缺;同时异质图学习框架stKeep登上Nat Commun,用空间转录组数据精准解析肿瘤微环境,显示AI for Science的数据创新仍在快速推进。