数据质量 - AI话题

2025-10-27

巨量引擎自研多模态大模型10分钟审90%广告，单季拦截84万违规素材；澳大利亚起诉微软Copilot订阅误导；研究称“垃圾”数据削弱大模型推理；AI搜索倾向引用不知名网站；AI模型模拟赌博显现成瘾迹象，技术与伦理、监管之间的摩擦进入高发期。

2025-09-18

Irregular获8000万美元融资成AI安全新独角兽，专注前沿模型风险预测；同时Meta、xAI加码高质量数据平台，中国澳鹏数据半年营收3亿，显示“数据即燃料”正成为AI竞争下半场核心。

2024-11-24

牛津、浙大、药大等团队利用机器学习改进小分子与 PROTAC 药物设计，指出数据质量是瓶颈；神经-AI 交叉网络、统计物理方法也被引入复杂系统建模，AI 正成为基础科研“加速器”。

2024-06-30

MMDU多图多轮对话数据集、LLM自诊断缺陷框架、4D开源81K数据集等相继发布，表明高质量数据与自动化评测已成为模型迭代的新战场，决定下一代大模型性能上限与落地可靠性。

2024-05-20

首个高光谱显著目标检测基准、DVQA、Exoplanets等10余个新数据集集中上线，为多模态、天文、医学等细分研究提供评测燃料；同时“数据量 vs 数据质量”再成焦点，研究给出量化选择框架，助力模型性能与成本最优平衡。

2024-05-17

尽管AI设计药物进入临床数量激增，但失败案例频发；最新机构测算显示AI辅助管线临床成功率翻倍，却仍未改变“绝对值低”的现实，行业呼吁更多高质量数据与实验验证以提升可信度。

2024-04-06

“弱智吧”语料被中科院等验证为最佳中文训练数据，8项评测第一；中科大发现大模型无需看图即可答视觉题，提示数据与评测方法仍存巨大优化空间。数据质量与评测公平性成为模型性能提升的关键变量。

2024-01-13

谷歌MIT联合研究提出用LLM自生成高质量数据，StarRocks 3.0实现湖仓一体极速分析，广发证券基于Kyuubi构建券商级数据治理层，显示大数据栈正围绕“降本、提速、易用”全面升级。

2024-01-11

大模型进入落地期，数据清洗、标注准确性、特征工程成为瓶颈；集智俱乐部、自然科学基金委等机构聚焦AI与数学、集成芯片基础，强调高质量数据与理论支撑对模型微调及产业化的决定性作用。

数据质量模型微调 AI理论数学基础

AI快开门