DeepSeek首次回应蒸馏OpenAI质疑：没有故意加入合成数据

雪哥

作者

发布于 2025-09-18 22:51:39 211

9月18日消息，近日，由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文登上国际权威期刊《Nature》封面，DeepSeek在论文中正面回应了有关模型蒸馏的质疑。

DeepSeek表示，DeepSeek-V3-Base的训练数据仅来自普通网页和电子书，不包含任何合成数据，在预训练冷却阶段，也没有故意加入OpenAI生成的合成数据，此阶段使用的数据都是通过网页抓取的。

不过，DeepSeek也承认已观察到一些网页包含大量OpenAI模型生成的答案，这可能导致基础模型间接受益于其他强大模型的知识。

此外，DeepSeek-V3-Base的数据截止时间为2024年7月，当时尚未发布任何公开的先进推理模型，这进一步降低了从现有推理模型中无意蒸馏的可能性。

DeepSeek还强调，R1并非通过复制OpenAI模型生成的推理示例来学习，只是和大多数其他大语言模型一样，R1的基础模型是在网络上训练的，因此它会吸收互联网上已有的AI生成的内容。

研究团队采用了纯强化学习框架，并引入组相对策略优化算法，仅依据最终答案的正确与否给予奖励，而非让模型模仿人类推理路径，让模型在实践中自然涌现出自我反思、自我验证等高级行为。

Hugging Face的机器学习工程师Lewis Tunstall也表示，现有证据已相当明确地表明，仅使用纯强化学习即可获得极高性能，DeepSeek的推理方案可能足够优秀而无须使用OpenAI模型进行蒸馏。

本文转载于快科技，文中观点仅代表作者个人看法，本站只做信息存储

阅读前请先查看【免责声明】本文来自网络或用户投稿，本站仅供信息存储,无商业用途。若本文侵犯了原著者的合法权益，可联系我们进行处理。转载请注明出处：https://m.cd100.cn/news/2606.html

海报