《国际杂志》发布了DeepSeek大规模推理模型培训方
日期:2025-09-21 11:15 浏览:
中国新闻社,北京,9月18日(记者Sun Zifa),是一家专门针对大型语言模型(LLM)和通用人工智能(AGI)培训方法的中国公司,DeepSeek-R1采用了DeepSeek-R1,这是一个开源的人工智能(AI)模型,今年早些时候发布了人工智能(AI)模型,引起了很多关注。 9月17日晚上,北京的时间,培训方法在国际知名的学术期刊《自然》中在线发表。它宣布,AI技术背后的科学研究表明,纯粹的刺激研究可以改善大语言模型的推理能力,从而减少增强性能所需的人类输入工作。受过训练的模型比传统训练的大语言模型的表现更好,例如数学,编程竞赛和STEM的研究生水平(科学,技术,工程,数学)。相应的论文是DeepSeek的创始人Liang Wenfeng。 deepseek-ai他领导的团队说,放任像人一样的AI模型总是一个困难的问题。尽管大型语言模型已经显示出一些推理能力,但培训过程需要大量的计算资源。 Manu -Stolen指南可以改善这种类型的模型,鼓励其产生中间的推理措施,从而大大提高其在复杂任务中的性能。但是,此程序可能导致过度的计算成本并限制潜在的NIT扩展。 DeepSeek-AI团队介绍了DeepSeek-R1在人类行政管理下进行了深入培训阶段,以优化识别过程。该模型使用强化学习而不是人类实例来建立理解,降低培训和复杂性成本的步骤。在证明存在高质量的解决问题案例之后,DeepSeek-R1将获得一个模板来产生推理过程。该模型通过解决问题获得奖励,从而获得力量增强研究的影响。在研究AI性能的数学基准中,DeepSeek-R1-Zero和DeepSeek-R1分别得分77.9%和79.8%。此外,该模型在编程竞赛以及研究生级生物学,物理和Kemi级别问题方面还表现良好。 “自然”同时发表了国际同伴专家的文章,同时指出了当前版本的DeepSeek-R1对该能力有一定的限制,并有望在未来版本中改善。例如,该模型有时会混合语言,目前正在针对中文和英语进行优化;它对提示单词的敏感并需要精心设计的主动文字工程,这在某些活动(例如软件工程活动)上没有显着改善。 DeepSeek-AI团队得出的结论是,未来的研究可能着重于优化奖励流程,以确保可靠的推理和工作结果。 (超过)