感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

2025-03-20 18:49:54国创vip

本站 3 月 20 日消息，昨日晚间，大模型训练、开发平台 Predibase 发布了一个完全托管、无服务器、端到端的强化微调平台，也是首个端到端强化微调（RFT）平台。

Predibase 表示，DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响，让很多人意识到强化学习微调对训练大模型的重要性。受此启发，他们开发了这个端到端无服务器强化微调平台。

与传统的监督式微调相比，RFT 不依赖大量的标注数据，而是通过奖励和自定义函数来完成持续地强化学习，同时支持无服务器和端到端训练方法，从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器，设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

为了展示 RFT 的强大，Predibase 基于阿里 Qwen2.5-Coder-32B-instruct 微调了一个专门用于将 PyTorch 代码翻译为 Triton 的模型 Predibase-T2T-32B-RFT，并根据其他更大的基础模型（包括 DeepSeek-R1、Claude 3.7 Sonnet 和 OpenAI o1）对内核正确性进行了基准测试。

与传统的监督式微调方法不同，Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为，以最少的标记数据优化下游任务质量。这使其成为专有 LLM 的高性价比、高性能替代方案。

通过 RFT，Predibase 在训练过程结合了冷启动监督式微调、强化学习和课程学习，并且只使用了十几个标记数据点。

在 Kernelbench 数据集上进行的基准测试显示，Qwen2.5-Coder-32B-instruct 经过强化后，其正确率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍，比 Claude 3.7 Sonnet 高出 4 倍以上，而模型占用的空间却小了一个数量级。

本站附开源地址：https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址：https://predibase.com/reinforcement-fine-tuning-playground

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

8713

175

上一篇：14岁女生手淫过度是否会导致不孕不育？下一篇：逆水寒手游佳夕又逢君灯谜答案公布-逆水寒手游佳夕又逢君灯谜答案是什么

同类推荐更多

《朋友的妈妈》中字头歌词如何打动你？深度解读歌词背后的情感与文化内涵

最火的玄机攻略阁

2025-03-25

《朋友的妈妈》中字头歌词的独特魅力《朋友的妈妈》是一首广为传唱的歌曲，这首歌凭借其独特的歌词和深刻的情感内涵，成为了许多听众心中的经典之作。特别是其中的“字头”歌词，很多人都对这些字眼印象深刻。它们不仅仅是简单的词语，而是承载了丰富的情感和寓意，给人留下了深刻的思考和回忆。这些字头歌词，不仅在曲调中增添了节奏感，还在歌迷心中激起了强烈的共鸣。歌曲的情感表达《朋友的妈妈》这首歌在情感表达上非

新品榜/热门榜

资讯推荐更多