在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI 突破傳統(tǒng)微調(diào),RFT 技術(shù)可精準定制 o4-mini 模型

2025/5/9 13:50:50 來源:IT之家 作者:故淵 責編:故淵

IT之家 5 月 9 日消息,科技媒體 marktechpost 今天(5 月 9 日)發(fā)布博文,報道稱 OpenAI 公司在其 o4-mini 推理模型上,推出了強化微調(diào)技術(shù)(Reinforcement Fine-Tuning, 簡稱 RFT),為定制基礎(chǔ)模型以適應(yīng)特定任務(wù)帶來了突破性工具。

OpenAI 的強化微調(diào)技術(shù)(RFT)將強化學習原理融入語言模型的微調(diào)過程。開發(fā)者不再僅依賴標注數(shù)據(jù),而是通過設(shè)計任務(wù)特定的評分函數(shù)(grader)來評估模型輸出。

這些評分函數(shù)根據(jù)自定義標準(如準確性、格式或語氣)為模型表現(xiàn)打分,模型則通過優(yōu)化獎勵信號逐步學習,生成符合期望的行為。這種方法尤其適合難以定義標準答案的復雜任務(wù),例如醫(yī)療解釋的措辭優(yōu)化,開發(fā)者可通過程序評估清晰度與完整性,指導模型改進。

o4-mini 是 OpenAI 于 2025 年 4 月發(fā)布的一款緊湊型推理模型,支持文本和圖像輸入,擅長結(jié)構(gòu)化推理和鏈式思維提示(chain-of-thought prompts)。

通過在 o4-mini 上應(yīng)用 RFT,OpenAI 為開發(fā)者提供了一個輕量但強大的基礎(chǔ)模型,適合高風險、領(lǐng)域特定的推理任務(wù),其計算效率高,響應(yīng)速度快,非常適合實時應(yīng)用場景。

多家早期采用者已展示 RFT 在 o4-mini 上的潛力,凸顯 RFT 在法律、醫(yī)療、代碼生成等領(lǐng)域的定制化優(yōu)勢,IT之家附上相關(guān)案例如下:

  • Accordance AI 開發(fā)稅務(wù)分析模型,準確率提升 39%;

  • Ambience Healthcare 優(yōu)化醫(yī)療編碼,ICD-10 分配性能提升 12 個百分點;

  • 法律 AI 初創(chuàng)公司 Harvey 提升法律文檔引文提取的 F1 分數(shù) 20%;

  • Runloop 改進 Stripe API 代碼生成,性能提升 12%;

  • 調(diào)度助手 Milo 和內(nèi)容審核工具 SafetyKit 也分別取得顯著進步。

使用 RFT 需完成四步:設(shè)計評分函數(shù)、準備高質(zhì)量數(shù)據(jù)集、通過 OpenAI API 啟動訓練任務(wù),以及持續(xù)評估和優(yōu)化。

RFT 目前向認證組織開放,訓練費用為每小時 100 美元,若使用 GPT-4o 等模型作為評分工具,額外按標準推理費率計費。OpenAI 還推出激勵措施,同意共享數(shù)據(jù)集用于研究的組織可享受 50% 的訓練費用折扣。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,AI,o4

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知