337P日本大胆欧美人视频_亚洲AV永久无码精品成人_精品久久久久久无码人妻中文字幕_国产精品99久久久久久宅男
剛剛,OpenAI震撼發(fā)布o(jì)1大模型!強(qiáng)化學(xué)習(xí)突破LLM推理極限

剛剛,OpenAI震撼發(fā)布o(jì)1大模型!強(qiáng)化學(xué)習(xí)突破LLM推理極限

linshuhui 2025-03-27 知乎 88 次瀏覽 0個評論

大模型領(lǐng)域的技術(shù)發(fā)展,今天起再次「從 1 開始」了。

大語言模型還能向上突破,OpenAI 再次證明了自己的實力。

北京時間 9 月 13 日午夜,OpenAI 正式公開一系列全新 AI 大模型,旨在專門解決難題。這是一個重大突破,新模型可以實現(xiàn)復(fù)雜推理,一個通用模型解決比此前的科學(xué)、代碼和數(shù)學(xué)模型能做到的更難的問題。

OpenAI 稱,今天在 ChatGPT 和大模型 API 中新發(fā)布的是該系列中的第一款模型,而且還只是預(yù)覽版 ——o1-preview。除了 o1,OpenAI 還展示了目前正在開發(fā)的下次更新的評估。

o1 模型一舉創(chuàng)造了很多歷史記錄。

首先,o1 就是此前 OpenAI 從山姆?奧特曼到科學(xué)家們一直在「高調(diào)宣傳」的草莓大模型。它擁有真正的通用推理能力。在一系列高難基準(zhǔn)測試中展現(xiàn)出了超強(qiáng)實力,相比 GPT-4o 有巨大提升,讓大模型的上限從「沒法看」直接上升到優(yōu)秀水平,不專門訓(xùn)練直接數(shù)學(xué)奧賽金牌,甚至能在博士級別的科學(xué)問答環(huán)節(jié)上超越人類專家。

奧特曼表示,雖然 o1 的表現(xiàn)仍然存在缺陷,不過你在第一次使用它的時候仍然會感到震撼。

其次,o1 給大模型規(guī)模擴(kuò)展 vs 性能的曲線帶來了一次上翹。它在大模型領(lǐng)域重現(xiàn)了當(dāng)年 AlphaGo 強(qiáng)化學(xué)習(xí)的成功 —— 給越多算力,就輸出越多智能,一直到超越人類水平。

也就是從方法上,o1 大模型首次證明了語言模型可以進(jìn)行真正的強(qiáng)化學(xué)習(xí)。

開發(fā)出首個 AI 軟件工程師 Devin 的 Cognition AI 表示,過去幾周一直與 OpenAI 密切合作,使用 Devin 評估 o1 的推理能力。結(jié)果發(fā)現(xiàn), 與 GPT-4o 相比,o1 系列模型對于處理代碼的智能體系統(tǒng)來說是一個重大進(jìn)步。

最后在實踐中,o1 上線之后,現(xiàn)在 ChatGPT 可以在回答問題前先仔細(xì)思考,而不是立即脫口而出答案。就像人類大腦的系統(tǒng) 1 和系統(tǒng) 2,ChatGPT 已經(jīng)從僅使用系統(tǒng) 1(快速、自動、直觀、易出錯)進(jìn)化到了可使用系統(tǒng) 2 思維(緩慢、深思熟慮、有意識、可靠)。這讓它能夠解決以前無法解決的問題。

從今天 ChatGPT 的用戶體驗來看,這是向前邁進(jìn)一小步。在簡單的 Prompt 下,用戶可能不會注意到太大的差異,但如果問一些棘手的數(shù)學(xué)或者代碼問題,區(qū)別就開始明顯了。更重要的是,未來發(fā)展的道路已經(jīng)開始顯現(xiàn)。

總而言之,今晚 OpenAI 丟出的這個重磅炸彈,已經(jīng)讓整個 AI 社區(qū)震撼,紛紛表示 tql、睡不著覺,深夜已經(jīng)開始抓緊學(xué)習(xí)。接下來,就讓我們看下 OpenAI o1 大模型的技術(shù)細(xì)節(jié)。

OpenAI o1 工作原理

在技術(shù)博客《Learning to Reason with LLMs》中,OpenAI 對 o1 系列語言模型做了詳細(xì)的技術(shù)介紹。

OpenAI o1 是經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練來執(zhí)行復(fù)雜推理任務(wù)的新型語言模型。特點就是,o1 在回答之前會思考 —— 它可以在響應(yīng)用戶之前產(chǎn)生一個很長的內(nèi)部思維鏈。

也就是該模型在作出反應(yīng)之前,需要像人類一樣,花更多時間思考問題。通過訓(xùn)練,它們學(xué)會完善自己的思維過程,嘗試不同的策略,并認(rèn)識到自己的錯誤。

在 OpenAI 的測試中,該系列后續(xù)更新的模型在物理、化學(xué)和生物學(xué)這些具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上的表現(xiàn)與博士生相似。OpenAI 還發(fā)現(xiàn)它在數(shù)學(xué)和編碼方面表現(xiàn)出色。

在國際數(shù)學(xué)奧林匹克(IMO)資格考試中,GPT-4o 僅正確解答了 13% 的問題,而 o1 模型正確解答了 83% 的問題。

模型的編碼能力也在比賽中得到了評估,在 Codeforces 比賽中排名 89%。

OpenAI 表示,作為早期模型,它還不具備 ChatGPT 的許多實用功能,例如瀏覽網(wǎng)頁獲取信息以及上傳文件和圖片。

但對于復(fù)雜的推理任務(wù)來說,這是一個重大進(jìn)步,代表了人工智能能力的新水平。鑒于此,OpenAI 將計數(shù)器重置為 1,并將該系列模型命名為 OpenAI o1。

重點在于,OpenAI 的大規(guī)模強(qiáng)化學(xué)習(xí)算法,教會模型如何在數(shù)據(jù)高度有效的訓(xùn)練過程中利用其思想鏈進(jìn)行高效思考。換言之,類似于強(qiáng)化學(xué)習(xí)的 Scaling Law。

OpenAI 發(fā)現(xiàn),隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時計算)和更多的思考時間(測試時計算),o1 的性能持續(xù)提高。而且擴(kuò)展這種方法的限制與大模型預(yù)訓(xùn)練的限制有很大不同,OpenAI 也還在繼續(xù)研究。

評估

為了突出相對于 GPT-4o 的推理性能改進(jìn),OpenAI 在一系列不同的人類考試和機(jī)器學(xué)習(xí)基準(zhǔn)測試中測試了 o1 模型。實驗結(jié)果表明,在絕大多數(shù)推理任務(wù)中,o1 的表現(xiàn)明顯優(yōu)于 GPT-4o。

                                   o1 在具有挑戰(zhàn)性的推理基準(zhǔn)上比 GPT-4o 有了很大的改進(jìn)。

                                  o1 在廣泛的基準(zhǔn)測試上比 GPT-4o 有所改進(jìn),包括 54/57 MMLU 子類別,圖示出了 7 個以供說明。

在許多推理密集型基準(zhǔn)測試中,o1 的表現(xiàn)可與人類專家相媲美。最近的前沿模型在 MATH 和 GSM8K 上表現(xiàn)得非常好,以至于這些基準(zhǔn)測試在區(qū)分模型方面不再有效。因此,OpenAI 在 AIME 上評估了數(shù)學(xué)成績,這是一項旨在測試美國最聰明高中數(shù)學(xué)學(xué)生的考試。

在一個官方演示中,o1-preview 解答了一個非常困難的推理問題:當(dāng)公主的年齡是王子的兩倍時,公主的年齡與王子一樣大,而公主的年齡是他們現(xiàn)在年齡總和的一半。王子和公主的年齡是多少?提供這個問題的所有解。

在 2024 年 AIME 考試中,GPT-4o 平均只解決了 12% (1.8/15) 的問題,而 o1 在每個問題只有一個樣本的情況下平均為 74% (11.1/15),在 64 個樣本之間達(dá)成一致的情況下為 83% (12.5/15),在使用學(xué)習(xí)的評分函數(shù)對 1000 個樣本重新排序時為 93% (13.9/15)。13.9 分可以躋身全美前 500 名,并且高于美國數(shù)學(xué)奧林匹克競賽分?jǐn)?shù)線。

OpenAI 還在 GPQA Diamond 基準(zhǔn)上評估了 o1,這是一個困難的智力基準(zhǔn),用于測試化學(xué)、物理和生物學(xué)方面的專業(yè)知識。為了將模型與人類進(jìn)行比較,OpenAI 聘請了擁有博士學(xué)位的專家來回答 GPQA Diamond 基準(zhǔn)問題。

實驗結(jié)果表明:o1 超越了人類專家的表現(xiàn),成為第一個在該基準(zhǔn)測試中做到這一點的模型。

這些結(jié)果并不意味著 o1 在所有方面都比博士更有能力 —— 只是該模型更擅長解決一些博士應(yīng)該解決的問題。在其他幾個 ML 基準(zhǔn)測試中,o1 實現(xiàn)了新的 SOTA。

啟用視覺感知能力后,o1 在 MMMU 基準(zhǔn)上得分為 78.2%,成為第一個與人類專家相當(dāng)?shù)哪P?。o1 還在 57 個 MMLU 子類別中的 54 個上優(yōu)于 GPT-4o。

思維鏈(CoT)

與人類在回答難題之前會長時間思考類似,o1 在嘗試解決問題時會使用思維鏈。通過強(qiáng)化學(xué)習(xí),o1 學(xué)會磨練其思維鏈并改進(jìn)其使用的策略。o1 學(xué)會了識別和糾正錯誤,并可以將棘手的步驟分解為更簡單的步驟。o1 還學(xué)會了在當(dāng)前方法不起作用時嘗試不同的方法。這個過程極大地提高了模型的推理能力。

編程能力

基于 o1 進(jìn)行了初始化并進(jìn)一步訓(xùn)練了其編程技能后,OpenAI 訓(xùn)練得到了一個非常強(qiáng)大的編程模型(o1-ioi)。該模型在 2024 年國際信息學(xué)奧林匹克競賽(IOI)賽題上得到了 213 分,達(dá)到了排名前 49% 的水平。并且該模型參與競賽的條件與 2024 IOI 的人類參賽者一樣:需要在 10 個小時內(nèi)解答 6 個高難度算法問題,并且每個問題僅能提交 50 次答案。

針對每個問題,這個經(jīng)過專門訓(xùn)練的 o1 模型會采樣許多候選答案,然后基于一個測試時選取策略提交其中 50 個答案。選取標(biāo)準(zhǔn)包括在 IOI 公共測試案例、模型生成的測試案例以及一個學(xué)習(xí)得到的評分函數(shù)上的性能。

研究表明,這個策略是有效的。因為如果直接隨機(jī)提交一個答案,則平均得分僅有 156。這說明在該競賽條件下,這個策略至少值 60 分。

OpenAI 發(fā)現(xiàn),如果放寬提交限制條件,則模型性能更是能大幅提升。如果每個問題允許提交 1 萬次答案,即使不使用上述測試時選取策略,該模型也能得到 362.14 分——可以得金牌了。

最后,OpenAI 模擬了 Codeforces 主辦的競爭性編程競賽,以展示該模型的編碼技能。采用的評估與競賽規(guī)則非常接近,允許提交 10 份代碼。GPT-4o 的 Elo 評分為 808,在人類競爭對手中處于前 11% 的水平。該模型遠(yuǎn)遠(yuǎn)超過了 GPT-4o 和 o1——它的 Elo 評分為 1807,表現(xiàn)優(yōu)于 93% 的競爭對手。

                                   在編程競賽上進(jìn)一步微調(diào)使得 o1 能力又增,并在 2024 年國際信息學(xué)奧林匹克競賽(IOI)規(guī)則下排名前 49%。

下面這個官方示例直觀地展示了 o1-preview 的編程能力:一段提示詞就讓其寫出了一個完整可運(yùn)行的游戲。

人類偏好評估

除了考試和學(xué)術(shù)基準(zhǔn)之外,OpenAI 還在更多領(lǐng)域的具有挑戰(zhàn)性的開放式提示上評估了人類對 o1-preview 和 GPT-4o 的偏好。

在這次評估中,人類訓(xùn)練者對 o1-preview 和 GPT-4o 的提示進(jìn)行匿名回答,并投票選出他們更喜歡的回答。在數(shù)據(jù)分析、編程和數(shù)學(xué)等推理能力較強(qiáng)的類別中,o1-preview 的受歡迎程度遠(yuǎn)遠(yuǎn)高于 GPT-4o。然而,o1-preview 在某些自然語言任務(wù)上并不受歡迎,這表明它并不適合所有用例。

                                 在需要更強(qiáng)大推理能力的領(lǐng)域,人們更青睞 o1-preview。

安全

思維鏈(CoT)推理為安全和對齊提供了新的思路。OpenAI 發(fā)現(xiàn),將模型行為策略整合到推理模型的思維鏈中,可以高效、穩(wěn)健地教導(dǎo)人類價值觀和原則。通過向模型教導(dǎo)自己的安全規(guī)則以及如何在上下文中推理它們,OpenAI 發(fā)現(xiàn)推理能力直接有利于模型穩(wěn)健性的證據(jù):o1-preview 在關(guān)鍵越獄評估和用于評估模型安全拒絕邊界的最嚴(yán)格內(nèi)部基準(zhǔn)上取得了顯著的改進(jìn)。

OpenAI 認(rèn)為,使用思維鏈可以為安全和對齊帶來重大進(jìn)步,因為 1)它能夠以清晰的方式觀察模型思維,并且 2)關(guān)于安全規(guī)則的模型推理對于分布外場景更具穩(wěn)健性。

為了對自己的改進(jìn)進(jìn)行壓力測試, OpenAI 在部署之前根據(jù)自己的安全準(zhǔn)備框架進(jìn)行了一系列安全測試和紅隊測試。結(jié)果發(fā)現(xiàn),思維鏈推理有助于在整個評估過程中提高能力。尤其值得注意的是,OpenAI 觀察到了有趣的獎勵黑客攻擊實例。

安全準(zhǔn)備框架鏈接:https://openai.com/safety/

隱藏思維鏈

OpenAI 認(rèn)為隱藏思維鏈為監(jiān)控模型提供了獨特的機(jī)會。假設(shè)它是忠實且清晰的,隱藏思維鏈?zhǔn)沟媚軌颉缸x懂」模型的思想并了解其思維過程。例如,人們將來可能希望監(jiān)控思維鏈以尋找操控用戶的跡象。

但要做到這一點,模型必須能夠自由地以未改變的形式表達(dá)其思想,因此不能在思維鏈方面訓(xùn)練進(jìn)行任何政策合規(guī)性或用戶偏好性訓(xùn)練。OpenAI 也不想讓用戶直接看到不一致的思維鏈。

因此,在權(quán)衡用戶體驗、競爭優(yōu)勢和追求思維鏈監(jiān)控的選項等多種因素后,OpenAI 決定不向用戶展示原始的思維鏈。OpenAI 承認(rèn)這個決定有不好的地方,因此努力通過教導(dǎo)模型在答案中重現(xiàn)思維鏈中的任何有用想法來部分彌補(bǔ)。同時,對于 o1 模型系列,OpenAI 展示了模型生成的思維鏈摘要。

可以說,o1 顯著提升了 AI 推理的最新水平。OpenAI 計劃在不斷迭代的過程中發(fā)布此模型的改進(jìn)版本,并期望這些新的推理能力將提高將模型與人類價值觀和原則相結(jié)合的能力。OpenAI 相信 o1 及其后續(xù)產(chǎn)品將在科學(xué)、編程、數(shù)學(xué)和相關(guān)領(lǐng)域為 AI 解鎖更多新用例。

OpenAI o1-mini

o1 是一個系列模型。這次 OpenAI 還一并發(fā)布了一個 mini 版 OpenAI o1-mini。該公司在博客中給出了 preview 和 mini 版的不同定義:「為了給開發(fā)者提供更高效的解決方案,我們也發(fā)布了 OpenAI o1-mini,這是一個尤其擅長編程的更快、更便宜的推理模型?!拐w來看,o1-mini 的成本比 o1-preview 低 80%。

由于 o1 等大型語言模型是在大量文本數(shù)據(jù)集上預(yù)訓(xùn)練,雖然具有廣泛世界知識,但對于實際應(yīng)用來說,可能成本高昂且速度慢。

相比之下,o1-mini 是一個較小的模型,在預(yù)訓(xùn)練期間針對 STEM 推理進(jìn)行了優(yōu)化。在使用與 o1 相同的高計算強(qiáng)化學(xué)習(xí) (RL) pipeline 進(jìn)行訓(xùn)練后, o1-mini 在許多有用的推理任務(wù)上實現(xiàn)了相媲美的性能,同時成本效率顯著提高。

比如在需要智能和推理的基準(zhǔn)測試中,與 o1-preview 和 o1 相比,o1-mini 表現(xiàn)良好。但它在需要非 STEM 事實知識的任務(wù)上表現(xiàn)較差。

數(shù)學(xué)能力:在高中 AIME 數(shù)學(xué)競賽中,o1-mini (70.0%) 與 o1 (74.4%) 不相上下,但價格卻便宜很多,并且優(yōu)于 o1-preview (44.6%)。o1-mini 的得分(約 11/15 個問題)大約位于美國前 500 名高中生之列。

編碼能力:在 Codeforces 競賽網(wǎng)站上,o1-mini 的 Elo 得分為 1650,與 o1 (1673) 不相上下,并且高于 o1-preview (1258)。此外,o1-mini 在 HumanEval 編碼基準(zhǔn)和高中網(wǎng)絡(luò)安全奪旗挑戰(zhàn) (CTF) 中也表現(xiàn)出色。

STEM:在一些需要推理的學(xué)術(shù)基準(zhǔn)上,例如 GPQA(科學(xué))和 MATH-500,o1-mini 的表現(xiàn)優(yōu)于 GPT-4o。o1-mini 在 MMLU 等任務(wù)上的表現(xiàn)則不如 GPT-4o,并且由于缺乏廣泛的世界知識而在 GPQA 基準(zhǔn)上落后于 o1-preview。

人類偏好評估:OpenAI 讓人類評分員在各個領(lǐng)域具有挑戰(zhàn)性的開放式提示上比較 o1-mini 和 GPT-4o。與 o1-preview 類似,在推理密集型領(lǐng)域,o1-mini 比 GPT-4o 更受歡迎;但在以語言為中心的領(lǐng)域,o1-mini 并不比 GPT-4o 更受歡迎。

在速度層面,OpenAI 比較了 GPT-4o、o1-mini 和 o1-preview 對一個單詞推理問題的回答。結(jié)果顯示,GPT-4o 回答不正確,而 o1-mini 和 o1-preview 均回答正確,并且 o1-mini 得出答案的速度快了大約 3-5 倍。

如何使用 OpenAI o1?

ChatGPT Plus 和 Team(個人付費(fèi)版與團(tuán)隊版)用戶馬上就可以在該公司的聊天機(jī)器人產(chǎn)品 ChatGPT 中開始使用 o1 模型了。你可以手動選取使用 o1-preview 或 o1-mini。不過,用戶的使用量有限。

目前,每位用戶每周僅能給 o1-preview 發(fā)送 30 條消息,給 o1-mini 發(fā)送 50 條消息。

是的,很少!不過 OpenAI 表示正在努力提升用戶的可使用次數(shù),并讓 ChatGPT 能自動針對給定提示詞選擇使用合適的模型。

至于企業(yè)版和教育版用戶,要到下周才能開始使用這兩個模型。

至于通過 API 訪問的用戶,OpenAI 表示達(dá)到了 5 級 API 使用量的開發(fā)者可以即刻開始使用這兩個模型開始開發(fā)應(yīng)用原型,但同樣也被限了速:20 RPM。什么是 5 級 API 使用量?簡單來說,就是已經(jīng)消費(fèi)了 1000 美元以上并且已經(jīng)是超過 1 個月的付費(fèi)用戶。請看下圖:

OpenAI 表示對這兩個模型的 API 調(diào)用并不包含函數(shù)調(diào)用、流式傳輸(streaming)、系統(tǒng)支持消息等功能。同樣,OpenAI 表示正在努力提升這些限制。

未來

剛剛,OpenAI震撼發(fā)布o(jì)1大模型!強(qiáng)化學(xué)習(xí)突破LLM推理極限

OpenAI 表示,未來除了模型更新之外,還將增加網(wǎng)絡(luò)瀏覽、文件和圖像上傳等功能,以讓這些模型變得更加有用。

「除了新的 o1 系列模型,我們計劃繼續(xù)開發(fā)和發(fā)布我們的 GPT 系列模型?!?/p>

參考內(nèi)容:

https://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/index/learning-to-reason-with-llms/

https://x.com/sama/status/1834283100639297910

轉(zhuǎn)載請注明來自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《剛剛,OpenAI震撼發(fā)布o(jì)1大模型!強(qiáng)化學(xué)習(xí)突破LLM推理極限》

百度分享代碼,如果開啟HTTPS請參考李洋個人博客
每一天,每一秒,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復(fù):

驗證碼

評論列表 (暫無評論,88人圍觀)參與討論

還沒有評論,來說兩句吧...

Top
 包頭快魚招聘信息最新  渭南通輝招聘信息最新  麗景書院招聘信息最新  基建區(qū)塊鏈最新信息價格  祥發(fā)路招聘信息最新  博遠(yuǎn)女團(tuán)最新信息發(fā)布  繁峙最新招聘信息女  柳州雙騰招聘信息最新  洞頭別墅求租最新信息  寧國最新工程招標(biāo)信息  發(fā)電機(jī)招聘信息最新  殯葬招聘信息網(wǎng)最新  石家莊瑞雪最新信息招聘  株洲最新信息網(wǎng)招聘  疾控最新信息長春疫情  支付寶最新理財信息  悅美國際最新信息平臺  番禺新水坑出租信息最新  育晨服飾招聘信息最新  響水披薩招聘信息最新  融澤汽車招聘信息最新  濱合畢方最新信息  顓橋龍湖招聘信息最新  西海龍宮招聘信息最新  開陽縣道路最新信息  云南祥云道路最新信息圖  最新信息西安疫情防控  廈門集美最新地塊信息  延邊州最新預(yù)警信息  上海返蕪湖最新通告信息 
337P日本大胆欧美人视频_亚洲AV永久无码精品成人_精品久久久久久无码人妻中文字幕_国产精品99久久久久久宅男