337P日本大胆欧美人视频_亚洲AV永久无码精品成人_精品久久久久久无码人妻中文字幕_国产精品99久久久久久宅男
美國硅谷巨頭神話崩塌,國產(chǎn)大模型DeepSeek在全球掀起復(fù)現(xiàn)狂潮

美國硅谷巨頭神話崩塌,國產(chǎn)大模型DeepSeek在全球掀起復(fù)現(xiàn)狂潮

zhangyanan 2025-03-07 快手 48 次瀏覽 0個評論

編輯:編輯部 HYZ

【新智元導(dǎo)讀】就在剛剛,網(wǎng)上已經(jīng)出現(xiàn)了一波復(fù)現(xiàn)DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等紛紛成功復(fù)現(xiàn),只用強(qiáng)化學(xué)習(xí),沒有監(jiān)督微調(diào),30美元就能見證「啊哈時刻」!全球AI大模型,或許正在進(jìn)入下一分水嶺。


這些天,硅谷徹底處于中國公司帶來的大地震余波中。

全美都在恐慌:是否全球人工智能的中心已經(jīng)轉(zhuǎn)移到了中國?

就在這當(dāng)口,全球復(fù)現(xiàn)DeepSeek的一波狂潮也來了。

誠如LeCun所言:「這一次,正是開源對閉源的勝利!」

圖片

在沒有頂級芯片的情況下,以極低成本芯片訓(xùn)出突破性模型的DeepSeek,或?qū)⑼{到美國的AI霸權(quán)。

大模型比拼的不再是動輒千萬億美元的算力戰(zhàn)。

OpenAI、Meta、谷歌這些大公司引以為傲的技術(shù)優(yōu)勢和高估值將會瓦解,英偉達(dá)的股價將開始動搖。

種種這些觀點(diǎn)和討論,讓人不禁懷疑:數(shù)百億美元支出,對這個行業(yè)真的必要嗎?甚至有人說,中國量化基金的一群天才,將導(dǎo)致納斯達(dá)克崩盤。

從此,大模型時代很可能會進(jìn)入一個分水嶺:超強(qiáng)性能的模型不再獨(dú)屬于算力巨頭,而是屬于每個人。

30美金,就能看到「啊哈」時刻

來自UC伯克利博士生潘家怡和另兩位研究人員,在CountDown游戲中復(fù)現(xiàn)了DeepSeek R1-Zero。

他們表示,結(jié)果相當(dāng)出色!

實驗中,團(tuán)隊驗證了通過強(qiáng)化學(xué)習(xí)RL,3B的基礎(chǔ)語言模型也能夠自我驗證和搜索。

更令人興奮的是,成本不到30美金(約217元),就可以親眼見證「啊哈」時刻。

圖片

這個項目叫做TinyZero,采用了R1-Zero算法——給定一個基礎(chǔ)語言模型、提示和真實獎勵信號,運(yùn)行強(qiáng)化學(xué)習(xí)。

然后,團(tuán)隊將其應(yīng)用在CountDown游戲中(這是一個玩家使用基礎(chǔ)算術(shù)運(yùn)算,將數(shù)字組合以達(dá)到目標(biāo)數(shù)字的游戲)。

模型從最初的簡單輸出開始,逐步進(jìn)化出自我糾正和搜索的策略。

在以下示例中,模型提出了解決方案,自我驗證,并反復(fù)糾正,直到解決問題為止。

圖片

在消融實驗中,研究人員運(yùn)行了Qwen-2.5-Base(0.5B、1.5B、3B、7B四種參數(shù)規(guī)模)。

結(jié)果發(fā)現(xiàn),0.5B模型僅僅是猜測一個解決方案然后停止。而從1.5B開始,模型學(xué)會了搜索、自我驗證和修正其解決方案,從而能夠獲得更高的分?jǐn)?shù)。

他們認(rèn)為,在這個過程,基礎(chǔ)模型是性能的關(guān)鍵。

圖片

他們還驗證了,額外的指令微調(diào)(SFT)并非是必要的,這也印證了R1-Zero的設(shè)計決策。

圖片

這是首個驗證LLM推理能力的實現(xiàn)可以純粹通過RL,無需監(jiān)督微調(diào)的開源研究

基礎(chǔ)模型和指令模型兩者區(qū)別:

圖片

此外,他們還發(fā)現(xiàn),具體的RL算法并不重要。PPO、GRPO、PRIME這些算法中,長思維鏈(Long CoT)都能夠涌現(xiàn),且?guī)聿诲e的性能表現(xiàn)。

圖片

而且,模型在推理行為中非常依賴于具體的任務(wù):

圖片

蘋果機(jī)器學(xué)習(xí)科學(xué)家Yizhe Zhang對此表示,太酷了,小到1.5B的模型,也能通過RL涌現(xiàn)出自我驗證的能力。

圖片

7B模型復(fù)刻,結(jié)果令人驚訝

港科大助理教授何俊賢的團(tuán)隊(共同一作黃裕振、Weihao Zeng),只用了8K個樣本,就在7B模型上復(fù)刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓(xùn)練。

結(jié)果令人驚喜——模型在復(fù)雜的數(shù)學(xué)推理上取得了十分強(qiáng)勁結(jié)果。

圖片

圖片

項目地址:https://github.com/hkust-nlp/simpleRL-reason

他們以Qwen2.5-Math-7B(基礎(chǔ)模型)為起點(diǎn),直接對其進(jìn)行強(qiáng)化學(xué)習(xí)。

整個過程中,沒有進(jìn)行監(jiān)督微調(diào)(SFT),也沒有使用獎勵模型。

最終,模型在AIME基準(zhǔn)上實現(xiàn)了33.3%的準(zhǔn)確率,在AMC上為62.5%,在MATH上為77.2%。

這一表現(xiàn)不僅超越了Qwen2.5-Math-7B-Instruct,并且還可以和使用超過50倍數(shù)據(jù)量和更復(fù)雜組件的PRIME和rStar-MATH相媲美!

圖片
圖片

其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基礎(chǔ)模型上僅使用純PPO方法訓(xùn)練的,僅采用了MATH數(shù)據(jù)集中的8K樣本。

Qwen2.5-7B-SimpleRL則首先通過Long CoT監(jiān)督微調(diào)(SFT)作為冷啟動,然后再進(jìn)行強(qiáng)化學(xué)習(xí)。

在這兩種方法中,團(tuán)隊都只使用了相同的8K MATH樣本,僅此而已。

大概在第44步的時候,「啊哈時刻」出現(xiàn)了!模型的響應(yīng)中,出現(xiàn)了自我反思。

圖片

并且,在這個過程中,模型還顯現(xiàn)了更長的CoT推理能力和自我反思能力。

圖片

在博客中,研究者詳細(xì)剖析了實驗設(shè)置,以及在這個強(qiáng)化學(xué)習(xí)訓(xùn)練過程中所觀察到的現(xiàn)象,例如長鏈?zhǔn)剿伎迹–oT)和自我反思機(jī)制的自發(fā)形成。

與DeepSeek R1類似,研究者的強(qiáng)化學(xué)習(xí)方案極其簡單,沒有使用獎勵模型或MCTS(蒙特卡洛樹搜索)類技術(shù)。

他們使用的是PPO算法,并采用基于規(guī)則的獎勵函數(shù),根據(jù)生成輸出的格式和正確性分配獎勵:

該實現(xiàn)基于OpenRLHF。初步試驗表明,這個獎勵函數(shù)有助于策略模型快速收斂,產(chǎn)生符合期望格式的輸出。

接下來,研究者為我們分享了訓(xùn)練過程動態(tài)分析和一些有趣的涌現(xiàn)模式。

訓(xùn)練過程動態(tài)分析

如下所示,所有基準(zhǔn)測試的準(zhǔn)確率在訓(xùn)練過程中都在穩(wěn)步提高,而輸出長度則呈現(xiàn)先減少后逐漸增加的趨勢。

經(jīng)過進(jìn)一步調(diào)查,研究者發(fā)現(xiàn),Qwen2.5-Math-7B基礎(chǔ)模型在初始階段傾向于生成大量代碼,這可能源于模型原始訓(xùn)練數(shù)據(jù)的分布特征。

輸出長度的首次下降,是因為強(qiáng)化學(xué)習(xí)訓(xùn)練逐漸消除了這種代碼生成模式,轉(zhuǎn)而學(xué)會使用自然語言進(jìn)行推理。

隨后,生成長度開始再次增加,此時出現(xiàn)了自我反思機(jī)制。

圖片

訓(xùn)練獎勵和輸出長度

圖片

基準(zhǔn)測試準(zhǔn)確率(pass@1)和輸出長度

自我反思機(jī)制的涌現(xiàn)

在訓(xùn)練到第 40 步左右時,研究者觀察到:模型開始形成自我反思模式,這正是DeepSeek-R1論文中所描述的「aha moment」(頓悟時刻)。

圖片

如前所述,研究者在進(jìn)行強(qiáng)化學(xué)習(xí)之前,先進(jìn)行了long CoT SFT預(yù)熱,使用了8,000個從QwQ-32B-Preview中提取的MATH示例響應(yīng)作為SFT數(shù)據(jù)集。

這種冷啟動的潛在優(yōu)勢在于:模型在開始強(qiáng)化學(xué)習(xí)時已具備long CoT思維模式和自我反思能力,從而可能在強(qiáng)化學(xué)習(xí)階段實現(xiàn)更快更好的學(xué)習(xí)效果。

圖片

與RL訓(xùn)練前的模型(Qwen2.5-Math-7B-Base + 8K QwQ知識蒸餾版本)相比,Qwen2.5-7B-SimpleRL的平均性能顯著提升了6.9個百分點(diǎn)。

此外,Qwen2.5-7B-SimpleRL不僅持續(xù)優(yōu)于Eurus-2-7B-PRIME,還在5個基準(zhǔn)測試中的3個上超越了Qwen2.5-7B-SimpleRL-Zero。

圖片

訓(xùn)練獎勵和輸出長度

圖片

基準(zhǔn)測試準(zhǔn)確率(pass@1)和輸出長度

Qwen2.5-SimpleRL的訓(xùn)練動態(tài)表現(xiàn)與Qwen2.5-SimpleRL-Zero相似。

有趣的是,盡管研究者先進(jìn)行了long CoT SFT,但在強(qiáng)化學(xué)習(xí)初期仍然觀察到輸出長度減少的現(xiàn)象。

他們推測,這可能是因為從QwQ提取的推理模式不適合小型策略模型,或超出了其能力范圍。

因此,模型選擇放棄這種模式,轉(zhuǎn)而自主發(fā)展新的長鏈?zhǔn)酵评矸绞健?/span>

最后,研究者用達(dá)芬奇的一句話,對這項研究做了總結(jié)——

簡約,便是最終極的精致。

圖片

完全開源復(fù)刻,HuggingFace下場了

甚至,就連全球最大開源平臺HuggingFace團(tuán)隊,今天官宣復(fù)刻DeepSeek R1所有pipeline。

復(fù)刻完成后,所有的訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本等等,將全部開源。

圖片

這個項目叫做Open R1,當(dāng)前還在進(jìn)行中。發(fā)布到一天,星標(biāo)沖破1.9k,斬獲142個fork。

圖片

項目地址:https://github.com/huggingface/open-r1

研究團(tuán)隊以DeepSeek-R1技術(shù)報告為指導(dǎo),將整個復(fù)刻過程劃分為三個關(guān)鍵步驟。

圖片

從斯坦福到MIT,R1成為首選

一個副業(yè)項目,讓全世界科技大廠為之惶恐。

DeepSeek這波成功,也成為業(yè)界的神話,網(wǎng)友最新截圖顯示,這款應(yīng)用已經(jīng)在APP Store應(yīng)用榜單登頂。

圖片

在Hugging Face中,R1下載量直接登頂,另外3個模型也霸占著熱榜。

圖片

a16z合伙人Anjney Midha稱,一夜之間,從斯坦福到MIT,DeepSeek R1已經(jīng)成為美國頂尖高校研究人員「首選模型」。

圖片

還有研究人員表示,DeepSeek基本上取代了我用ChatGPT的需求。

圖片

中國AI,這一次真的震撼了世界。

參考資料:

https://x.com/junxian_he/status/1883183099787571519

https://x.com/jiayi_pirate/status/1882839370505621655

轉(zhuǎn)載請注明來自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《美國硅谷巨頭神話崩塌,國產(chǎn)大模型DeepSeek在全球掀起復(fù)現(xiàn)狂潮》

百度分享代碼,如果開啟HTTPS請參考李洋個人博客
每一天,每一秒,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復(fù):

驗證碼

評論列表 (暫無評論,48人圍觀)參與討論

還沒有評論,來說兩句吧...

Top
 呂梁雙池招聘信息最新  御嶺灣招聘信息最新  北海洗碗工招聘信息最新  睢寧客服最新招聘信息  黃岡船長最新招聘信息  玉州分局領(lǐng)導(dǎo)信息最新  牡丹江信息招聘最新  水頭蟠龍村租房信息最新  雞冠區(qū)拆遷最新信息  本溪最新拍賣信息網(wǎng)  膠州最新招聘電工信息  宜順市最新數(shù)據(jù)信息  附近公寓最新信息網(wǎng)  龍巖焊工最新招聘信息  新北區(qū)店鋪轉(zhuǎn)讓信息最新  新疆的高鐵最新信息  微山公安網(wǎng)最新信息  八士中學(xué)招聘信息最新  桂平最新房出售信息大全  中國造車最新信息價格  寧波監(jiān)理最新招聘信息  最新貸款騙局信息大全  北京各區(qū)疫情新信息最新  家順世紀(jì)招聘信息最新  珠海金灣區(qū)最新新盤信息  領(lǐng)帝酒吧招聘信息最新  富拉爾基招聘信息最新  21屆校園招聘信息最新  臨沂店鋪最新出租信息  茅山護(hù)理院招聘信息最新 
337P日本大胆欧美人视频_亚洲AV永久无码精品成人_精品久久久久久无码人妻中文字幕_国产精品99久久久久久宅男