Qwen2實測反饋
此前,Qwen1.5就在各大權威榜單和大模型競技場中,超越了國內幾乎所有大模型,無論是開源還是閉源。而這次發(fā)布的Qwen2,據說性能又有大幅提升,其中,Qwen2-72B的性能尤其優(yōu)越。本次發(fā)布的所有模型都能夠支持30多國語言,除了中文、英文之外,還增加了27種語言相關的高質量數據,提升了模型的多語言能力。
Qwen2所有尺寸模型都使用了GQA(分組查詢注意力)機制,以便讓用戶體驗到GQA帶來的推理加速和顯存占用降低的優(yōu)勢。Qwen2還增大了上下文長度支持,Qwen2-72B-Instruct能夠完美處理128k上下文長度內的信息抽取任務。
國內外的開發(fā)者都熱情高漲,更有網友實測Qwen2在醫(yī)學術語、翻譯方面更準確,并且編程和推理能力更強
光說不練假把式,這里先幫大伙試試
首先試試Qwen2文本生成的能力。
不得不說,這段確實很有《紅樓夢》的味道,妥妥的滿分作文。
接下來再來試試他的文本創(chuàng)造
Qwen2不但寫出了詩,還對詩的含義進行了解釋。
自打大模型爆火以來,「弱智吧」就成了檢測大模型能力的一項重要指標。下面測試一下Qwen2會不會被弱智吧的問題給繞進去。
從上面圖片可以看出來,Qwen2不但給出了正確答案,還給出很棒的建議。
前面說了Qwen2在編程和推理能力很強,下面通過同一道題對Qwen2-72B-Instruct和Llama-3-70B-Instruct進行了簡單的對比測試
由上面的結果可以看出兩款模型回答都是正確的,但Qwen的中文能力更強一些。
作為一名程序員,少不了要請教一些代碼相關的問題,只需要你提出需求,喝口水的功夫就寫完了。
從結果可以看出,可以正確理解要求并生成代碼。
更多關于常識、數學、編程等能力的效果,家人們可以親自去體驗一番了。
這一年Qwen上的榜單
不到一年時間,通義先后開源近10款不同尺寸的大語言模型、兩款多模態(tài)模型、一款混合專家模型、一款代碼大模型,不僅開源頻率和速度全球無二,模型的性能也隨著版本迭代而肉眼可見地進化,從Qwen-72B開始,逐漸步入全球大模型競爭的核心腹地,在權威榜單多次創(chuàng)造中國大模型的“首次”
其中Qwen-72B、Qwen1.5-110B登頂過HuggingFace Open LLM LeaderBoard (HF開源大模型排行榜)
Qwen-72B登頂上海人工智能實驗室·OpenCompass開源基座大模型榜單
Qwen1.5-0.5B、 Qwen1.5-1.8B、 Qwen1.5-4B在基準評測中與業(yè)界領先的小型模型相比,具有很強的競爭力
通義千問Qwen2系列模型大幅提升了代碼、數學、推理、指令遵循、多語言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等國際權威測評中,Qwen2-72B一舉斬獲十幾項世界冠軍,超過美國的Llama3。
阿里云開源的意義
阿里云是全球唯一一家積極研發(fā)先進AI 模型并且全方位開源的云計算廠商。2023年8月,阿里云成為國內首個宣布開源自研模型的科技企業(yè),推出通義千問第一代開源模型;2024年2月,1.5代開源模型Qwen1.5發(fā)布;不到4個月后,Qwen2開源。
可以說,Qwen是國內唯一出現(xiàn)在OpenAI視野里,可以參與國際競爭的國產大模型。
早些時候,還有人做了個LMSys榜單一年動態(tài)變化視頻。過去一年內,國產大模型只有Qwen多次沖進這份榜單,最早出現(xiàn)的是通義千問14B開源視頻Qwen-14B,后來,Qwen系列的72B、110B以及閉源版本Max接連進榜,得分一個比一次高,LMSys也曾官方發(fā)推認證通義千問開源模型的實力。在頂尖模型公司的競爭中,目前為止中國模型只有通義千問真正入局,能與頭部廠商一較高下。
此外,國內外有海量開發(fā)者都基于Qwen開發(fā)了自己的模型和應用,尤其是企業(yè)級的模型和應用。Qwen的很多忠實擁躉是海外開發(fā)者,他們時常在社交平臺發(fā)表“我們?yōu)槭裁礇]有這種模型”的溢美之詞。
通義大模型的快速迭代,在很大程度上也源于全球開發(fā)者的反饋,以及整個開源社區(qū)的生態(tài)支持。通義大模型用行動證明了開源開放的力量。所以我們也有理由相信,阿里在開源方面一定會越走越好!
對于我們個人來說,AI大模型是未來IT技術應用和發(fā)展的核心驅動力,作為程序員的我們,要緊跟時代,抓住機遇!
在哪里體驗Qwen2系列模型?
Qwen2系列已上線魔搭社區(qū)ModelScope和阿里云百煉平臺,開發(fā)者可在魔搭社區(qū)體驗、下載模型,或通過阿里云百煉平臺調用模型API。
同時, Qwen2-72b-instruct 模型已經上線中國大語言模型評測競技場Compass Arena,所有人都可以登錄體驗Qwen2的性能,或者選擇Qwen2模型與其他大模型進行對比測評。
測評地址:https://opencompass.org.cn/arena
好了,今天就說到這里。
轉載請注明來自浙江中液機械設備有限公司 ,本文標題:《通義千問Qwen2開源終于來了,我們立馬測試了!》
還沒有評論,來說兩句吧...