Qwen2是什麼
Qwen2是由阿里雲通義千問團隊開源的新一代大語言模型,該系列涵蓋了從0.5B到72B不等的五個規模模型,在中文和英文基礎上增加了27種語言的高質量數據,大幅提升了模型的自然語言理解、代碼編寫、數學解題和多語言處理能力。Qwen2支持最長達128K tokens的上下文長度,優化了模型的泛化性和應用潛力。該系列模型在多個評測基準上表現優異,趕超Meta的Llama-3-70B,目前已在Hugging Face和ModelScope平台開源。
Qwen2的模型信息
模型名稱 | 參數量 (B) | 非Embedding參數量 (B) | 是否使用GQA | 是否Tie Embedding | 上下文長度 (tokens) |
---|---|---|---|---|---|
Qwen2-0.5B | 0.49 | 0.35 | 是 | 是 | 32K |
Qwen2-1.5B | 1.54 | 1.31 | 是 | 是 | 32K |
Qwen2-7B | 7.07 | 5.98 | 是 | 否 | 128K |
Qwen2-57B-A14B | 57.41 | 56.32 | 是 | 否 | 64K |
Qwen2-72B-Instruct | 72.71 | 70.21 | 是 | 否 | 128K |
- 參數量:模型總的參數數量,以B(十億)爲單位。
- 非Embedding參數量:除去詞嵌入(Embedding)部分的參數數量。
- 是否使用GQA:模型是否採用了GQA(Generalized Query Answering)技術。
- 是否Tie Embedding:模型是否使用了輸入和輸出層共享參數的技術。
- 上下文長度:模型能夠處理的最大上下文長度,以tokens爲單位。
Qwen2的官網入口
- 官方博客介紹:https://qwenlm.github.io/zh/blog/qwen2/
- GitHub地址:https://github.com/QwenLM/Qwen2
- Hugging Face地址:https://huggingface.co/Qwen
- ModelScope地址:https://modelscope.cn/organization/qwen
- Hugging Face在線Demo:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct
Qwen2的模型評測
- Qwen2系列在多個評測基準上表現出色,特別是在Qwen2-72B模型上,實現了大幅度的效果提升。
- 在自然語言理解、知識、代碼、數學和多語言等多項能力上,Qwen2-72B顯著超越了當前領先的模型,如Llama-3-70B和Qwen1.5的110B模型。
- 在16個基準測試中,Qwen2-72B-Instruct展現了在基礎能力和對齊人類價值觀方面的平衡,超越了Qwen1.5的72B模型,並與Llama-3-70B-Instruct相匹敵。
Qwen2的模型亮點
- 代碼 & 數學:Qwen2在代碼和數學方面的能力顯著提升,成功融合了CodeQwen1.5的經驗,並在多種編程語言上實現效果提升。數學能力通過大規模高質量數據支持,實現瞭解題能力的飛躍。
- 長文本處理:Qwen2系列的Instruct模型在32k上下文長度上訓練,並通過技術如YARN擴展至更長上下文,Qwen2-72B-Instruct能完美處理128k上下文長度的信息抽取任務。
- 安全性:在多語言不安全查詢類別中,Qwen2-72B-Instruct在安全性方面與GPT-4相當,且顯著優於Mistral-8x22B模型,減少了生成有害響應的比例。
- 多語言能力:Qwen2在多語言評測中表現優異,增強了27種語言的處理能力,並優化了語言轉換問題,降低了模型發生語言轉換的概率。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...