Qwen2 – 阿里雲開源的新一代通義千問大模型

AI工具1年前 (2024)更新 AI管理員

8 0 0

Qwen2是什麼

Qwen2是由阿里雲通義千問團隊開源的新一代大語言模型，該系列涵蓋了從0.5B到72B不等的五個規模模型，在中文和英文基礎上增加了27種語言的高質量數據，大幅提升了模型的自然語言理解、代碼編寫、數學解題和多語言處理能力。Qwen2支持最長達128K tokens的上下文長度，優化了模型的泛化性和應用潛力。該系列模型在多個評測基準上表現優異，趕超Meta的Llama-3-70B，目前已在Hugging Face和ModelScope平台開源。

Qwen2的模型信息

模型名稱	參數量 (B)	非Embedding參數量 (B)	是否使用GQA	是否Tie Embedding	上下文長度 (tokens)
Qwen2-0.5B	0.49	0.35	是	是	32K
Qwen2-1.5B	1.54	1.31	是	是	32K
Qwen2-7B	7.07	5.98	是	否	128K
Qwen2-57B-A14B	57.41	56.32	是	否	64K
Qwen2-72B-Instruct	72.71	70.21	是	否	128K

參數量：模型總的參數數量，以B（十億）爲單位。
非Embedding參數量：除去詞嵌入（Embedding）部分的參數數量。
是否使用GQA：模型是否採用了GQA（Generalized Query Answering）技術。
是否Tie Embedding：模型是否使用了輸入和輸出層共享參數的技術。
上下文長度：模型能夠處理的最大上下文長度，以tokens爲單位。

Qwen2的官網入口

官方博客介紹：https://qwenlm.github.io/zh/blog/qwen2/
GitHub地址：https://github.com/QwenLM/Qwen2
Hugging Face地址：https://huggingface.co/Qwen
ModelScope地址：https://modelscope.cn/organization/qwen
Hugging Face在線Demo：https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct

Qwen2的模型評測

Qwen2系列在多個評測基準上表現出色，特別是在Qwen2-72B模型上，實現了大幅度的效果提升。
在自然語言理解、知識、代碼、數學和多語言等多項能力上，Qwen2-72B顯著超越了當前領先的模型，如Llama-3-70B和Qwen1.5的110B模型。
在16個基準測試中，Qwen2-72B-Instruct展現了在基礎能力和對齊人類價值觀方面的平衡，超越了Qwen1.5的72B模型，並與Llama-3-70B-Instruct相匹敵。

Qwen2 – 阿里雲開源的新一代通義千問大模型

Qwen2的模型亮點

代碼 & 數學：Qwen2在代碼和數學方面的能力顯著提升，成功融合了CodeQwen1.5的經驗，並在多種編程語言上實現效果提升。數學能力通過大規模高質量數據支持，實現瞭解題能力的飛躍。
長文本處理：Qwen2系列的Instruct模型在32k上下文長度上訓練，並通過技術如YARN擴展至更長上下文，Qwen2-72B-Instruct能完美處理128k上下文長度的信息抽取任務。
安全性：在多語言不安全查詢類別中，Qwen2-72B-Instruct在安全性方面與GPT-4相當，且顯著優於Mistral-8x22B模型，減少了生成有害響應的比例。
多語言能力：Qwen2在多語言評測中表現優異，增強了27種語言的處理能力，並優化了語言轉換問題，降低了模型發生語言轉換的概率。

# AI工具