Qwen2 – 阿里雲開源的新一代通義千問大模型

AI工具4個月前更新 AI管理員
7 0

Qwen2是什麼

Qwen2是由阿里雲通義千問團隊開源的新一代大語言模型,該系列涵蓋了從0.5B到72B不等的五個規模模型,在中文和英文基礎上增加了27種語言的高質量數據,大幅提升了模型的自然語言理解、代碼編寫、數學解題和多語言處理能力。Qwen2支持最長達128K tokens的上下文長度,優化了模型的泛化性和應用潛力。該系列模型在多個評測基準上表現優異,趕超Meta的Llama-3-70B,目前已在Hugging Face和ModelScope平台開源。

Qwen2 – 阿里雲開源的新一代通義千問大模型

Qwen2的模型信息

模型名稱 參數量 (B) 非Embedding參數量 (B) 是否使用GQA 是否Tie Embedding 上下文長度 (tokens)
Qwen2-0.5B 0.49 0.35 32K
Qwen2-1.5B 1.54 1.31 32K
Qwen2-7B 7.07 5.98 128K
Qwen2-57B-A14B 57.41 56.32 64K
Qwen2-72B-Instruct 72.71 70.21 128K
  • 參數量:模型總的參數數量,以B(十億)爲單位。
  • 非Embedding參數量:除去詞嵌入(Embedding)部分的參數數量。
  • 是否使用GQA:模型是否採用了GQA(Generalized Query Answering)技術。
  • 是否Tie Embedding:模型是否使用了輸入和輸出層共享參數的技術。
  • 上下文長度:模型能夠處理的最大上下文長度,以tokens爲單位。

Qwen2的官網入口

  • 官方博客介紹:https://qwenlm.github.io/zh/blog/qwen2/
  • GitHub地址:https://github.com/QwenLM/Qwen2
  • Hugging Face地址:https://huggingface.co/Qwen
  • ModelScope地址:https://modelscope.cn/organization/qwen
  • Hugging Face在線Demo:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct

Qwen2的模型評測

  • Qwen2系列在多個評測基準上表現出色,特別是在Qwen2-72B模型上,實現了大幅度的效果提升。
  • 在自然語言理解、知識、代碼、數學和多語言等多項能力上,Qwen2-72B顯著超越了當前領先的模型,如Llama-3-70B和Qwen1.5的110B模型。
  • 在16個基準測試中,Qwen2-72B-Instruct展現了在基礎能力和對齊人類價值觀方面的平衡,超越了Qwen1.5的72B模型,並與Llama-3-70B-Instruct相匹敵。

Qwen2 – 阿里雲開源的新一代通義千問大模型

Qwen2的模型亮點

  • 代碼 & 數學:Qwen2在代碼和數學方面的能力顯著提升,成功融合了CodeQwen1.5的經驗,並在多種編程語言上實現效果提升。數學能力通過大規模高質量數據支持,實現瞭解題能力的飛躍。
    Qwen2 – 阿里雲開源的新一代通義千問大模型
  • 長文本處理:Qwen2系列的Instruct模型在32k上下文長度上訓練,並通過技術如YARN擴展至更長上下文,Qwen2-72B-Instruct能完美處理128k上下文長度的信息抽取任務。
  • 安全性:在多語言不安全查詢類別中,Qwen2-72B-Instruct在安全性方面與GPT-4相當,且顯著優於Mistral-8x22B模型,減少了生成有害響應的比例。
  • 多語言能力:Qwen2在多語言評測中表現優異,增強了27種語言的處理能力,並優化了語言轉換問題,降低了模型發生語言轉換的概率。
© 版權聲明

相關文章

暫無評論

暫無評論...