AI訓練模型

Gemma

Gemma是什麼 Gemma是由谷歌De...

標籤:

Gemma是什麼

Gemma是由谷歌DeepMind和谷歌的其他團隊開發的一系列輕量級、先進的開放AI模型,基於與Gemini模型相同的技術,旨在幫助開發者和研究人員構建負責任的AI應用。Gemma模型系列包括兩種權重規模的模型:Gemma 2B 和 Gemma 7B,提供預訓練和指令微調版本,支持多種框架,如JAX、PyTorch和TensorFlow,以在不同設備上高效運行。

Gemma

Gemma的官方入口

Gemma的主要特性

  • 輕量級架構:Gemma模型設計爲輕量級,便於在多種計算環境中運行,包括個人電腦和工作站。
  • 開放模型:Gemma模型的權重是開放的,允許用戶在遵守許可協議的情況下進行商業使用和分發。
  • 預訓練與指令微調:提供預訓練模型和經過指令微調的版本,後者通過人類反饋強化學習(RLHF)來確保模型行爲的負責任性。
  • 多框架支持:Gemma支持JAX、PyTorch和TensorFlow等主要AI框架,通過Keras 3.0提供工具鏈,簡化了推理和監督微調(SFT)過程。
  • 安全性與可靠性:在設計時,Gemma遵循Google的AI原則,使用自動化技術過濾訓練數據中的敏感信息,並進行了一系列安全評估,包括紅隊測試和對抗性測試。
  • 性能優化:Gemma模型針對NVIDIA GPU和Google Cloud TPUs等硬件平台進行了優化,確保在不同設備上都能實現高性能。
  • 社區支持:Google提供了Kaggle、Colab等平台的免費資源,以及Google Cloud的積分,鼓勵開發者和研究人員利用Gemma進行創新和研究。
  • 跨平台兼容性:Gemma模型可以在多種設備上運行,包括筆記本電腦、台式機、物聯網設備和雲端,支持廣泛的AI功能。
  • 負責任的AI工具包:Google還發布了Responsible Generative AI Toolkit,幫助開發者構建安全和負責任的AI應用,包括安全分類器、調試工具和應用指南。

Gemma

Gemma的技術要點

  • 模型架構:Gemma基於Transformer解碼器構建,這是當前自然語言處理(NLP)領域最先進的模型架構之一。採用了多頭注意力機制,允許模型在處理文本時同時關注多個部分。此外,Gemma還使用了旋轉位置嵌入(RoPE)來代替絕對位置嵌入,以減少模型大小並提高效率。GeGLU激活函數取代了標準的ReLU非線性激活,以及在每個Transformer子層的輸入和輸出都進行了歸一化處理。
  • 訓練基礎設施:Gemma模型在Google的TPUv5e上進行訓練,這是一種專爲機器學習設計的高性能計算平台。通過在多個Pod(芯片集羣)上進行模型分片和數據複製,Gemma能夠高效地利用分佈式計算資源。
  • 預訓練數據:Gemma模型在大量英語數據上進行預訓練(2B模型大約2萬億個token的數據上預訓練,而7B模型則基於6萬億個token),這些數據主要來自網絡文檔、數學和代碼。預訓練數據經過過濾,以減少不想要或不安全的內容,同時確保數據的多樣性和質量。
  • 微調策略:Gemma模型通過監督式微調(SFT)和基於人類反饋的強化學習(RLHF)進行微調。這包括使用合成的文本對和人類生成的提示響應對,以及基於人類偏好數據訓練的獎勵模型。
  • 安全性和責任:Gemma在設計時考慮了模型的安全性和責任,包括在預訓練階段對數據進行過濾,以減少敏感信息和有害內容的風險。此外,Gemma還通過了一系列的安全性評估,包括自動化基準測試和人類評估,以確保模型在實際應用中的安全性。
  • 性能評估:Gemma在多個領域進行了廣泛的性能評估,包括問答、常識推理、數學和科學問題解答以及編碼任務。Gemma模型與同樣規模或更大規模的開放模型進行了性能對比,在MMLU、MBPP等18個基準測試中,有11個測試結果超越了Llama-13B或Mistral-7B等模型。
  • 開放性和可訪問性:Gemma模型以開源的形式發佈,提供了預訓練和微調後的檢查點,以及推理和部署的開源代碼庫。這使得研究人員和開發者能夠訪問和利用這些先進的語言模型,推動AI領域的創新。

常見問題

Gemma一詞的含義是什麼?
Gemma在拉丁語中的意思是“寶石”。
Gemma是開源的嗎?
Gemma是開源開放的大模型,用戶可在Hugging Face查看和下載其模型。
Gemma模型的參數量是多少?
Gemma目前提供20億和70億參數量的模型,後續還會推出新的變體。

數據統計

相關導航

暫無評論

暫無評論...