StarCoder 2 – BigCode推出的第二代開源代碼大模型

AI工具2年前 (2024)發佈新公告 AI管理員

10 0 0

StarCoder 2是什麼

StarCoder 2是由BigCode項目（Hugging Face和ServiceNow支持）聯合Nvidia的團隊開發的新一代大型代碼語言模型，使用來自 The Stack v2 數據集的 3.3 至 4.3 萬億個代碼 token 進行訓練，包含 600 多種編程語言，旨在爲代碼補全、編輯和推理任務提供強大的支持。該系列模型在前一代StarCoder模型的基礎上進一步擴展和改進而來，提供了不同規模的模型，包括3B（30億參數）、7B（70億參數）和15B（150億參數）參數的版本。

StarCoder 2 - BigCode推出的第二代開源代碼大模型

StarCoder 2的官網入口

Hugging Face模型集合：https://huggingface.co/collections/bigcode/starcoder2-65de6da6e87db3383572be1a
The Stack v2數據集：https://huggingface.co/datasets/bigcode/the-stack-v2
GitHub地址：https://github.com/bigcode-project/starcoder2
研究論文：https://drive.google.com/file/d/17iGn3c-sYNiLyRSY-A85QOzgzGnGiVI3/view?pli=1

StarCoder 2的主要特點

大規模訓練數據集：StarCoder2的訓練數據集（The Stack v2）基於Software Heritage（提供代碼存檔服務的非營利組織）的源代碼存檔，這是一個包含超過600種編程語言的龐大代碼庫。此外，還整合了其他高質量的數據源，如GitHub Pull Requests、Kaggle和Jupter Notebook代碼文檔，使得訓練集比第一代StarCoder大4倍。
多樣化的模型規模：StarCoder2提供了不同規模的模型，包括3B（30億參數）、7B（70億參數）和15B（150億參數）參數的版本，以適應不同的應用需求和資源限制。
高性能表現：在多個代碼LLM基準測試中，StarCoder 2的模型在代碼補全、編輯和推理任務上表現出色，尤其是在類似規模的其他模型（如DeepSeekCoder、StableCode、CodeLlama等）中，StarCoder2-3B和StarCoder2-15B都顯示出了領先的性能。
開放和透明：StarCoder 2的模型權重在OpenRAIL許可下發布，確保了訓練數據的完全透明度。允許研究人員和開發者獨立審計模型，並在遵守許可協議的前提下自由使用。
負責任的開發實踐：StarCoder 2的開發遵循負責任的AI原則，包括對個人隱私的保護、安全性考慮，以及對潛在的社會偏見和代表性偏見的警覺。