DCLM-7B – 蘋果公司與合作團隊推出的開源小模型

AI項目和框架12個月前發佈新公告 AI管理員

6 0 0

DCLM-7B 是什麼

DCLM-7B是由蘋果公司聯合研究團隊推出的70億參數開源小模型，性能超越Mistral-7B，接近Llama 3和Gemma。最近，蘋果公司作爲 DataComp-LM（DCLM）項目的研究機構之一，在 Hugging Face 上發佈了 DCLM-7B 開源模型。該模型基於240T Common Crawl數據，通過標準化的DCLM-POOL和OpenLM框架預訓練，實現了64%的5-shot MMLU準確率，訓練效率顯著。DCLM-7B的開源包括權重、訓練代碼和數據集，推動了LLM開源社區的發展，提供了高質量數據集DCLM-BASELINE，爲數據驅動的模型研究設立了新基準。

DCLM-7B – 蘋果公司與合作團隊推出的開源小模型

DCLM-7B 的技術原理

大規模數據集：DCLM-7B使用了從Common Crawl中提取的240萬億個令牌構成的標準化語料庫，爲模型提供了豐富的訓練數據。
數據篩選：通過模型基礎的過濾方法，從大規模數據集中篩選出高質量的訓練數據，是構建DCLM-7B的關鍵步驟。
OpenLM框架：基於OpenLM框架，DCLM-7B採用了有效的預訓練方案，提供了標準化的訓練流程和超參數設置。
標準化評估：DCLM-7B在53個下游任務上進行了標準化評估，有助於量化訓練集的優勢和侷限性。
模型架構：DCLM-7B採用的是decoder-only的Transformer模型架構，是一種常用於語言模型的深度學習架構。
訓練優化：在訓練過程中，DCLM-7B使用了特定的優化技術，如z-loss，以保持輸出logit的數值穩定性。
多尺度訓練：DCLM-7B在不同的計算規模上進行了訓練，從412M到7B參數的模型，有助於理解不同訓練規模對模型性能的影響。

DCLM-7B 的項目地址

項目官網：https://huggingface.co/apple/DCLM-7B
GitHub倉庫：https://github.com/mlfoundations/dclm
arXiv技術論文：https://arxiv.org/pdf/2406.11794

DCLM-7B 的適用人羣

AI研究人員：專注於自然語言處理和機器學習領域的科學家和學者。
軟件開發者：集成高級語言處理能力到應用程序中的技術人員。
數據分析師：處理和分析大量文本數據以獲取洞察力的專業人士。
教育技術專家：開發教育工具和交互式學習體驗的教育工作者。
企業決策者：利用AI優化業務流程和增強客戶服務的商業領袖。

# AI項目和框架

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

ReSyncer – 清華聯合百度推出的AI視頻編輯工具

earnbyshare2016

2 0

Agents – AIWaves公司推出的AI Agent開發工具

earnbyshare2016

1 0

Stable Fast 3D – Stability AI推出的AI新模型，0.5秒將圖片轉爲3D

earnbyshare2016

5 0

Grok-2 – xAI公司推出的新一代AI模型

earnbyshare2016

6 0

StableDrag – 騰訊聯合南京大學推出的AI圖像編輯框架

earnbyshare2016

1 0

Whisper-Medusa – aiOla推出的開源AI語音識別模型

earnbyshare2016

25 0

暫無評論

暫無評論...