AMD-135M – AMD推出的首款小型語言模型

AI工具1個月前發佈新公告 AI管理員
0 0

AMD-135M是什麼

AMD-135M是AMD推出的首款小型語言模型(SLM),爲特定用例提供性能與資源消耗之間的平衡。基於LLaMA2模型架構,在AMD Instinct MI250加速器上訓練,基於670億個token,AMD-135M分爲兩個版本,通用文本的AMD-Llama-135M和針對代碼的AMD-Llama-135M-code。AMD-135M採用推測解碼技術,能在每次前向傳遞中生成多個token,提高推理速度減少內存佔用。在性能方面,AMD-135M 在各種自然語言處理任務上的表現與市場上其他同類模型相當。例如,在 Humaneval 數據集上使用 MI250 GPU 時,實現大約 32.31% 的通過率,是一個強大的性能指標 。

AMD-135M – AMD推出的首款小型語言模型

AMD-135M的主要功能

  • 文本生成:能生成連貫的文本,支持聊天機器人、內容創作等應用。
  • 代碼生成:基於微調版本AMD-Llama-135M-code,支持代碼生成和輔助編程。
  • 自然語言理解:理解輸入文本的意圖和上下文,用於問答系統、摘要生成等。
  • 多平台兼容性:在不同的硬件平台上運行,包括AMD的GPU和CPU。

AMD-135M的技術原理

  • 推測解碼:通過小型草稿模型生成候選token,再由大型目標模型驗證,提高推理效率。
  • 自迴歸方法:傳統的生成方法,每次前向傳遞生成一個token,但通過推測解碼技術得到優化。
  • 多頭注意力機制:使用多頭注意力機制來提高模型對文本中不同部分之間關係的捕捉能力。
  • 位置編碼:使用相對位置編碼(RoPE)來保持序列中單詞的順序信息。
  • 激活函數:使用Swiglu激活函數,這是一種專爲語言模型設計的激活函數。
  • Layer Norm:使用RMSNorm(Root Mean Square Normalization)來穩定訓練過程。
  • 模型架構:基於LLaMA-2模型架構,具有12層,768隱藏單元,以及其他技術規格。

AMD-135M的項目地址

  • 項目官網:amd-first-slm-135m-model-fuels-ai-advancements
  • HuggingFace模型庫:https://huggingface.co/amd/AMD-Llama-135m

AMD-135M的應用場景

  • 聊天機器人:作爲聊天機器人的後端,提供自然語言理解和生成能力,實現與用戶的互動對話。
  • 內容創作:輔助寫作,生成文章、故事或其他文本內容的草稿。
  • 編程輔助:基於AMD-Llama-135M-code版本,幫助開發者生成代碼片段,提供編程建議和自動補全。
  • 語言翻譯:模型主要針對英語,但架構適應其他語言,用於機器翻譯任務。
  • 文本摘要:自動生成文本的摘要,用在新聞、文章或報告的快速概覽。
© 版權聲明

相關文章

暫無評論

暫無評論...