Grok-2 – xAI公司推出的新一代AI模型

AI項目和框架2年前 (2024)發佈新公告 AI管理員

6 0 0

Grok-2是什麼

Grok-2是xAI公司推出的新一代AI模型，提供卓越的聊天、編程和推理能力。在學術基準測試中，Grok-2在GPQA、MMLU、MMLU-Pro和MATH等領域的表現超越了前代Grok-1.5，與行業前沿模型相媲美。Grok-2在視覺任務MathVista和DocVQA上展現出行業領先的水平，並與Black Forest Labs的FLUX.1模型合作，擴展了Grok-2的AI能力。Grok-2和Grok-2 mini將通過新的企業API平台向開發者推出，API基於新的技術堆棧，提供跨區域低延遲訪問。

Grok-2的功能特色

模型升級：Grok-2是xAI公司繼Grok-1.5之後的新一代AI語言模型，具有顯著的性能提升。
聊天與推理：Grok-2在聊天、編程和推理方面展現了前沿能力，尤其在對話理解和邏輯推理上。
性能測試：在LMSYS排行榜上，Grok-2以”sus-column-r”名義測試，表現優於Claude 3.5 Sonnet和GPT-4-Turbo。
學術基準：Grok-2在多個學術基準測試中，包括GPQA、MMLU、MMLU-Pro、MATH等，擁有與行業頂尖模型相媲美的性能。
視覺任務：在視覺數學推理(MathVista)和文檔問題回答(DocVQA)等視覺任務上，Grok-2提供了行業領先的性能。
實時信息集成：Grok-2能夠整合𝕏平台的實時信息，提供更豐富的用戶體驗。
企業API：Grok-2將通過xAI新的企業API平台提供，支持全球多區域低延遲訪問。
多模態：xAI計劃推出Grok-2的多模態理解功能，並在𝕏和API中提供更多AI驅動的特性。

Grok-2的性能指標

學術基準測試表現：Grok-2在多個學術基準測試中顯示出卓越的性能，包括：
- 在**研究生級科學知識(GPQA)**基準測試中，Grok-2的得分從Grok-1.5的35.9%提升至56.0%。
- 在**通用知識(MMLU)**基準測試中，得分從81.3%提升至87.5%。
- 在**高級通用知識(MMLU-Pro)**基準測試中，得分從51.0%提升至75.5%。
- 在**數學競賽問題(MATH)**基準測試中，得分從50.6%提升至76.1%。
視覺任務領先：Grok-2在視覺任務上特別突出：
- 在**視覺數學推理(MathVista)**中，Grok-2的得分爲69.0%，表現出色。
- 在**文檔問題回答(DocVQA)**中，得分爲93.6%，接近頂尖水平。
綜合排名：在LMSYS排行榜上，Grok-2以”sus-column-r”名義測試，其整體Elo分數超越了Claude 3.5 Sonnet和GPT-4-Turbo，顯示出在當前AI模型中的領先地位。
性能對比：與行業內其他模型相比，Grok-2在多個基準測試中的得分顯示出其競爭力，例如在HumanEval基準測試中，Grok-2的得分爲88.4%，高於GPT-4 Turbo的87.1%。