GPT-4o – OpenAI最新發布的多模態AI大模型

AI工具1年前 (2024)更新 AI管理員

2 0 0

GPT-4o是什麼

GPT-4o是OpenAI最新推出的一款先進的人工智能模型，具備強大的多模態推理能力，能夠處理語音、文本和視覺信息。該模型能夠實時響應用戶輸入，並且在音頻交互中檢測和表達情感，提供了更加自然和富有表現力的交流體驗。GPT-4o的設計注重提高運算速度和降低成本，其速度是之前模型的兩倍，而成本僅爲一半。GPT-4o在多語言處理、音頻和視覺理解上表現突出，同時在安全性設計上進行了強化，以確保交互的安全性。目前，該模型的文本和圖像功能已在ChatGPT中逐步推出，用戶可免費體驗，後續將推出音頻和視頻功能。

GPT-4o的主要功能

多模態交互：GPT-4o不僅能夠處理文本，還能處理語音和視覺信息，能夠理解和回應更廣泛的用戶輸入，包括實時視頻分析。
實時對話反饋：該模型能夠提供即時的響應，無論是在文本對話、語音交互還是視頻內容分析中，都能快速給出反饋。對音頻輸入的響應時間極短，平均爲320毫秒，與人類對話反應時間相近。
情感識別與模擬：GPT-4o能夠識別用戶的情感狀態，並在語音輸出中模擬相應的情感，使得對話更加貼近人與人之間的自然交流。
編程代碼輔助：GPT-4o能夠分析和理解編程語言中的代碼片段，幫助用戶理解代碼的功能和邏輯。用戶可以通過語音向GPT-4o提出關於代碼的問題，模型會以語音形式回應，解釋代碼的工作原理或指出潛在的問題。
多語言支持：GPT-4o支持超過50種語言，能夠服務於全球各地的用戶，滿足不同語言環境的需求。此外，還支持多種語言的實時同聲傳譯，如英語口譯爲意大利語。

GPT-4o的性能表現

文本性能評估：GPT-4o在多語言理解均值（MMLU）基準測試中創下了87.2%的最高得分，GPQA得分爲53.6%排名第一、MATH得分76.6%排名第一、HumanEval得分90.2%排名第一、MGSM得分90.5%排名第二（略低於Claude 3 Opus）。這顯示了其在常識問題上的強大推理能力和文本處理能力。
音頻 ASR 性能：GPT-4o 比 Whisper-v3 顯著提高了所有語言的語音識別性能，特別是對於資源匱乏的語言。
音頻翻譯性能：GPT-4o 在語音翻譯方面達到了新的最先進水平，並且在 MLS 基準測試中優於 Whisper-v3，超越Meta的SeamlessM4T-v2和谷歌的Gemini。
視覺理解評估：GPT-4o 在視覺感知基準上實現了SOTA最先進的性能，超過Gemini 1.0 Ultra、Gemini 1.5 Pro和Claude 3 Opus。

GPT-4o與GPT-4 Turbo的對比

價格：GPT-4o的價格比GPT-4 Turbo便宜50%，具體來說，輸入和輸出的標記（tokens）價格分別爲每百萬（M）輸入5美元和每百萬輸出15美元。
速率限制：GPT-4o的速率限制是GPT-4 Turbo的5倍，每分鐘可以處理高達1000萬個token。
視覺能力：在與視覺能力相關的評估和測試中，GPT-4o的表現優於GPT-4 Turbo。
多語言支持：GPT-4o在非英語語言的支持上有所改進，比GPT-4 Turbo提供更好的性能。

目前，GPT-4o的上下文窗口爲128k，知識截止日期是2023年10月。

如何使用GPT-4o

GPT-4o的文本和圖像功能已經開始在ChatGPT中逐步推出，用戶可以在ChatGPT平台上免費體驗到GPT-4o的相關功能，但免費版有使用次數限制。 Plus用戶的消息限制將比免費用戶高出5倍。

同時，OpenAI還計劃在未來幾周內推出基於GPT-4o的Voice Mode的新版本，這將作爲ChatGPT Plus的一個alpha版本提供給Plus用戶。此外，GPT-4o也將通過API提供給開發者，作爲文本和視覺模型。開發者可以利用API來集成GPT-4o到他們自己的應用程序中，而且GPT-4o在API中相比GPT-4 Turbo更快、更便宜，並且有更高的速率限制。

至於GPT-4o的音頻和視頻功能，OpenAI將在未來的幾周和幾個月內繼續開發技術基礎設施、通過訓練後提高可用性以及確保安全性，之後纔會發佈這些功能，並逐步向公衆提供。

官方博客介紹：Hello GPT-4o

# AI工具