Realtime API – OpenAI推出的實時語音交互API

AI工具2年前 (2024)發佈新公告 AI管理員

3 0 0

Realtime API是什麼

Realtime API是OpenAI推出的一種低延遲、多模態的對話式API，支持文本和音頻作爲輸入和輸出。Realtime API允許開發者構建接近實時的交互體驗，例如語音對語音的應用程序。包括原生的語音處理能力、自然的聲音輸出，以及同時處理多種模態的輸出。公測版本支持開發者用API目前支持的6種預設進行語音交互。開發者用WebSocket連接到API，發送和接收JSON格式的事件，實現實時的對話和交互。Realtime API適用於需要快速響應和自然對話的應用場景，如客戶服務、語言學習、遊戲和娛樂等。

Realtime API的主要功能

實時語音處理：支持實時語音到語音的交互，無需文本轉換，直接處理語音輸入和輸出。
自然語音合成：提供自然、流暢的語音輸出，包括不同的語調、情感和口音。
多模態交互：結合文本和音頻輸出，提供更豐富的交互體驗。
WebSocket連接：用WebSocket協議實現持久連接，保持會話狀態。
事件驅動的交互：基於事件的通信機制，允許靈活的請求和響應處理。
函數調用集成：允許在對話中集成函數調用，使AI執行特定動作或檢索信息。
音頻格式支持：支持多種音頻格式，包括原始16位PCM和G.711編碼。

Realtime API的技術原理

WebSocket通信：用WebSocket協議建立一個持久的連接，允許實時雙向數據流。使API能即時響應輸入併發送輸出。
狀態管理：Realtime API是有狀態的，在會話期間維護交互狀態。包括用戶輸入、系統指令、會話配置等。
事件驅動架構：API基於事件驅動架構，客戶端和服務器通過發送和接收事件交互。事件可以是文本消息、音頻數據、函數調用請求等。
語音活動檢測（VAD）：在服務器VAD模式下，服務器會運行語音活動檢測算法確定何時開始和結束語音輸入。有助於減少不必要的處理和延遲。
音頻處理：支持音頻輸入的緩衝、提交和轉錄。客戶端向服務器發送音頻數據，服務器將數據轉換成文本或直接生成語音響應。

Realtime API的項目地址

項目官網：platform.openai.com/docs/guides/realtime
GitHub倉庫：
- console：https://github.com/openai/openai-realtime-console
- beta：https://github.com/openai/openai-realtime-api-beta