SafeEar – 浙大和清華聯合開源的AI音頻僞造檢測框架

AI工具2年前 (2024)發佈新公告 AI管理員

24 0 0

SafeEar是什麼

SafeEar是由浙江大學和清華大學聯合開發的AI音頻僞造檢測框架，保護用戶隱私的同時檢測音頻僞造。採用基於神經音頻編解碼器的解耦模型，分離語音的聲學信息和語義信息，用聲學信息進行檢測，有效防止隱私泄露。SafeEar在多個基準數據集上表現優異，等錯誤率(EER)低至2.02%，能抵禦內容恢復攻擊。SafeEar提供了多語言支持，構建了包含150萬條多語種音頻數據的CVoiceFake數據集，爲語音僞造檢測研究提供了寶貴的資源。

SafeEar的主要功能

隱私保護的深度僞造檢測：通過分離語音的語義和聲學信息，SafeEar僅用聲學信息來檢測深度僞造音頻，在檢測過程中保護語音內容的隱私。
多語言支持：SafeEar能處理和檢測多種語言的音頻數據，包括但不限於英語、中文、德語、法語和意大利語。
高效的僞造檢測：在多個公開基準數據集上測試顯示，SafeEar的等錯誤率（EER）低至2.02%，表現出高效的檢測能力。
抗內容恢復技術：SafeEar結合了基於現實場景的編解碼器增強和抗內容恢復技術，即使在對抗性攻擊下也能保持高檢測準確率。
真實環境增強：通過模擬真實環境中的音頻信道多樣性，SafeEar增強了模型對不同通信場景的泛化能力。
開源資源：SafeEar提供了論文、代碼和數據集的開放訪問，促進了研究社區的進一步研究和應用開發。
數據集構建：SafeEar構建了CVoiceFake數據集，包含150萬條多語種音頻樣本，爲語音僞造檢測提供了標準化的測試基準。

SafeEar的技術原理

語義-聲學信息分離：SafeEar使用神經音頻編解碼器模型來解耦音頻中的語義信息（如語言內容）和聲學信息（如音色、語調和節奏）。這種分離確保了在檢測僞造音頻時不會泄露音頻的具體內容，保護了用戶隱私。
聲學信息分析：系統僅分析音頻的聲學特徵，不是語義內容。通過關注音調、音色和節奏等聲學特徵，SafeEar能有效地識別出僞造音頻。
多語言支持：SafeEar能處理多種語言的音頻數據，採用去語義化處理，確保在分析過程中不暴露具體的語義內容。
抗內容恢復技術：SafeEar結合了基於現實場景的編解碼器增強和抗內容恢復技術，抵禦各種音頻深度僞造方法，確保在對抗性攻擊下也能保持高檢測準確率。
Transformer分類器：SafeEar採用了基於聲學輸入的Transformer分類器，分類器在僞造檢測方面顯示出了潛力，能提高檢測的精準度和效率。