PDF2Audio – 將PDF文檔轉換成音頻博客的開源工具

AI工具1年前 (2024)發佈新公告 AI管理員

27 0 0

PDF2Audio是什麼

PDF2Audio 是一個開源工具，能將 PDF 文檔轉換成音頻內容，適合製作播客、講座或摘要。它基於 OpenAI 的 GPT 模型生成播客腳本，通過文本到語音技術轉化爲音頻。用戶可以在本地或雲服務上部署，或通過在線 Demo 體驗。支持多種語言和自定義選項，包括文本生成模型和語音風格。項目可在 GitHub 上找到，在線 Demo 可在 Hugging Face 平台上訪問。

PDF2Audio的主要功能

PDF 轉文本：將 PDF 文檔轉換爲可處理的文本格式。
生成播客腳本：使用 GPT 模型，基於文本內容生成適合播客的對話形式文稿。
文本到語音轉換：將生成的播客文稿通過 TTS 技術轉化爲音頻文件。
多種語言支持：支持從源語言生成多種目標語言的音頻內容。
高級編輯功能：支持用戶對生成的文本進行註釋、添加評論，進行特定修改。
批量處理：支持同時上傳多個 PDF 文件，進行批量音頻轉換。
內容模板：提供多種內容模板，如播客、講座、摘要等，適應不同場景。
個性化選項：用戶可以選擇不同的 GPT 文本生成模型和 TTS 模型，多種語音風格和音色。

PDF2Audio的項目地址

Github倉庫：https://github.com/lamm-mit/PDF2Audio
在線Demo體驗地址：https://huggingface.co/spaces/lamm-mit/PDF2Audio

如何安裝和部署PDF2Audio

要安裝和部署 PDF2Audio，可以按照以下步驟進行：

克隆倉庫：使用 Git 克隆 PDF2Audio 的 GitHub 倉庫到本地。
```
git clone https://github.com/lamm-mit/PDF2Audio.git
cd PDF2Audio
```
安裝 Python 環境：建議使用 Python 3.9 或更高版本，並使用 conda 環境管理器創建一個新的虛擬環境。
```
conda create -n pdf2audio python=3.9
conda activate pdf2audio
```
安裝依賴：安裝項目所需的 Python 第三方庫。
```
pip install -r requirements.txt
```
配置 API KEY：在項目根目錄下創建一個 .env 文件，並配置你的 OpenAI API KEY。
```
OPENAI_API_KEY=your_api_key_here
```
運行項目：使用以下命令啓動 Gradio 界面，啓動後在瀏覽器中訪問 http://127.0.0.1:7860 即可使用。
```
python app.py
```