豆包大模型

豆包大模型是什麼

豆包大模型是字節跳動推出的AI大模型家族，包括豆包PixelDance、豆包Seaweed 視頻生成、文生圖、圖生圖、同聲傳譯、角色扮演、語音合成、聲音復刻、語音識別、Function Call和向量化等多個模型。豆包大模型具備強大的語言理解、生成和邏輯能力，能進行個性化創作、情緒豐富的語音合成、高精度語音識別、多風格圖像生成和頂級的視頻生成。豆包大模型通過火山引擎提供服務，支持企業和開發者構建智能化應用，推動AI技術在多種業務場景中的落地。

豆包大模型的性能在多個評測中表現優異，例如在包括MMLU、BBH、GSM8K和HumanEval在內的11個業界公認的基準測試集中，Doubao-pro-4k模型的總體得分達到了76.8分，在代碼能力、專業知識和指令遵循等方面的顯著進步。

豆包大模型

豆包大模型的主要功能

通用模型：字節跳動自研LLM模型，支持128K長文本，全系列可精調，具備更強的理解、生成、邏輯等綜合能力，適配問答、總結、創作、分類等豐富場景。
視頻生成：通過精準語義理解、強大動態及運鏡能力創作高質量視頻，支持文本和圖片生成兩種模式。
角色扮演：創作個性化角色，具備上下文感知和劇情推動能力，適合虛擬互動和故事創作。
語音合成：生成自然生動的語音，能表達多種情緒，適用於文本到語音轉換。
聲音復刻：快速克隆聲音，高度還原音色和自然度，支持跨語種遷移，用於個性化語音合成。
語音識別：準確識別和轉錄語音，支持多語種，適用於語音命令和轉錄服務。
文生圖：將文本轉換爲圖像，擅長圖文匹配和中國文化元素創作，用於圖像生成和視覺內容創作。
圖生圖：基於現有圖像生成新圖像，支持風格變換、擴圖、重繪和塗抹等創意操作。
同聲傳譯：提供超低延時且自然高質量的實時翻譯，支持跨語言同音色翻譯，打破溝通中的語言壁壘。
Function Call：準確識別和抽取功能參數，適合複雜工具調用和智能交互。
向量化：提供向量檢索能力，支持LLM知識庫的核心理解，適用於多語言處理。

豆包大模型的功能特點

豆包通用模型Pro：字節跳動自研的高級語言模型，支持128K長文本處理，適用於問答、總結、創作等多種場景。
豆包通用模型Lite：輕量級語言模型，提供更低的成本和延遲，適合預算有限的企業使用。
豆包·視頻生成模型：利用先進的語義理解技術，將文本和圖片轉化爲引人入勝的高質量視頻內容。
豆包·語言識別模型：具備高準確率和靈敏度，能夠快速準確地識別和轉寫多種語言的語音。
豆包·Function Call模型：專爲複雜工具調用設計，提供精確的功能識別和參數抽取能力。
豆包·文生圖模型：將文字描述轉化爲精美圖像，尤其擅長捕捉和表現中國文化元素。
豆包·語音合成模型：能夠合成自然、生動的語音，表達豐富的情感和場景。
豆包·向量化模型：專注於向量檢索，爲知識庫提供核心理解能力，支持多種語言。
豆包·聲音復刻模型：僅需5秒即可實現聲音的1:1克隆，提供高度相似的音色和自然度。
豆包·同聲傳譯模型：實現超低延遲的實時翻譯，支持跨語言同音色翻譯，消除語言障礙。
豆包·角色扮演模型：具備個性化角色創作能力，能夠根據上下文感知和劇情推動進行靈活的角色扮演。

豆包大模型

豆包大模型的產品官網

產品官網：volcengine.com/product/doubao

如何使用豆包大模型

確定需求：明確項目或業務需求，比如是否需要文本生成、語音識別、圖像創作、視頻生成等。
選擇合適的模型：根據需求選擇合適的豆包大模型，例如文生圖模型、語音合成、視頻生成模型等。
註冊和訪問火山引擎：訪問火山引擎官網註冊賬戶，是字節跳動的雲服務平台，提供豆包大模型的服務。
申請訪問權限：在火山引擎平台上申請使用豆包大模型的權限，填寫相關信息和使用場景。
API接入：獲取相應的API接口信息，包括API的端點、請求方法和必要的認證信息。
開發和測試：根據API文檔開發應用程序，將豆包大模型集成到你的業務流程中。進行充分測試，確保模型的輸出符合預期。
部署應用：在測試無誤後，將集成了豆包大模型的應用部署到生產環境。
監控和優化：監控應用的性能和模型的效果，根據反饋進行優化。

豆包大模型的產品定價

大語言模型
- 按tokens使用量付費：
  - Doubao-lite-4k（包括分支版本lite-character）：上下文長度4K、輸入0.0003元/千tokens、輸出0.0003元/千tokens、後付費、免費額度50萬tokens。
  - Doubao-lite-32k：上下文長度32K、輸入0.0003元/千tokens、輸出0.0006元/千tokens後付費、免費額度50萬tokens。
  - Doubao-lite-128k：上下文長度128K、輸入0.0008元/千tokens、輸出0.0010元/千tokens後付費、免費額度50萬tokens。
  - Doubao-pro-4k（包括分支版本pro-character、pro-functioncall）：上下文長度4K、輸入0.0008元/千tokens、輸出0.0020元/千tokens後付費、免費額度50萬tokens。
  - Doubao-pro-32k：上下文長度32K、輸入0.0008元/千tokens、輸出0.0020元/千tokens後付費、免費額度50萬tokens。
  - Doubao-pro-128k：上下文長度128K、輸入0.0050元/千tokens、輸出0.0090元/千tokens後付費、免費額度50萬tokens。
- 按模型單元付費：獨佔的算力資源，更加獨立可控
  - Doubao-lite-4k、Doubao-lite-32k：可承載性能（TPS）3000、按小時60元/個、包月28000元/個。
  - Doubao-lite-128k：可承載性能（TPS）4500、按小時240元/個、包月112000元/個。
  - Doubao-pro-4k、Doubao-pro-32k：可承載性能（TPS）3200、按小時160元/個、包月80000元/個。
  - Doubao-pro-128k：可承載性能（TPS）3500、按小時1200元/個、包月550000元/個。
視覺模型
- 豆包-文生圖模型-智能繪圖：推理服務、0.2元/次、後付費、免費額度200次。
語音大模型
- Doubao-語音合成：推理服務、5元/萬字符、後付費、免費額度5000字符。
- Doubao-聲音復刻：推理服務、8元/萬字符、後付費、免費額度5000字符。
向量模型
- Doubao-embedding：最長輸入長度4K、輸入0.0005元/千tokens、後付費、免費50萬tokens。
模型精調
- 按tokens使用量（訓練文本*訓練迭代次數）計費，訓練完成後出賬。
- Doubao-lite-4k、Doubao-lite-32k、Doubao-lite-128k：LoRA定價0.03元/千tokens、後付費。
- Doubao-pro-4k、Doubao-pro-32k、Doubao-pro-128k：LoRA定價0.05元/千tokens、後付費。