LongCite – 清華推出的開源模型，提升LLMs的精準引用減少幻覺

3 0 0

LongCite是什麼

LongCite是由清華大學推出的項目，旨在提升大型語言模型（LLMs）在長文本問答任務中的可信度和可驗證性。項目通過生成細粒度的句子級引用，使用戶能驗證模型的回答是否準確。核心組成部分包括LongBench-Cite評估基準、CoF自動化數據構建流程、LongCite-45k數據集，以及基於該數據集訓練的LongCite-8B和LongCite-9B模型。模型能理解長文本內容並提供準確的問答服務，同時附上直接查閱的文本引用，增強信息的透明度和可靠性。

LongCite的主要功能

生成細粒度引用：LongCite使語言模型在回答長文本問題時，生成精確到句子級別的引用，用戶能直接追溯到原文中的具體信息。
提高回答的忠實度：LongCite有助於確保模型的回答更加忠實於原文，減少模型出現的“幻覺”（即生成與原文不符的信息）。
增強可驗證性：用戶基於模型提供的細粒度引用來驗證回答的真實性和準確性，提高模型輸出的可信度。
自動化數據構建：LongCite採用了CoF（Coarse to Fine）流程，自動化地生成帶有細粒度引用的高質量長文本問答數據，爲模型訓練提供豐富的標註資源。
評測基準：LongCite引入LongBench-Cite評測基準，用於衡量模型在長文本問答中生成引用的能力，包括正確性和引用質量。

LongCite的技術原理

長文本處理能力：LongCite支持超長上下文窗口的大型語言模型（如GLM-4-9B-1M，Gemini 1.5等），能處理和理解長達數萬字的文本。
細粒度引用生成：LongCite訓練模型生成精確到句子級別的引用，使每個回答都能追溯到原文的具體句子，提高了回答的可驗證性。
自動化數據構建流程（CoF）：使用自指導（Self-Instruct）方法自動從長文本中生成問題和答案對。從長文本中檢索與答案相關的句子塊，並生成塊級引用。在塊級引用的基礎上，提取出支持每個陳述的具體句子，生成句子級引用。
監督式微調（Supervised Fine-Tuning, SFT）：CoF流程生成的帶有細粒度引用的高質量數據集對大型語言模型進行微調，提升模型在長文本問答任務中的表現。