TabFM – 谷歌開源的零樣本表格基礎模型

AI工具14小時前發佈新公告 AI管理員
0 0

TabFM是什麼

TabFM 是 Google Research 推出的零樣本表格基礎模型,支持對混合數值與類別特徵的結構化數據進行分類(最多10類)和迴歸。模型在數百億合成表格數據上訓練,無需微調或超參數搜索,僅以訓練行爲上下文進行單次前向預測,在 TabArena 基準51個數據集上超越經大量調優的梯度提升樹等強基線。TabFM提供 PyTorch 與 JAX 兩種權重版本,安裝簡便,適合快速表格推斷任務。

TabFM – 谷歌開源的零樣本表格基礎模型

TabFM的主要功能

  • 零樣本分類:無需訓練數據調參,直接對最多10個類別的表格數據進行分類預測。
  • 零樣本迴歸:支持數值型目標變量的迴歸任務,無需模型微調。
  • 混合特徵處理:原生支持數值型與類別型特徵混合的表格數據,自動處理編碼與縮放。
  • 上下文學習推理:將訓練數據作爲”上下文”讀取,通過單次前向傳播完成預測。
  • 雙後端兼容:提供 JAX 與 PyTorch 兩種權重版本,用戶可按需選擇後端框架。

TabFM的技術原理

  • 合成數據預訓練:TabFM 基於結構因果模型(SCM)生成數百億合成表格數據進行預訓練,通過隨機採樣有向無環圖定義變量間的因果結構,再基於父節點條件分佈生成每個特徵的值,從而完全規避真實數據的隱私與版權風險。
  • Transformer 序列架構:模型採用 Transformer 處理表格數據,將每行樣本視爲一個 token 序列,數值特徵經線性投影或分桶編碼爲連續向量,類別特徵通過嵌入層映射爲稠密向量,利用自注意力機制自動捕捉列間的高階交互關係。
  • 上下文學習推理:推理時將用戶的訓練集序列化爲上下文,與測試樣本拼接後輸入模型,模型通過注意力讀取訓練樣本的統計規律,在不更新任何權重的情況下直接輸出預測,實現真正的零樣本推斷。
  • 自動化預處理:通過 scikit-learn 兼容接口封裝了自動化流水線,包括類別特徵的 Ordinal Encoding、數值特徵的標準化縮放以及缺失值的魯棒處理,用戶無需手動干預即可直接傳入原始 DataFrame。

TabFM – 谷歌開源的零樣本表格基礎模型

微信關注回覆“開源”,加入AI開源項目交流羣

如何使用TabFM

  • 克隆倉庫:執行 git clone https://github.com/google-research/tabfm.git 下載源碼。
  • 安裝依賴:進入目錄後,根據後端選擇安裝:pip install -e .[pytorch]pip install -e .[jax]
  • 加載預訓練權重:在代碼中導入對應後端模塊(如 tabfm_v1_0_0_pytorch)並調用 .load() 自動下載權重。
  • 初始化分類器/迴歸器:用 TabFMClassifierTabFMRegressor 包裝模型,調用 .fit(X_train, y_train) 準備編碼器。
  • 執行預測:調用 .predict(X_test).predict_proba() 獲取零樣本預測結果。

TabFM的核心優勢

  • 真正零樣本:無需微調、無需超參數搜索,開箱即用,降低使用門檻。
  • 隱私安全:基於合成數據訓練,不依賴真實敏感數據,天然規避隱私與版權風險。
  • 性能強勁:在51個真實數據集的 TabArena 基準上,零樣本表現超越精心調優的梯度提升樹。
  • 框架靈活:同時提供 PyTorch 與 JAX 權重,兼容不同技術棧的部署環境。
  • 接口友好:完全兼容 scikit-learn API,數據科學家可無縫接入現有工作流。

TabFM的項目地址

  • 項目官網:https://research.google/blog/introducing-tabfm-a-zero-shot-foundation-model-for-tabular-data/
  • GitHub倉庫:https://github.com/google-research/tabfm
  • HuggingFace模型庫:https://huggingface.co/google/tabfm-1.0.0-pytorch

TabFM的同類競品對比

維度 TabFM TabPFN
開發團隊 Google Research 德國弗萊堡大學 / AutoML 團隊
訓練數據 數百億合成表格(SCM生成) 數百萬合成數據集(先驗分佈採樣)
分類類別限制 最多10類 最多10類
迴歸支持 原生支持 早期版本不支持,後續擴展有限
後端支持 PyTorch + JAX 雙版本 主要基於 PyTorch
數據規模 適合中小規模表格(<10,000樣本) 同樣針對中小規模優化
核心機制 上下文學習(In-Context Learning) 基於 Transformer 的近似貝葉斯推斷

TabFM的應用場景

  • 金融風控:快速評估貸款申請風險,無需歷史數據重新訓練模型,保護客戶隱私。
  • 醫療輔助診斷:基於患者混合特徵進行疾病分類,規避敏感醫療數據泄露。
  • 電商定價預測:對新上架商品進行零樣本價格迴歸,結合類別特徵與數值特徵。
  • 廣告點擊率預估:冷啓動場景下快速預測廣告CTR,無需等待積累足夠訓練數據。
  • 科研數據探索:研究人員在敏感數據集(如人口普查、社會調查)上進行快速基線建模,無需接觸原始隱私數據。
© 版權聲明

相關文章

暫無評論

暫無評論...