TabFM – 谷歌開源的零樣本表格基礎模型

0 0 0

TabFM是什麼

TabFM 是 Google Research 推出的零樣本表格基礎模型，支持對混合數值與類別特徵的結構化數據進行分類（最多10類）和迴歸。模型在數百億合成表格數據上訓練，無需微調或超參數搜索，僅以訓練行爲上下文進行單次前向預測，在 TabArena 基準51個數據集上超越經大量調優的梯度提升樹等強基線。TabFM提供 PyTorch 與 JAX 兩種權重版本，安裝簡便，適合快速表格推斷任務。

TabFM的主要功能

零樣本分類：無需訓練數據調參，直接對最多10個類別的表格數據進行分類預測。
零樣本迴歸：支持數值型目標變量的迴歸任務，無需模型微調。
混合特徵處理：原生支持數值型與類別型特徵混合的表格數據，自動處理編碼與縮放。
上下文學習推理：將訓練數據作爲”上下文”讀取，通過單次前向傳播完成預測。
雙後端兼容：提供 JAX 與 PyTorch 兩種權重版本，用戶可按需選擇後端框架。

TabFM的技術原理

合成數據預訓練：TabFM 基於結構因果模型（SCM）生成數百億合成表格數據進行預訓練，通過隨機採樣有向無環圖定義變量間的因果結構，再基於父節點條件分佈生成每個特徵的值，從而完全規避真實數據的隱私與版權風險。
Transformer 序列架構：模型採用 Transformer 處理表格數據，將每行樣本視爲一個 token 序列，數值特徵經線性投影或分桶編碼爲連續向量，類別特徵通過嵌入層映射爲稠密向量，利用自注意力機制自動捕捉列間的高階交互關係。
上下文學習推理：推理時將用戶的訓練集序列化爲上下文，與測試樣本拼接後輸入模型，模型通過注意力讀取訓練樣本的統計規律，在不更新任何權重的情況下直接輸出預測，實現真正的零樣本推斷。
自動化預處理：通過 scikit-learn 兼容接口封裝了自動化流水線，包括類別特徵的 Ordinal Encoding、數值特徵的標準化縮放以及缺失值的魯棒處理，用戶無需手動干預即可直接傳入原始 DataFrame。

TabFM – 谷歌開源的零樣本表格基礎模型

微信關注回覆“開源”，加入AI開源項目交流羣

如何使用TabFM

克隆倉庫：執行 git clone https://github.com/google-research/tabfm.git 下載源碼。
安裝依賴：進入目錄後，根據後端選擇安裝：pip install -e .[pytorch] 或 pip install -e .[jax]。
加載預訓練權重：在代碼中導入對應後端模塊（如 tabfm_v1_0_0_pytorch）並調用 .load() 自動下載權重。
初始化分類器/迴歸器：用 TabFMClassifier 或 TabFMRegressor 包裝模型，調用 .fit(X_train, y_train) 準備編碼器。
執行預測：調用 .predict(X_test) 或 .predict_proba() 獲取零樣本預測結果。

TabFM的核心優勢

真正零樣本：無需微調、無需超參數搜索，開箱即用，降低使用門檻。
隱私安全：基於合成數據訓練，不依賴真實敏感數據，天然規避隱私與版權風險。
性能強勁：在51個真實數據集的 TabArena 基準上，零樣本表現超越精心調優的梯度提升樹。
框架靈活：同時提供 PyTorch 與 JAX 權重，兼容不同技術棧的部署環境。
接口友好：完全兼容 scikit-learn API，數據科學家可無縫接入現有工作流。

TabFM的項目地址

項目官網：https://research.google/blog/introducing-tabfm-a-zero-shot-foundation-model-for-tabular-data/
GitHub倉庫：https://github.com/google-research/tabfm
HuggingFace模型庫：https://huggingface.co/google/tabfm-1.0.0-pytorch

TabFM的同類競品對比

維度	TabFM	TabPFN
開發團隊	Google Research	德國弗萊堡大學 / AutoML 團隊
訓練數據	數百億合成表格（SCM生成）	數百萬合成數據集（先驗分佈採樣）
分類類別限制	最多10類	最多10類
迴歸支持	原生支持	早期版本不支持，後續擴展有限
後端支持	PyTorch + JAX 雙版本	主要基於 PyTorch
數據規模	適合中小規模表格（<10,000樣本）	同樣針對中小規模優化
核心機制	上下文學習（In-Context Learning）	基於 Transformer 的近似貝葉斯推斷