DeFi 數據分析中的 AI：實用的鏈上工作流程

DeFi 數據分析中的 AI：實用的鏈上工作流程 是關於將透明但混亂的區塊鏈活動轉化為 可重複的研究：乾淨的數據集、可辯護的特徵、可測試的假設和監控的模型。如果你曾經查看過 TVL 儀表板、收益頁面和代幣圖表，並想過「這感覺不太可靠」，那麼這個工作流程就是你的解藥。如果你喜歡結構化的、分階段的分析（SimianX AI 方式框架下的多步研究循環），你可以將相同的紀律帶入鏈上工作，使結果可解釋、可比較於不同協議，並且易於迭代。

為什麼鏈上數據分析比看起來更難（但更好）

鏈上數據為你提供了 真實情況：轉移、交換、借貸、清算、質押、治理投票和費用流動。但「真實情況」並不意味著「簡單的真相」。DeFi 分析師會遇到以下問題：

實體模糊性： 地址不是身份；合約代理其他合約；中繼者隱藏了 EOAs。

可組合流： 一個用戶行為觸發多個內部調用、事件和狀態變更。

激勵扭曲： 收益可能因發放、洗盤活動或臨時流動性挖礦而膨脹。

對抗環境： MEV、夾擊、預言機遊戲和治理捕獲造成非穩定行為。

評估陷阱： 標籤「好協議」與「壞協議」是主觀的，除非你定義可衡量的結果。

好處是巨大的：當你建立一個 AI 準備好的管道時，你可以用證據而不是直覺來回答問題——然後隨著條件變化不斷重複相同的工作流程。

SimianX AI 雜亂的鏈上數據到乾淨的特徵 — 雜亂的鏈上數據到乾淨的特徵

步驟 0：從決策開始，而不是數據集

在 DeFi 中浪費時間的最快方法就是「下載所有東西」並希望模式出現。相反，定義：

決策： 根據分析你會有什麼不同的做法？
對象： 協議、池、代幣、金庫策略或錢包群體？
時間範圍： 當日內、每週、每季度？
結果指標： 什麼算作成功或失敗？

與 AI 相關的示例決策

協議風險監控： 「我們是否應該限制對這個借貸市場的風險敞口？」

收益可持續性： 「這個年化收益率主要是來自於發行，還是由費用支持？」

流動性健康： 「在壓力下我們能否以可接受的滑點進出？」

錢包行為： 「‘智慧資金’群體是在積累還是分配？」

治理動態： 「投票權是否集中在少數實體之間？」

關鍵見解：當目標可衡量時，AI 最強大（例如，回撤機率、清算頻率、費用與發行比率），而不是當目標是「好的敘事」。

步驟 1：建立你的鏈上數據基礎（來源 + 可重複性）

一個實用的鏈上工作流程需要兩層：原始鏈真相和增強上下文。

A. 原始鏈真相（標準輸入）

至少計劃收集：

區塊/交易： 時間戳、燃氣、成功/失敗

日誌/事件： 由合約發出的（DEX 交換、鑄造/銷毀、借款、還款）

追蹤/內部調用： 複雜交易的調用圖（對聚合器和金庫特別重要）

狀態快照： 在時間 t 的餘額、儲備、債務、抵押品、治理權力

專業提示： 將每個數據集視為 版本快照：

鏈 + 區塊範圍（或精確的區塊高度）

索引器版本（如果使用第三方）

解碼 ABI 版本

價格預言機方法

B. 補充資料（您需要的“意義”上下文）

代幣元數據： 小數位、符號、包裝、重基準行為

價格數據： 可信的預言機價格 + DEX 衍生的 TWAP（帶有防護措施）

協議語義： 哪些事件對應於哪些經濟行為

標籤： 合約類別（DEX、借貸、橋樑）、已知的多簽名、CEX 熱錢包等。

最小可重現的架構（您希望在倉庫中擁有的）

以“事實表”和“維度”思考：

fact_swaps(chain, block_time, tx_hash, pool, token_in, token_out, amount_in, amount_out, trader, fee_paid)

fact_borrows(chain, block_time, market, borrower, asset, amount, rate_mode, health_factor)

dim_address(address, label, type, confidence, source)

dim_token(token, decimals, is_wrapped, underlying, risk_flags)

dim_pool(pool, protocol, pool_type, fee_tier, token0, token1)

保持 inline code 命名的一致性，以免下游功能出現故障。

步驟 2：標準化實體（地址 → 行為者）

AI 模型不會以十六進制字符串思考；它們從 行為模式 中學習。您的工作是將地址轉換為穩定的“實體”，盡可能做到這一點。

實用標籤方法（快速 → 更好）

從三個層級開始：

層級 1（高信心）： 協議合約、知名多簽名、已驗證的部署者

層級 2（中等）： 集群啟發式（共享資金來源、重複互動模式）

層級 3（低）： 行為原型（套利機器人、MEV 搜索者、被動 LP）

每個標籤需要存儲的內容

label（例如，“MEV 機器人”、“協議金庫”）

confidence（0–1）

證據 (觸發的規則、啟發式、鏈接)

有效開始 / 有效結束 (標籤變更！)

錢包聚類：保持保守

聚類可以幫助（例如，將由一個操作者控制的地址分組），但如果錯誤，則可能會污染你的數據集。

偏好 精確性而非召回率：錯誤合併比漏掉合併更糟。

將聚類視為假設，而非事實。

保留原始地址，以便能夠回滾。

實體任務	解鎖內容	常見陷阱
合約分類	協議層級特徵	代理/升級模式誤導
錢包聚類	群體流	來自共同資助者的錯誤合併
機器人檢測	清晰的“有機”信號	隨著機器人適應的標籤漂移
財庫識別	實際收益分析	混合財庫與用戶費用

第3步：DeFi的特徵工程（“經濟真相”層）

這是AI變得有用的地方。你的模型從特徵中學習——因此設計反映機制的特徵，而不僅僅是“數字”。

A. DEX & 流動性特徵（執行現實）

有用的特徵包括：

深度與滑點： 交易規模的預估價格影響（例如，$10k/$100k/$1m）

流動性分佈： 當前價格附近的集中度（針對集中流動性AMM）

費用效率： 每單位TVL的費用，每單位交易量的費用

洗盤交易信號： 高交易量但淨頭寸變化小

MEV壓力： 三明治模式、回補頻率、池活動周圍的優先費用尖峰

重要規則： 如果你關心可交易性，建模 壓力下的滑點，而不是“平均每日交易量”。

B. 借貸特徵（破產與反身性）

利用率： 需求壓力指標

抵押品集中度： 前N名抵押品的份額（鯨魚風險）

清算密度： 多少抵押品接近清算閾值

壞債代理： 清算失敗或回收少於債務的情況

利率狀態變化： 借貸/供應利率的突然變化

C. “實際收益”與激勵收益（可持續性核心）

DeFi 收益通常混合：

費用支持的收益： 交易費、借貸利息、協議收入

激勵收益： 代幣發放、獎勵、賄賂、一次性補貼

一個實用的分解：

gross_yield = fee_yield + incentive_yield

real_yield ≈ fee_yield - dilution_cost （稀釋成本是依上下文而定，但至少應追蹤發放量佔市場市值和流通供應增長的百分比）

主要見解：可持續收益很少是最高收益。它是當激勵減少時仍然存在的收益。

第 4 步：標記目標（您希望模型預測的內容）

許多 DeFi 數據集失敗是因為標籤模糊。好的目標是具體且可測量的。

模型目標的例子

風險分類： “30 天內 >30% TVL 下降的機率”

流動性衝擊： “在高波動性期間，$250k 交易的滑點超過 2% 的機率”

收益崩潰： “費用與發放比率連續 14 天低於 0.3”

漏洞/異常： “相對於歷史基線的異常流出”

狀態檢測： “市場從有機流動性過渡到激勵驅動的流動性”

避免標籤洩漏

如果您的標籤使用未來信息（如後來的漏洞），請確保您的特徵僅使用事件發生前可用的數據。否則模型會“作弊”。

第 5 步：選擇合適的 AI 方法（以及 LLMs 的適用範圍）

不同的 DeFi 問題對應不同的模型家族。

A. 時間序列預測（當動態很重要時）

在你預測時使用：

費用、交易量、利用率、排放時間表

TVL 流入/流出

波動性狀態

B. 分類與排名（當你選擇“最佳候選者”時）

在你需要時使用：

“按可持續收益排名的前 20 個池”

“最有可能經歷流動性衝擊的協議”

“最有可能累積的錢包群體”

C. 異常檢測（當你尚未知道攻擊時）

對於以下情況很有用：

新的利用模式

治理攻擊

橋接耗盡簽名

預言機操控狀態

D. 圖形學習（當關係是信號時）

鏈上自然是一個圖：錢包 ↔ 合約 ↔ 池 ↔ 資產。基於圖的特徵在以下方面可以超越平面表格：

Sybil 檢測

協調行為

傳染路徑（清算級聯）

LLMs 的幫助（以及它們的局限）

LLMs 非常適合：

將提案、文件、審計解析為結構化筆記

提取治理論壇中的“變更內容”

生成假設和檢查

LLMs 不是的替代品：

正確的鏈上解碼

因果推斷

回測紀律

一個實用的混合：

LLMs 用於 解釋 + 結構

ML/時間序列/圖形用於 預測 + 評分

基於規則的檢查用於 硬約束

第 6 步：評估和回測（不可妥協的部分）

DeFi 是非平穩的。如果你不仔細評估，你的“信號”將是一種幻影。

A. 按時間分割，而不是隨機分割

使用基於時間的分割：

訓練：較舊的時期

驗證：中間

測試：最近的樣本外窗口

B. 追蹤準確性和決策品質

在去中心化金融（DeFi）中，您經常關心的是 排名和風險，而不僅僅是「準確性」。

分類：精確度/召回率，ROC-AUC，PR-AUC

排名：NDCG，top-k 命中率

風險：校準曲線，預期虧損，回撤統計

穩定性：隨時間的性能衰退（漂移）

簡單的評估檢查清單

定義 決策規則（例如，「如果風險分數 > 0.7 則避免」）
在 交易成本和滑點 假設下進行回測
執行 壓力測試（高燃氣費、高波動性、流動性緊縮）
與基準進行比較（簡單的啟發式常常勝出）
存儲 審計記錄（特徵、模型版本、快照區塊）

評估層級	測量內容	為什麼重要
預測性	AUC / 錯誤	信號品質
經濟性	盈虧 / 回撤 / 滑點	現實世界的可行性
操作性	延遲 / 穩定性	能否每天運行？
安全性	假陽性/假陰性	風險偏好對齊

第 7 步：作為循環部署（而不是一次性報告）

真正的「實用工作流程」是一個您可以每天/每週運行的循環。

核心生產循環

吸收新的區塊/事件

在滾動窗口上重新計算特徵

對池/協議/錢包群體進行評分

觸發閾值違規的警報

記錄解釋和快照以便於審計

在 DeFi 中重要的監控

數據漂移： 交易量/費用/狀態是否超出歷史範圍？

標籤漂移： 「MEV 機器人」行為是否在變化？

管道健康： 缺失事件、ABI 解碼失敗、價格預言機異常

模型衰退： 最近窗口的性能下降

實用規則：如果您無法解釋 為什麼 模型改變了其分數，您就無法在反射市場中信任它。

一個實例：“這個 APY 真的嗎？”

讓我們將工作流程應用於一個常見的 DeFi 陷阱：主要是激勵的吸引性收益。

步驟

定義對象： 一個特定的池/金庫

時間範圍： 接下來的 30–90 天

結果： 可持續性評分

計算：

fee_revenue_usd（交易費用 / 借貸利息）

incentives_usd（排放 + 賄賂 + 獎勵）

net_inflows_usd（TVL 是有機的還是雇傭的？）

user_return_estimate（費用收入減去 IL / 借貸成本（如適用））

一個簡單的可持續性比率：

fee_to_incentive = fee_revenue_usd / max(incentives_usd, 1)

解釋：

fee_to_incentive > 1.0 通常表示以費用支持的收益

fee_to_incentive < 0.3 表示激勵主導

指標	它告訴你什麼	危險閾值
feetoincentive	以費用支持的收益 vs 排放	< 0.3
TVL 流失	雇傭流動性	每週高流失
鯨魚份額	集中風險	前 5 名 > 40%
MEV 強度	執行毒性	三明治率上升
每 TVL 淨費用	效率	下降趨勢

添加 AI：

在多個交易量情境下預測 fee_revenue_usd

將“有機 vs 以激勵驅動”進行分類

當比率快速下滑時發出警報

AI 如何在鏈上進行 DeFi 數據分析？

AI 用於 DeFi 數據分析通過將低層區塊鏈工件（交易、日誌、追蹤和狀態）轉換為 經濟特徵（費用、槓桿、流動性深度、風險集中），然後學習可以測量的結果模式（收益可持續性、流動性衝擊、破產風險、異常流動）。 “AI” 部分的效果取決於：

特徵映射 從事件 → 經濟，

定義成功/失敗的標籤，

以及防止過擬合的 評估循環。

如果將工作流程視為可重複的系統——就像 SimianX 風格的多步分析中強調的分階段研究方法——你將獲得隨著時間推移而改進的模型，而不是脆弱的一次性見解。

實用工具：你可以實際運行的最小堆疊

你不需要一個龐大的團隊，但你確實需要紀律。

A. 數據層

倉庫（按鏈/時間的表格 + 分區）

ABI 解碼和事件標準化

帶有預言機/TWAP 防護的價格管道

B. 分析層

特徵作業（滾動窗口、群體指標）

評估工具（時間拆分、基準、壓力測試）

儀表板 + 警報

C. “研究代理” 層（可選但強大）

這是多代理思維閃耀的地方：

一個代理檢查數據品質

一個專注於協議機制

一個對假設進行壓力測試

一個撰寫最終簡報，附上引用和警告

這也是 SimianX AI 可以成為有用的思維模型的地方：不要依賴單一的“全知”分析，而是使用 專業視角 並強迫明確的權衡——然後輸出一份清晰、結構化的報告。你可以在 SimianX AI 探索平台方法。

SimianX AI tooling stack — tooling stack

常見失敗模式（以及如何避免它們）

將 TVL 誤認為健康狀態： TVL 可以被租用。追蹤流失率、集中度和費用效率。

忽視滑點成本： 沒有執行假設的回測是幻想。

過度信任標籤： “智慧資金”標籤會漂移；保持信心並重新驗證。

未建模激勵： 排放時間表很重要；將其視為一級變數。

沒有審計痕跡： 如果你無法從相同的區塊中重現分數，那就不是研究—而是內容。

關於 DeFi 數據分析的 AI 常見問題：實用的鏈上工作流程

如何為 DeFi 構建鏈上特徵以進行機器學習？

從協議機制開始：將事件映射到經濟學（費用、債務、抵押品、流動性深度）。使用滾動窗口，避免洩漏，並存儲帶版本控制的特徵定義，以便能夠重現結果。

DeFi 中的實際收益是什麼，為什麼重要？

實際收益是主要由有機協議收入（費用/利息）支持的收益，而不是代幣排放。這很重要，因為排放可能會減少，而基於費用的回報通常會持續存在（儘管它們仍然可能是週期性的）。

如何在不自欺欺人的情況下回測 DeFi 信號？

按時間拆分，包含交易成本和滑點，並在壓力情境中進行測試。始終與簡單基準進行比較；如果你的模型無法可靠地超越啟發式，那麼它可能過擬合。

LLM 能否取代定量鏈上分析？

LLM 可以加快解釋速度—總結提案、提取假設、組織檢查清單—但它們無法取代正確的事件解碼、嚴謹的標籤和基於時間的評估。使用 LLM 來結構研究，而不是“幻覺”鏈上數據。

我該如何檢測激勵驅動的（雇傭型）流動性？

追蹤 TVL 流失、費用與激勵比率以及錢包群體組成。如果流動性在激勵上升時出現，並在之後迅速離開，則將收益視為脆弱，除非費用獨立支持它。

結論

當你將鏈上噪音轉化為 可重複的工作流程 時，AI 在 DeFi 中變得真正有價值：以決策為先的框架、可重複的數據集、保守的實體標記、基於機制的特徵、時間分割評估和持續監控。遵循這個實用的鏈上循環，你將產出可與各個協議進行比較的分析，對於狀態變化具有韌性，並且能夠向團隊成員或利益相關者解釋。

如果你想要一種結構化的方式來進行分階段的多角度研究（並將複雜數據轉化為清晰、可分享的輸出），可以探索 SimianX AI 作為將嚴謹分析組織成可行工作流程的模型。

AI做DeFi鏈上數據分析:從數據到信號的完整實戰工作流