DeFi 數據分析中的 AI:實用的鏈上工作流程
DeFi 數據分析中的 AI:實用的鏈上工作流程 是關於將透明但混亂的區塊鏈活動轉化為 可重複的研究:乾淨的數據集、可辯護的特徵、可測試的假設和監控的模型。如果你曾經查看過 TVL 儀表板、收益頁面和代幣圖表,並想過「這感覺不太可靠」,那麼這個工作流程就是你的解藥。如果你喜歡結構化的、分階段的分析(SimianX AI 方式框架下的多步研究循環),你可以將相同的紀律帶入鏈上工作,使結果可解釋、可比較於不同協議,並且易於迭代。

為什麼鏈上數據分析比看起來更難(但更好)
鏈上數據為你提供了 真實情況:轉移、交換、借貸、清算、質押、治理投票和費用流動。但「真實情況」並不意味著「簡單的真相」。DeFi 分析師會遇到以下問題:
- 實體模糊性: 地址不是身份;合約代理其他合約;中繼者隱藏了 EOAs。
- 可組合流: 一個用戶行為觸發多個內部調用、事件和狀態變更。
- 激勵扭曲: 收益可能因發放、洗盤活動或臨時流動性挖礦而膨脹。
- 對抗環境: MEV、夾擊、預言機遊戲和治理捕獲造成非穩定行為。
- 評估陷阱: 標籤「好協議」與「壞協議」是主觀的,除非你定義可衡量的結果。
好處是巨大的:當你建立一個 AI 準備好的管道時,你可以用 證據 而不是直覺來回答問題——然後隨著條件變化不斷重複相同的工作流程。

步驟 0:從決策開始,而不是數據集
在 DeFi 中浪費時間的最快方法就是「下載所有東西」並希望模式出現。相反,定義:
- 決策: 根據分析你會有什麼不同的做法?
- 對象: 協議、池、代幣、金庫策略或錢包群體?
- 時間範圍: 當日內、每週、每季度?
- 結果指標: 什麼算作成功或失敗?
與 AI 相關的示例決策
- 協議風險監控: 「我們是否應該限制對這個借貸市場的風險敞口?」
- 收益可持續性: 「這個年化收益率主要是來自於發行,還是由費用支持?」
- 流動性健康: 「在壓力下我們能否以可接受的滑點進出?」
- 錢包行為: 「‘智慧資金’群體是在積累還是分配?」
- 治理動態: 「投票權是否集中在少數實體之間?」
關鍵見解:當目標可衡量時,AI 最強大(例如,回撤機率、清算頻率、費用與發行比率),而不是當目標是「好的敘事」。

步驟 1:建立你的鏈上數據基礎(來源 + 可重複性)
一個實用的鏈上工作流程需要兩層:原始鏈真相和增強上下文。
A. 原始鏈真相(標準輸入)
至少計劃收集:
- 區塊/交易: 時間戳、燃氣、成功/失敗
- 日誌/事件: 由合約發出的(DEX 交換、鑄造/銷毀、借款、還款)
- 追蹤/內部調用: 複雜交易的調用圖(對聚合器和金庫特別重要)
- 狀態快照: 在時間 t 的餘額、儲備、債務、抵押品、治理權力
專業提示: 將每個數據集視為 版本快照:
- 鏈 + 區塊範圍(或精確的區塊高度)
- 索引器版本(如果使用第三方)
- 解碼 ABI 版本
- 價格預言機方法
B. 補充資料(您需要的“意義”上下文)
- 代幣元數據: 小數位、符號、包裝、重基準行為
- 價格數據: 可信的預言機價格 + DEX 衍生的 TWAP(帶有防護措施)
- 協議語義: 哪些事件對應於哪些經濟行為
- 標籤: 合約類別(DEX、借貸、橋樑)、已知的多簽名、CEX 熱錢包等。
最小可重現的架構(您希望在倉庫中擁有的)
以“事實表”和“維度”思考:
fact_swaps(chain, block_time, tx_hash, pool, token_in, token_out, amount_in, amount_out, trader, fee_paid)
fact_borrows(chain, block_time, market, borrower, asset, amount, rate_mode, health_factor)
dim_address(address, label, type, confidence, source)
dim_token(token, decimals, is_wrapped, underlying, risk_flags)
dim_pool(pool, protocol, pool_type, fee_tier, token0, token1)
保持 inline code 命名的一致性,以免下游功能出現故障。

步驟 2:標準化實體(地址 → 行為者)
AI 模型不會以十六進制字符串思考;它們從 行為模式 中學習。您的工作是將地址轉換為穩定的“實體”,盡可能做到這一點。
實用標籤方法(快速 → 更好)
從三個層級開始:
- 層級 1(高信心): 協議合約、知名多簽名、已驗證的部署者
- 層級 2(中等): 集群啟發式(共享資金來源、重複互動模式)
- 層級 3(低): 行為原型(套利機器人、MEV 搜索者、被動 LP)
每個標籤需要存儲的內容
label(例如,“MEV 機器人”、“協議金庫”)
confidence(0–1)
證據(觸發的規則、啟發式、鏈接)
有效開始/有效結束(標籤變更!)
錢包聚類:保持保守
聚類可以幫助(例如,將由一個操作者控制的地址分組),但如果錯誤,則可能會污染你的數據集。
- 偏好 精確性而非召回率:錯誤合併比漏掉合併更糟。
- 將聚類視為 假設,而非事實。
- 保留原始地址,以便能夠回滾。
| 實體任務 | 解鎖內容 | 常見陷阱 |
|---|---|---|
| 合約分類 | 協議層級特徵 | 代理/升級模式誤導 |
| 錢包聚類 | 群體流 | 來自共同資助者的錯誤合併 |
| 機器人檢測 | 清晰的“有機”信號 | 隨著機器人適應的標籤漂移 |
| 財庫識別 | 實際收益分析 | 混合財庫與用戶費用 |

第3步:DeFi的特徵工程(“經濟真相”層)
這是AI變得有用的地方。你的模型從特徵中學習——因此設計反映 機制 的特徵,而不僅僅是“數字”。
A. DEX & 流動性特徵(執行現實)
有用的特徵包括:
- 深度與滑點: 交易規模的預估價格影響(例如,$10k/$100k/$1m)
- 流動性分佈: 當前價格附近的集中度(針對集中流動性AMM)
- 費用效率: 每單位TVL的費用,每單位交易量的費用
- 洗盤交易信號: 高交易量但淨頭寸變化小
- MEV壓力: 三明治模式、回補頻率、池活動周圍的優先費用尖峰
重要規則: 如果你關心可交易性,建模 壓力下的滑點,而不是“平均每日交易量”。
B. 借貸特徵(破產與反身性)
- 利用率: 需求壓力指標
- 抵押品集中度: 前N名抵押品的份額(鯨魚風險)
- 清算密度: 多少抵押品接近清算閾值
- 壞債代理: 清算失敗或回收少於債務的情況
- 利率制度變化: 借貸/供應利率的突然變化
C. “實際收益”與激勵收益(可持續性核心)
DeFi 收益通常混合:
- 費用支持的收益: 交易費、借貸利息、協議收入
- 激勵收益: 代幣發放、獎勵、賄賂、一次性補貼
一個實用的分解:
gross_yield = fee_yield + incentive_yield
real_yield ≈ fee_yield - dilution_cost(稀釋成本是依上下文而定,但至少應追蹤發放量佔市場市值和流通供應增長的百分比)
主要見解:可持續收益很少是最高收益。它是當激勵減少時仍然存在的收益。

第 4 步:標記目標(您希望模型預測的內容)
許多 DeFi 數據集失敗是因為標籤模糊。好的目標是具體且可測量的。
模型目標的例子
- 風險分類: “30 天內 >30% TVL 下降的機率”
- 流動性衝擊: “在高波動性期間,$250k 交易的滑點超過 2% 的機率”
- 收益崩潰: “費用與發放比率連續 14 天低於 0.3”
- 漏洞/異常: “相對於歷史基線的異常流出”
- 制度檢測: “市場從有機流動性過渡到激勵驅動的流動性”
避免標籤洩漏
如果您的標籤使用未來信息(如後來的漏洞),請確保您的特徵僅使用事件發生前可用的數據。否則模型會“作弊”。

第 5 步:選擇合適的 AI 方法(以及 LLMs 的適用範圍)
不同的 DeFi 問題對應不同的模型家族。
A. 時間序列預測(當動態很重要時)
在你預測時使用:
- 費用、交易量、利用率、排放時間表
- TVL 流入/流出
- 波動性狀態
B. 分類與排名(當你選擇“最佳候選者”時)
在你需要時使用:
- “按可持續收益排名的前 20 個池”
- “最有可能經歷流動性衝擊的協議”
- “最有可能累積的錢包群體”
C. 異常檢測(當你尚未知道攻擊時)
對於以下情況很有用:
- 新的利用模式
- 治理攻擊
- 橋接耗盡簽名
- 預言機操控狀態
D. 圖形學習(當關係是信號時)
鏈上自然是一個圖:錢包 ↔ 合約 ↔ 池 ↔ 資產。基於圖的特徵在以下方面可以超越平面表格:
- Sybil 檢測
- 協調行為
- 傳染路徑(清算級聯)
LLMs 的幫助(以及它們的局限)
LLMs 非常適合:
- 將提案、文件、審計解析為結構化筆記
- 提取治理論壇中的“變更內容”
- 生成假設和檢查
LLMs 不是 的替代品:
- 正確的鏈上解碼
- 因果推斷
- 回測紀律
一個實用的混合:
- LLMs 用於 解釋 + 結構
- ML/時間序列/圖形用於 預測 + 評分
- 基於規則的檢查用於 硬約束

第 6 步:評估和回測(不可妥協的部分)
DeFi 是非平穩的。如果你不仔細評估,你的“信號”將是一種幻影。
A. 按時間分割,而不是隨機分割
使用基於時間的分割:
- 訓練:較舊的時期
- 驗證:中間
- 測試:最近的樣本外窗口
B. 追蹤準確性和決策品質
在去中心化金融(DeFi)中,您經常關心的是 排名和風險,而不僅僅是「準確性」。
- 分類:精確度/召回率,ROC-AUC,PR-AUC
- 排名:NDCG,top-k 命中率
- 風險:校準曲線,預期虧損,回撤統計
- 穩定性:隨時間的性能衰退(漂移)
簡單的評估檢查清單
- 定義 決策規則(例如,「如果風險分數 > 0.7 則避免」)
- 在 交易成本和滑點 假設下進行回測
- 執行 壓力測試(高燃氣費、高波動性、流動性緊縮)
- 與 基準 進行比較(簡單的啟發式常常勝出)
- 存儲 審計記錄(特徵、模型版本、快照區塊)
| 評估層級 | 測量內容 | 為什麼重要 |
|---|---|---|
| 預測性 | AUC / 錯誤 | 信號品質 |
| 經濟性 | 盈虧 / 回撤 / 滑點 | 現實世界的可行性 |
| 操作性 | 延遲 / 穩定性 | 能否每天運行? |
| 安全性 | 假陽性/假陰性 | 風險偏好對齊 |

第 7 步:作為循環部署(而不是一次性報告)
真正的「實用工作流程」是一個您可以每天/每週運行的循環。
核心生產循環
- 吸收新的區塊/事件
- 在滾動窗口上重新計算特徵
- 對池/協議/錢包群體進行評分
- 觸發閾值違規的警報
- 記錄解釋和快照以便於審計
在 DeFi 中重要的監控
- 數據漂移: 交易量/費用/制度是否超出歷史範圍?
- 標籤漂移: 「MEV 機器人」行為是否在變化?
- 管道健康: 缺失事件、ABI 解碼失敗、價格預言機異常
- 模型衰退: 最近窗口的性能下降
實用規則:如果您無法解釋 為什麼 模型改變了其分數,您就無法在反射市場中信任它。

一個實例:“這個 APY 真的嗎?”
讓我們將工作流程應用於一個常見的 DeFi 陷阱:主要是激勵的吸引性收益。
步驟
- 定義對象: 一個特定的池/金庫
- 時間範圍: 接下來的 30–90 天
- 結果: 可持續性評分
計算:
fee_revenue_usd(交易費用 / 借貸利息)
incentives_usd(排放 + 賄賂 + 獎勵)
net_inflows_usd(TVL 是有機的還是雇傭的?)
user_return_estimate(費用收入減去 IL / 借貸成本(如適用))
一個簡單的可持續性比率:
fee_to_incentive = fee_revenue_usd / max(incentives_usd, 1)
解釋:
fee_to_incentive > 1.0通常表示以費用支持的收益
fee_to_incentive < 0.3表示激勵主導
| 指標 | 它告訴你什麼 | 危險閾值 |
|---|---|---|
| feetoincentive | 以費用支持的收益 vs 排放 | < 0.3 |
| TVL 流失 | 雇傭流動性 | 每週高流失 |
| 鯨魚份額 | 集中風險 | 前 5 名 > 40% |
| MEV 強度 | 執行毒性 | 三明治率上升 |
| 每 TVL 淨費用 | 效率 | 下降趨勢 |
添加 AI:
- 在多個交易量情境下預測
fee_revenue_usd
- 將“有機 vs 以激勵驅動”進行分類
- 當比率快速下滑時發出警報

AI 如何在鏈上進行 DeFi 數據分析?
AI 用於 DeFi 數據分析通過將低層區塊鏈工件(交易、日誌、追蹤和狀態)轉換為 經濟特徵(費用、槓桿、流動性深度、風險集中),然後學習可以測量的結果模式(收益可持續性、流動性衝擊、破產風險、異常流動)。 “AI” 部分的效果取決於:
- 特徵映射 從事件 → 經濟,
- 定義成功/失敗的 標籤,
- 以及防止過擬合的 評估循環。
如果將工作流程視為可重複的系統——就像 SimianX 風格的多步分析中強調的分階段研究方法——你將獲得隨著時間推移而改進的模型,而不是脆弱的一次性見解。

實用工具:你可以實際運行的最小堆疊
你不需要一個龐大的團隊,但你確實需要紀律。
A. 數據層
- 倉庫(按鏈/時間的表格 + 分區)
- ABI 解碼和事件標準化
- 帶有預言機/TWAP 防護的價格管道
B. 分析層
- 特徵作業(滾動窗口、群體指標)
- 評估工具(時間拆分、基準、壓力測試)
- 儀表板 + 警報
C. “研究代理” 層(可選但強大)
這是多代理思維閃耀的地方:
- 一個代理檢查數據品質
- 一個專注於協議機制
- 一個對假設進行壓力測試
- 一個撰寫最終簡報,附上引用和警告
這也是 SimianX AI 可以成為有用的思維模型的地方:不要依賴單一的“全知”分析,而是使用 專業視角 並強迫明確的權衡——然後輸出一份清晰、結構化的報告。你可以在 SimianX AI 探索平台方法。

常見失敗模式(以及如何避免它們)
- 將 TVL 誤認為健康狀態: TVL 可以被租用。追蹤流失率、集中度和費用效率。
- 忽視滑點成本: 沒有執行假設的回測是幻想。
- 過度信任標籤: “智慧資金”標籤會漂移;保持信心並重新驗證。
- 未建模激勵: 排放時間表很重要;將其視為一級變數。
- 沒有審計痕跡: 如果你無法從相同的區塊中重現分數,那就不是研究—而是內容。
關於 DeFi 數據分析的 AI 常見問題:實用的鏈上工作流程
如何為 DeFi 構建鏈上特徵以進行機器學習?
從協議機制開始:將事件映射到經濟學(費用、債務、抵押品、流動性深度)。使用滾動窗口,避免洩漏,並存儲帶版本控制的特徵定義,以便能夠重現結果。
DeFi 中的實際收益是什麼,為什麼重要?
實際收益是主要由有機協議收入(費用/利息)支持的收益,而不是代幣排放。這很重要,因為排放可能會減少,而基於費用的回報通常會持續存在(儘管它們仍然可能是週期性的)。
如何在不自欺欺人的情況下回測 DeFi 信號?
按時間拆分,包含交易成本和滑點,並在壓力情境中進行測試。始終與簡單基準進行比較;如果你的模型無法可靠地超越啟發式,那麼它可能過擬合。
LLM 能否取代定量鏈上分析?
LLM 可以加快解釋速度—總結提案、提取假設、組織檢查清單—但它們無法取代正確的事件解碼、嚴謹的標籤和基於時間的評估。使用 LLM 來結構研究,而不是“幻覺”鏈上數據。
我該如何檢測激勵驅動的(雇傭型)流動性?
追蹤 TVL 流失、費用與激勵比率以及錢包群體組成。如果流動性在激勵上升時出現,並在之後迅速離開,則將收益視為脆弱,除非費用獨立支持它。
結論
當你將鏈上噪音轉化為 可重複的工作流程 時,AI 在 DeFi 中變得真正有價值:以決策為先的框架、可重複的數據集、保守的實體標記、基於機制的特徵、時間分割評估和持續監控。遵循這個實用的鏈上循環,你將產出可與各個協議進行比較的分析,對於制度變化具有韌性,並且能夠向團隊成員或利益相關者解釋。
如果你想要一種結構化的方式來進行分階段的多角度研究(並將複雜數據轉化為清晰、可分享的輸出),可以探索 SimianX AI 作為將嚴謹分析組織成可行工作流程的模型。



