DeFi 数据分析中的 AI:实用的链上工作流程
DeFi 数据分析中的 AI:实用的链上工作流程 是关于将透明但混乱的区块链活动转化为 可重复的研究:干净的数据集、可辩护的特征、可测试的假设和监控的模型。如果你曾经查看过 TVL 仪表板、收益页面和代币图表,并觉得“这感觉不太靠谱”,那么这个工作流程就是你的解药。如果你喜欢结构化的、分阶段的分析(SimianX AI 处理多步骤研究循环的方式),你可以将同样的纪律带入链上工作,使结果可解释、在协议之间可比较,并且易于迭代。

为什么链上数据分析比看起来更难(但更好)
链上数据为你提供了 真实依据:转账、交换、借贷、清算、质押、治理投票和费用流。但“真实依据”并不意味着“简单真相”。DeFi 分析师会遇到以下问题:
- 实体模糊性: 地址不是身份;合约代理其他合约;中继者掩盖了 EOAs。
- 可组合流: 一个用户行为触发多个内部调用、事件和状态变化。
- 激励扭曲: 收益可能因发行、洗盘活动或临时流动性挖矿而被夸大。
- 对抗环境: MEV、夹击、预言机游戏和治理捕获会导致非平稳行为。
- 评估陷阱: 将“好协议”与“坏协议”进行标记是主观的,除非你定义一个可测量的结果。
好处是巨大的:当你建立一个 AI 准备好的管道时,你可以用 证据 而不是直觉来回答问题——然后在条件变化时不断重新运行相同的工作流程。

第0步:从决策开始,而不是数据集
在DeFi中浪费时间的最快方式是“下载所有内容”并希望模式出现。相反,定义:
- 决策: 基于分析你将做出什么不同的决定?
- 对象: 协议、池、代币、金库策略或钱包群体?
- 时间范围: 日内、每周、每季度?
- 结果指标: 什么算作成功或失败?
与AI良好映射的示例决策
- 协议风险监控: “我们应该限制对这个借贷市场的风险敞口吗?”
- 收益可持续性: “这个年化收益率主要是来自于发行,还是由费用支持?”
- 流动性健康: “在压力下,我们能否以可接受的滑点进出?”
- 钱包行为: “‘聪明资金’群体是在积累还是分配?”
- 治理动态: “投票权是否集中在少数实体手中?”
关键见解:当目标可测量时,AI最强大(例如,回撤概率、清算频率、费用与发行比),而不是当目标是“良好的叙述”。

第1步:建立你的链上数据基础(来源 + 可重复性)
一个实用的链上工作流程需要两个层次:原始链真相和丰富的上下文。
A. 原始链真相(规范输入)
至少,计划收集:
- 区块/交易: 时间戳、燃气、成功/失败
- 日志/事件: 合约发出的(DEX交换、铸造/销毁、借款、还款)
- 追踪/内部调用: 复杂交易的调用图(对聚合器和金库尤其重要)
- 状态快照: 在时间t时的余额、储备、债务、抵押、治理权力
专业提示: 将每个数据集视为一个 版本快照:
- 链 + 块范围(或确切的块高度)
- 索引器版本(如果使用第三方)
- 解码 ABI 版本
- 价格预言机方法
B. 丰富性(您需要的“意义”上下文)
- 代币元数据: 小数位,符号,包装,重基行为
- 价格数据: 可信的预言机价格 + DEX 派生的 TWAP(带有保护措施)
- 协议语义: 哪些事件对应于哪些经济行为
- 标签: 合约类别(DEX,借贷,桥),已知多签,CEX 热钱包等。
最小可复现模式(您希望在仓库中拥有的内容)
考虑“事实表”和“维度”:
fact_swaps(chain, block_time, tx_hash, pool, token_in, token_out, amount_in, amount_out, trader, fee_paid)
fact_borrows(chain, block_time, market, borrower, asset, amount, rate_mode, health_factor)
dim_address(address, label, type, confidence, source)
dim_token(token, decimals, is_wrapped, underlying, risk_flags)
dim_pool(pool, protocol, pool_type, fee_tier, token0, token1)
保持 inline code 命名的一致性,以免下游功能中断。

第 2 步:规范化实体(地址 → 行为者)
AI 模型不以十六进制字符串思考;它们从 行为模式 中学习。您的工作是尽可能将地址转换为稳定的“实体”。
实用标签方法(快速 → 更好)
从三个层级开始:
- 第一层(高信心): 协议合约,知名多签,经过验证的部署者
- 第二层(中等): 聚类启发式(共享资金来源,重复交互模式)
- 第三层(低): 行为原型(套利机器人,MEV 搜索者,被动 LP)
每个标签要存储的内容
label(例如,“MEV 机器人”,“协议国库”)
confidence(0–1)
evidence(触发的规则,启发式,链接)
valid_from/valid_to(标签变化!)
钱包聚类:保持保守
聚类可以提供帮助(例如,将由一个操作员控制的地址分组),但如果错误,它也可能污染您的数据集。
- 更倾向于 精确度而非召回率:错误合并比漏合并更糟糕。
- 将聚类视为 假设,而非事实。
- 保留原始地址,以便您可以回滚。
| 实体任务 | 解锁内容 | 常见陷阱 |
|---|---|---|
| 合同分类 | 协议级特征 | 代理/升级模式误导 |
| 钱包聚类 | 群体流动 | 共享资金来源的错误合并 |
| 机器人检测 | 清晰的“有机”信号 | 随着机器人适应的标签漂移 |
| 财库识别 | 实际收益分析 | 财库与用户费用混淆 |

第3步:为DeFi进行特征工程(“经济真相”层)
这是AI变得有用的地方。您的模型从特征中学习——因此设计反映 机制 的特征,而不仅仅是“数字”。
A. DEX和流动性特征(执行现实)
有用的特征包括:
- 深度和滑点: 交易规模的估计价格影响(例如,$10k/$100k/$1m)
- 流动性分布: 当前价格附近的集中度(针对集中流动性AMM)
- 费用效率: 每单位TVL的费用,每单位交易量的费用
- 洗盘交易信号: 高交易量但净头寸变化小
- MEV压力: 三明治模式,反向交易频率,池活动周围的优先费用峰值
重要规则: 如果您关心可交易性,请建模 压力下的滑点,而不是“平均每日交易量”。
B. 借贷特征(破产与反身性)
- 利用率: 需求压力指标
- 抵押品集中度: 前N名抵押品份额(鲸鱼风险)
- 清算密度: 多少抵押品接近清算阈值
- 坏账代理: 清算失败或回收少于债务的情况
- 利率制度变化: 借贷/供应利率的突然变化
C. “真实收益”与激励收益(可持续性核心)
DeFi 收益通常混合:
- 费用支持收益: 交易费用、借贷利息、协议收入
- 激励收益: 代币发行、奖励、贿赂、一次性补贴
一个实用的分解:
gross_yield = fee_yield + incentive_yield
real_yield ≈ fee_yield - dilution_cost(稀释成本是上下文相关的,但至少应该跟踪发行量占市值和流通供应增长的百分比)
关键见解:可持续收益很少是最高收益。它是当激励减少时仍然存在的收益。

第 4 步:标记目标(您希望模型预测的内容)
许多 DeFi 数据集失败是因为标签模糊。好的目标是具体且可测量的。
模型目标示例
- 风险分类: “30 天内 >30% TVL 回撤的概率”
- 流动性冲击: “在高波动期间,$250k 交易的滑点 >2% 的机会”
- 收益崩溃: “费用与发行比率连续 14 天低于 0.3”
- 漏洞/异常: “相对于历史基线的异常流出”
- 制度检测: “市场从有机流动性转变为激励驱动的流动性”
避免标签泄漏
如果您的标签使用未来信息(例如后来的漏洞),请确保您的特征仅使用事件发生前可用的数据。否则模型会“作弊”。

第5步:选择正确的AI方法(以及LLMs的适用范围)
不同的DeFi问题映射到不同的模型家族。
A. 时间序列预测(当动态很重要时)
在你预测时使用:
- 费用、交易量、利用率、排放计划
- TVL流入/流出
- 波动性状态
B. 分类与排名(当你选择“顶级候选人”时)
在你需要时使用:
- “按可持续收益排名的前20个池”
- “最有可能经历流动性冲击的协议”
- “最有可能积累的钱包群体”
C. 异常检测(当你还不知道攻击时)
对以下内容有用:
- 新的利用模式
- 治理攻击
- 桥接耗尽签名
- 预言机操控状态
D. 图学习(当关系是信号时)
链上自然是一个图:钱包 ↔ 合约 ↔ 池 ↔ 资产。基于图的特征在以下方面可以超越平面表格:
- Sybil检测
- 协调行为
- 传染路径(清算级联)
LLMs的帮助(以及它们不适用的地方)
LLMs非常适合:
- 将提案、文档、审计解析为结构化笔记
- 提取治理论坛中的“变化内容”
- 生成假设和检查
LLMs 不是替代品:
- 正确的链上解码
- 因果推断
- 回测纪律
一个实用的混合:
- LLMs用于解释 + 结构
- ML/时间序列/图用于预测 + 评分
- 基于规则的检查用于硬约束

第6步:评估和回测(不可谈判的部分)
DeFi是非平稳的。如果你不仔细评估,你的“信号”就是海市蜃楼。
A. 按时间分割,而不是随机分割
使用基于时间的分割:
- 训练:较早的时期
- 验证:中间
- 测试:最近的样本外窗口
B. 跟踪准确性和决策质量
在 DeFi 中,您通常关注 排名和风险,而不仅仅是“准确性”。
- 分类:精确度/召回率,ROC-AUC,PR-AUC
- 排名:NDCG,top-k 命中率
- 风险:校准曲线,预期短缺,回撤统计
- 稳定性:随时间的性能衰减(漂移)
简单评估检查清单
- 定义 决策规则(例如,“如果风险评分 > 0.7 则避免”)
- 在 交易成本和滑点 假设下进行回测
- 运行 压力测试(高油费,高波动性,流动性紧缩)
- 与 基准 进行比较(简单启发式通常获胜)
- 存储 审计记录(特征,模型版本,快照区块)
| 评估层级 | 你测量的内容 | 重要性 |
|---|---|---|
| 预测性 | AUC / 错误 | 信号质量 |
| 经济性 | PnL / 回撤 / 滑点 | 现实世界的可行性 |
| 操作性 | 延迟 / 稳定性 | 它能每天运行吗? |
| 安全性 | 假阳性/假阴性 | 风险偏好对齐 |

第 7 步:作为循环部署(而不是一次性报告)
一个真正的“实用工作流程”是一个您可以每天/每周运行的循环。
核心生产循环
- 吸收新块/事件
- 在滚动窗口上重新计算特征
- 对池/协议/钱包群体进行评分
- 对阈值突破触发警报
- 记录解释和快照以便审计
在 DeFi 中重要的监控
- 数据漂移: 交易量/费用/状态是否超出历史范围?
- 标签漂移: “MEV 机器人”的行为是否在变化?
- 管道健康: 缺失事件,ABI 解码失败,价格预言机异常
- 模型衰减: 最近窗口中的性能下降
实用规则:如果您无法解释 为什么 模型改变了其评分,您就无法在反射市场中信任它。

一个实例: “这个APY是真的吗?”
让我们将工作流程应用于一个常见的DeFi陷阱:主要是激励的吸引性收益。
步骤
- 定义对象: 一个特定的池/金库
- 时间范围: 接下来的30–90天
- 结果: 可持续性评分
计算:
fee_revenue_usd(交易费用 / 借款利息)
incentives_usd(排放 + 贿赂 + 奖励)
net_inflows_usd(TVL是有机的还是雇佣的?)
user_return_estimate(费用收入减去IL / 借款成本(如适用))
一个简单的可持续性比率:
fee_to_incentive = fee_revenue_usd / max(incentives_usd, 1)
解释:
fee_to_incentive > 1.0通常表示费用支持的收益
fee_to_incentive < 0.3表明激励占主导
| 指标 | 它告诉你什么 | 红旗阈值 |
|---|---|---|
| feetoincentive | 费用支持与排放 | < 0.3 |
| TVL流失 | 雇佣流动性 | 每周高流失 |
| 大户份额 | 集中风险 | 前5名 > 40% |
| MEV强度 | 执行毒性 | 上升的夹击率 |
| 每TVL净费用 | 效率 | 下降趋势 |
添加AI:
- 在多个交易量场景下预测
fee_revenue_usd
- 分类“有机与激励驱动”机制
- 当比率快速下降时发出警报

AI如何在链上进行DeFi数据分析?
AI用于DeFi数据分析通过将低级区块链工件(交易、日志、跟踪和状态)转化为经济特征(费用、杠杆、流动性深度、风险集中),然后学习可以测量的结果的模式(收益可持续性、流动性冲击、破产风险、异常流动)。 “AI”部分的效果取决于:
- 特征映射从事件 → 经济,
- 定义成功/失败的标签,
- 以及防止过拟合的评估循环。
如果将工作流程视为一个可重复的系统——就像在SimianX风格的多步骤分析中强调的分阶段研究方法——您将获得随着时间推移而改进的模型,而不是脆弱的一次性见解。

实用工具:您可以实际运行的最小堆栈
您不需要一个庞大的团队,但您确实需要纪律。
A. 数据层
- 数据仓库(按链/时间的表 + 分区)
- ABI解码和事件规范化
- 带有预言机/TWAP保护的价格管道
B. 分析层
- 特征作业(滚动窗口、队列指标)
- 评估工具(时间拆分、基准、压力测试)
- 仪表板 + 警报
C. “研究代理”层(可选但强大)
在这里,多代理思维方式大放异彩:
- 一个代理检查数据质量
- 一个专注于协议机制
- 一个压力测试假设
- 一个撰写最终简报,附上引用和警告
这也是SimianX AI可以成为有用的思维模型的地方:不要依赖单一的“全知”分析,而是使用专业视角并强制明确的权衡——然后输出清晰、结构化的报告。您可以在SimianX AI上探索平台方法。

常见失败模式(以及如何避免它们)
- 将 TVL 误认为健康: TVL 可以被租用。跟踪流失、集中度和费用效率。
- 忽视滑点成本: 没有执行假设的回测是幻想。
- 过于信任标签: “聪明资金”标签会漂移;保持信心并重新验证。
- 未建模激励: 排放计划很重要;将其视为一流变量。
- 没有审计轨迹: 如果无法从相同区块重现分数,那就不是研究——而是内容。
关于 DeFi 数据分析的 AI 常见问题:实用的链上工作流程
如何为 DeFi 中的机器学习构建链上特征?
从协议机制开始:将事件映射到经济学(费用、债务、抵押品、流动性深度)。使用滚动窗口,避免泄漏,并存储带版本控制的特征定义,以便您可以重现结果。
DeFi 中的真实收益是什么,为什么重要?
真实收益是主要由有机协议收入(费用/利息)支持的收益,而不是代币排放。它很重要,因为排放可能会消退,而基于费用的回报通常会持续(尽管它们仍然可能是周期性的)。
如何在不自欺欺人的情况下回测 DeFi 信号?
按时间拆分,包含交易成本和滑点,并在压力状态下测试。始终与简单基准进行比较;如果您的模型无法可靠地超越启发式,可能是过拟合。
LLM 能否替代定量链上分析?
LLM 可以加快解释速度——总结提案、提取假设、组织检查清单——但它们无法替代正确的事件解码、严格的标签和基于时间的评估。使用 LLM 来构建研究,而不是“幻觉”链。
我如何检测激励驱动的(雇佣)流动性?
跟踪 TVL 流失、费用与激励比率以及钱包群体组成。如果流动性在激励激增时出现,并在之后迅速离开,则将收益视为脆弱,除非费用独立支持它。
结论
当你将链上噪声转化为 可重复的工作流程 时,AI 在 DeFi 中才真正有价值:以决策为先的框架、可重复的数据集、保守的实体标记、基于机制的特征、时间分割评估和持续监控。遵循这个实用的链上循环,你将产生可与协议间比较、对制度变化具有韧性、并且能够向团队成员或利益相关者解释的分析。
如果你想要一种结构化的方法来进行分阶段、多视角的研究(并将复杂数据转化为清晰、可共享的输出),可以探索 SimianX AI 作为将严谨分析组织成可操作工作流程的模型。



