DeFi 数据分析中的 AI：实用的链上工作流程

DeFi 数据分析中的 AI：实用的链上工作流程 是关于将透明但混乱的区块链活动转化为 可重复的研究：干净的数据集、可辩护的特征、可测试的假设和监控的模型。如果你曾经查看过 TVL 仪表板、收益页面和代币图表，并觉得“这感觉不太靠谱”，那么这个工作流程就是你的解药。如果你喜欢结构化的、分阶段的分析（SimianX AI 处理多步骤研究循环的方式），你可以将同样的纪律带入链上工作，使结果可解释、在协议之间可比较，并且易于迭代。

为什么链上数据分析比看起来更难（但更好）

链上数据为你提供了 真实依据：转账、交换、借贷、清算、质押、治理投票和费用流。但“真实依据”并不意味着“简单真相”。DeFi 分析师会遇到以下问题：

实体模糊性： 地址不是身份；合约代理其他合约；中继者掩盖了 EOAs。

可组合流： 一个用户行为触发多个内部调用、事件和状态变化。

激励扭曲： 收益可能因发行、洗盘活动或临时流动性挖矿而被夸大。

对抗环境： MEV、夹击、预言机游戏和治理捕获会导致非平稳行为。

评估陷阱： 将“好协议”与“坏协议”进行标记是主观的，除非你定义一个可测量的结果。

好处是巨大的：当你建立一个 AI 准备好的管道时，你可以用证据而不是直觉来回答问题——然后在条件变化时不断重新运行相同的工作流程。

SimianX AI 杂乱的链上数据到清晰的特征 — 杂乱的链上数据到清晰的特征

第0步：从决策开始，而不是数据集

在DeFi中浪费时间的最快方式是“下载所有内容”并希望模式出现。相反，定义：

决策： 基于分析你将做出什么不同的决定？
对象： 协议、池、代币、金库策略或钱包群体？
时间范围： 日内、每周、每季度？
结果指标： 什么算作成功或失败？

与AI良好映射的示例决策

协议风险监控： “我们应该限制对这个借贷市场的风险敞口吗？”

收益可持续性： “这个年化收益率主要是来自于发行，还是由费用支持？”

流动性健康： “在压力下，我们能否以可接受的滑点进出？”

钱包行为： “‘聪明资金’群体是在积累还是分配？”

治理动态： “投票权是否集中在少数实体手中？”

关键见解：当目标可测量时，AI最强大（例如，回撤概率、清算频率、费用与发行比），而不是当目标是“良好的叙述”。

第1步：建立你的链上数据基础（来源 + 可重复性）

一个实用的链上工作流程需要两个层次：原始链真相和丰富的上下文。

A. 原始链真相（规范输入）

至少，计划收集：

区块/交易： 时间戳、燃气、成功/失败

日志/事件： 合约发出的（DEX交换、铸造/销毁、借款、还款）

追踪/内部调用： 复杂交易的调用图（对聚合器和金库尤其重要）

状态快照： 在时间t时的余额、储备、债务、抵押、治理权力

专业提示： 将每个数据集视为一个 版本快照：

链 + 块范围（或确切的块高度）

索引器版本（如果使用第三方）

解码 ABI 版本

价格预言机方法

B. 丰富性（您需要的“意义”上下文）

代币元数据： 小数位，符号，包装，重基行为

价格数据： 可信的预言机价格 + DEX 派生的 TWAP（带有保护措施）

协议语义： 哪些事件对应于哪些经济行为

标签： 合约类别（DEX，借贷，桥），已知多签，CEX 热钱包等。

最小可复现模式（您希望在仓库中拥有的内容）

考虑“事实表”和“维度”：

fact_swaps(chain, block_time, tx_hash, pool, token_in, token_out, amount_in, amount_out, trader, fee_paid)

fact_borrows(chain, block_time, market, borrower, asset, amount, rate_mode, health_factor)

dim_address(address, label, type, confidence, source)

dim_token(token, decimals, is_wrapped, underlying, risk_flags)

dim_pool(pool, protocol, pool_type, fee_tier, token0, token1)

保持 inline code 命名的一致性，以免下游功能中断。

第 2 步：规范化实体（地址 → 行为者）

AI 模型不以十六进制字符串思考；它们从 行为模式 中学习。您的工作是尽可能将地址转换为稳定的“实体”。

实用标签方法（快速 → 更好）

从三个层级开始：

第一层（高信心）： 协议合约，知名多签，经过验证的部署者

第二层（中等）： 聚类启发式（共享资金来源，重复交互模式）

第三层（低）： 行为原型（套利机器人，MEV 搜索者，被动 LP）

每个标签要存储的内容

label（例如，“MEV 机器人”，“协议国库”）

confidence（0–1）

evidence (触发的规则，启发式，链接)

valid_from / valid_to (标签变化！)

钱包聚类：保持保守

聚类可以提供帮助（例如，将由一个操作员控制的地址分组），但如果错误，它也可能污染您的数据集。

更倾向于 精确度而非召回率：错误合并比漏合并更糟糕。

将聚类视为假设，而非事实。

保留原始地址，以便您可以回滚。

实体任务	解锁内容	常见陷阱
合同分类	协议级特征	代理/升级模式误导
钱包聚类	群体流动	共享资金来源的错误合并
机器人检测	清晰的“有机”信号	随着机器人适应的标签漂移
财库识别	实际收益分析	财库与用户费用混淆

第3步：为DeFi进行特征工程（“经济真相”层）

这是AI变得有用的地方。您的模型从特征中学习——因此设计反映机制的特征，而不仅仅是“数字”。

A. DEX和流动性特征（执行现实）

有用的特征包括：

深度和滑点： 交易规模的估计价格影响（例如，$10k/$100k/$1m）

流动性分布： 当前价格附近的集中度（针对集中流动性AMM）

费用效率： 每单位TVL的费用，每单位交易量的费用

洗盘交易信号： 高交易量但净头寸变化小

MEV压力： 三明治模式，反向交易频率，池活动周围的优先费用峰值

重要规则： 如果您关心可交易性，请建模 压力下的滑点，而不是“平均每日交易量”。

B. 借贷特征（破产与反身性）

利用率： 需求压力指标

抵押品集中度： 前N名抵押品份额（鲸鱼风险）

清算密度： 多少抵押品接近清算阈值

坏账代理： 清算失败或回收少于债务的情况

利率状态变化： 借贷/供应利率的突然变化

C. “真实收益”与激励收益（可持续性核心）

DeFi 收益通常混合：

费用支持收益： 交易费用、借贷利息、协议收入

激励收益： 代币发行、奖励、贿赂、一次性补贴

一个实用的分解：

gross_yield = fee_yield + incentive_yield

real_yield ≈ fee_yield - dilution_cost（稀释成本是上下文相关的，但至少应该跟踪发行量占市值和流通供应增长的百分比）

关键见解：可持续收益很少是最高收益。它是当激励减少时仍然存在的收益。

第 4 步：标记目标（您希望模型预测的内容）

许多 DeFi 数据集失败是因为标签模糊。好的目标是具体且可测量的。

模型目标示例

风险分类： “30 天内 >30% TVL 回撤的概率”

流动性冲击： “在高波动期间，$250k 交易的滑点 >2% 的机会”

收益崩溃： “费用与发行比率连续 14 天低于 0.3”

漏洞/异常： “相对于历史基线的异常流出”

状态检测： “市场从有机流动性转变为激励驱动的流动性”

避免标签泄漏

如果您的标签使用未来信息（例如后来的漏洞），请确保您的特征仅使用事件发生前可用的数据。否则模型会“作弊”。

第5步：选择正确的AI方法（以及LLMs的适用范围）

不同的DeFi问题映射到不同的模型家族。

A. 时间序列预测（当动态很重要时）

在你预测时使用：

费用、交易量、利用率、排放计划

TVL流入/流出

波动性状态

B. 分类与排名（当你选择“顶级候选人”时）

在你需要时使用：

“按可持续收益排名的前20个池”

“最有可能经历流动性冲击的协议”

“最有可能积累的钱包群体”

C. 异常检测（当你还不知道攻击时）

对以下内容有用：

新的利用模式

治理攻击

桥接耗尽签名

预言机操控状态

D. 图学习（当关系是信号时）

链上自然是一个图：钱包 ↔ 合约 ↔ 池 ↔ 资产。基于图的特征在以下方面可以超越平面表格：

Sybil检测

协调行为

传染路径（清算级联）

LLMs的帮助（以及它们不适用的地方）

LLMs非常适合：

将提案、文档、审计解析为结构化笔记

提取治理论坛中的“变化内容”

生成假设和检查

LLMs 不是替代品：

正确的链上解码

因果推断

回测纪律

一个实用的混合：

LLMs用于解释 + 结构

ML/时间序列/图用于预测 + 评分

基于规则的检查用于硬约束

第6步：评估和回测（不可谈判的部分）

DeFi是非平稳的。如果你不仔细评估，你的“信号”就是海市蜃楼。

A. 按时间分割，而不是随机分割

使用基于时间的分割：

训练：较早的时期

验证：中间

测试：最近的样本外窗口

B. 跟踪准确性和决策质量

在 DeFi 中，您通常关注 排名和风险，而不仅仅是“准确性”。

分类：精确度/召回率，ROC-AUC，PR-AUC

排名：NDCG，top-k 命中率

风险：校准曲线，预期短缺，回撤统计

稳定性：随时间的性能衰减（漂移）

简单评估检查清单

定义 决策规则（例如，“如果风险评分 > 0.7 则避免”）
在 交易成本和滑点 假设下进行回测
运行 压力测试（高油费，高波动性，流动性紧缩）
与基准进行比较（简单启发式通常获胜）
存储 审计记录（特征，模型版本，快照区块）

评估层级	你测量的内容	重要性
预测性	AUC / 错误	信号质量
经济性	PnL / 回撤 / 滑点	现实世界的可行性
操作性	延迟 / 稳定性	它能每天运行吗？
安全性	假阳性/假阴性	风险偏好对齐

第 7 步：作为循环部署（而不是一次性报告）

一个真正的“实用工作流程”是一个您可以每天/每周运行的循环。

核心生产循环

吸收新块/事件

在滚动窗口上重新计算特征

对池/协议/钱包群体进行评分

对阈值突破触发警报

记录解释和快照以便审计

在 DeFi 中重要的监控

数据漂移： 交易量/费用/状态是否超出历史范围？

标签漂移： “MEV 机器人”的行为是否在变化？

管道健康： 缺失事件，ABI 解码失败，价格预言机异常

模型衰减： 最近窗口中的性能下降

实用规则：如果您无法解释 为什么 模型改变了其评分，您就无法在反射市场中信任它。

一个实例： “这个APY是真的吗？”

让我们将工作流程应用于一个常见的DeFi陷阱：主要是激励的吸引性收益。

步骤

定义对象： 一个特定的池/金库

时间范围： 接下来的30–90天

结果： 可持续性评分

计算：

fee_revenue_usd（交易费用 / 借款利息）

incentives_usd（排放 + 贿赂 + 奖励）

net_inflows_usd（TVL是有机的还是雇佣的？）

user_return_estimate（费用收入减去IL / 借款成本（如适用））

一个简单的可持续性比率：

fee_to_incentive = fee_revenue_usd / max(incentives_usd, 1)

解释：

fee_to_incentive > 1.0通常表示费用支持的收益

fee_to_incentive < 0.3表明激励占主导

指标	它告诉你什么	红旗阈值
feetoincentive	费用支持与排放	< 0.3
TVL流失	雇佣流动性	每周高流失
大户份额	集中风险	前5名 > 40%
MEV强度	执行毒性	上升的夹击率
每TVL净费用	效率	下降趋势

添加AI：

在多个交易量场景下预测 fee_revenue_usd

分类“有机与激励驱动”机制

当比率快速下降时发出警报

AI如何在链上进行DeFi数据分析？

AI用于DeFi数据分析通过将低级区块链工件（交易、日志、跟踪和状态）转化为经济特征（费用、杠杆、流动性深度、风险集中），然后学习可以测量的结果的模式（收益可持续性、流动性冲击、破产风险、异常流动）。 “AI”部分的效果取决于：

特征映射从事件 → 经济，

定义成功/失败的标签，

以及防止过拟合的评估循环。

如果将工作流程视为一个可重复的系统——就像在SimianX风格的多步骤分析中强调的分阶段研究方法——您将获得随着时间推移而改进的模型，而不是脆弱的一次性见解。

实用工具：您可以实际运行的最小堆栈

您不需要一个庞大的团队，但您确实需要纪律。

A. 数据层

数据仓库（按链/时间的表 + 分区）

ABI解码和事件规范化

带有预言机/TWAP保护的价格管道

B. 分析层

特征作业（滚动窗口、队列指标）

评估工具（时间拆分、基准、压力测试）

仪表板 + 警报

C. “研究代理”层（可选但强大）

在这里，多代理思维方式大放异彩：

一个代理检查数据质量

一个专注于协议机制

一个压力测试假设

一个撰写最终简报，附上引用和警告

这也是SimianX AI可以成为有用的思维模型的地方：不要依赖单一的“全知”分析，而是使用专业视角并强制明确的权衡——然后输出清晰、结构化的报告。您可以在SimianX AI上探索平台方法。

SimianX AI tooling stack — tooling stack

常见失败模式（以及如何避免它们）

将 TVL 误认为健康： TVL 可以被租用。跟踪流失、集中度和费用效率。

忽视滑点成本： 没有执行假设的回测是幻想。

过于信任标签： “聪明资金”标签会漂移；保持信心并重新验证。

未建模激励： 排放计划很重要；将其视为一流变量。

没有审计轨迹： 如果无法从相同区块重现分数，那就不是研究——而是内容。

关于 DeFi 数据分析的 AI 常见问题：实用的链上工作流程

如何为 DeFi 中的机器学习构建链上特征？

从协议机制开始：将事件映射到经济学（费用、债务、抵押品、流动性深度）。使用滚动窗口，避免泄漏，并存储带版本控制的特征定义，以便您可以重现结果。

DeFi 中的真实收益是什么，为什么重要？

真实收益是主要由有机协议收入（费用/利息）支持的收益，而不是代币排放。它很重要，因为排放可能会消退，而基于费用的回报通常会持续（尽管它们仍然可能是周期性的）。

如何在不自欺欺人的情况下回测 DeFi 信号？

按时间拆分，包含交易成本和滑点，并在压力状态下测试。始终与简单基准进行比较；如果您的模型无法可靠地超越启发式，可能是过拟合。

LLM 能否替代定量链上分析？

LLM 可以加快解释速度——总结提案、提取假设、组织检查清单——但它们无法替代正确的事件解码、严格的标签和基于时间的评估。使用 LLM 来构建研究，而不是“幻觉”链。

我如何检测激励驱动的（雇佣）流动性？

跟踪 TVL 流失、费用与激励比率以及钱包群体组成。如果流动性在激励激增时出现，并在之后迅速离开，则将收益视为脆弱，除非费用独立支持它。

结论

当你将链上噪声转化为 可重复的工作流程 时，AI 在 DeFi 中才真正有价值：以决策为先的框架、可重复的数据集、保守的实体标记、基于机制的特征、时间分割评估和持续监控。遵循这个实用的链上循环，你将产生可与协议间比较、对状态变化具有韧性、并且能够向团队成员或利益相关者解释的分析。

如果你想要一种结构化的方法来进行分阶段、多视角的研究（并将复杂数据转化为清晰、可共享的输出），可以探索 SimianX AI 作为将严谨分析组织成可操作工作流程的模型。

AI做DeFi链上数据分析:从数据到信号的完整实战工作流