去中心化金融数据分析中的人工智能:实用链上工作流程
教育

去中心化金融数据分析中的人工智能:实用链上工作流程

学习AI在DeFi数据分析中的应用:实用的链上工作流程,从钱包、流动池和收益中提取信号,提供可重复的指标和风险检查。

2025-12-25
18 分钟阅读
聆听文章

DeFi 数据分析中的 AI:实用的链上工作流程


DeFi 数据分析中的 AI:实用的链上工作流程 是关于将透明但混乱的区块链活动转化为 可重复的研究:干净的数据集、可辩护的特征、可测试的假设和监控的模型。如果你曾经查看过 TVL 仪表板、收益页面和代币图表,并觉得“这感觉不太靠谱”,那么这个工作流程就是你的解药。如果你喜欢结构化的、分阶段的分析(SimianX AI 处理多步骤研究循环的方式),你可以将同样的纪律带入链上工作,使结果可解释、在协议之间可比较,并且易于迭代。


SimianX AI 链上工作流程概述图
链上工作流程概述图

为什么链上数据分析比看起来更难(但更好)


链上数据为你提供了 真实依据:转账、交换、借贷、清算、质押、治理投票和费用流。但“真实依据”并不意味着“简单真相”。DeFi 分析师会遇到以下问题:


  • 实体模糊性: 地址不是身份;合约代理其他合约;中继者掩盖了 EOAs。

  • 可组合流: 一个用户行为触发多个内部调用、事件和状态变化。

  • 激励扭曲: 收益可能因发行、洗钱活动或临时流动性挖矿而被夸大。

  • 对抗环境: MEV、夹击、预言机游戏和治理捕获会导致非平稳行为。

  • 评估陷阱: 将“好协议”与“坏协议”进行标记是主观的,除非你定义一个可测量的结果。

  • 好处是巨大的:当你建立一个 AI 准备好的管道时,你可以用 证据 而不是直觉来回答问题——然后在条件变化时不断重新运行相同的工作流程。


    SimianX AI 杂乱的链上数据到清晰的特征
    杂乱的链上数据到清晰的特征

    第0步:从决策开始,而不是数据集


    在DeFi中浪费时间的最快方式是“下载所有内容”并希望模式出现。相反,定义:


    1. 决策: 基于分析你将做出什么不同的决定?


    2. 对象: 协议、池、代币、金库策略或钱包群体?


    3. 时间范围: 日内、每周、每季度?


    4. 结果指标: 什么算作成功或失败?


    与AI良好映射的示例决策


  • 协议风险监控: “我们应该限制对这个借贷市场的风险敞口吗?”

  • 收益可持续性: “这个年化收益率主要是来自于发行,还是由费用支持?”

  • 流动性健康: “在压力下,我们能否以可接受的滑点进出?”

  • 钱包行为: “‘聪明资金’群体是在积累还是分配?”

  • 治理动态: “投票权是否集中在少数实体手中?”

  • 关键见解:当目标可测量时,AI最强大(例如,回撤概率、清算频率、费用与发行比),而不是当目标是“良好的叙述”。

    SimianX AI 以决策为先的框架
    以决策为先的框架

    第1步:建立你的链上数据基础(来源 + 可重复性)


    一个实用的链上工作流程需要两个层次:原始链真相和丰富的上下文。


    A. 原始链真相(规范输入)


    至少,计划收集:


  • 区块/交易: 时间戳、燃气、成功/失败

  • 日志/事件: 合约发出的(DEX交换、铸造/销毁、借款、还款)

  • 追踪/内部调用: 复杂交易的调用图(对聚合器和金库尤其重要)

  • 状态快照: 在时间t时的余额、储备、债务、抵押、治理权力

  • 专业提示: 将每个数据集视为一个 版本快照


  • 链 + 块范围(或确切的块高度)

  • 索引器版本(如果使用第三方)

  • 解码 ABI 版本

  • 价格预言机方法

  • B. 丰富性(您需要的“意义”上下文)


  • 代币元数据: 小数位,符号,包装,重基行为

  • 价格数据: 可信的预言机价格 + DEX 派生的 TWAP(带有保护措施)

  • 协议语义: 哪些事件对应于哪些经济行为

  • 标签: 合约类别(DEX,借贷,桥),已知多签,CEX 热钱包等。

  • 最小可复现模式(您希望在仓库中拥有的内容)


    考虑“事实表”和“维度”:


  • fact_swaps(chain, block_time, tx_hash, pool, token_in, token_out, amount_in, amount_out, trader, fee_paid)

  • fact_borrows(chain, block_time, market, borrower, asset, amount, rate_mode, health_factor)

  • dim_address(address, label, type, confidence, source)

  • dim_token(token, decimals, is_wrapped, underlying, risk_flags)

  • dim_pool(pool, protocol, pool_type, fee_tier, token0, token1)

  • 保持 inline code 命名的一致性,以免下游功能中断。


    SimianX AI 仓库模式
    仓库模式

    第 2 步:规范化实体(地址 → 行为者)


    AI 模型不以十六进制字符串思考;它们从 行为模式 中学习。您的工作是尽可能将地址转换为稳定的“实体”。


    实用标签方法(快速 → 更好)


    从三个层级开始:


  • 第一层(高信心): 协议合约,知名多签,经过验证的部署者

  • 第二层(中等): 聚类启发式(共享资金来源,重复交互模式)

  • 第三层(低): 行为原型(套利机器人,MEV 搜索者,被动 LP)

  • 每个标签要存储的内容


  • label(例如,“MEV 机器人”,“协议国库”)

  • confidence(0–1)

  • evidence (触发的规则,启发式,链接)

  • valid_from / valid_to (标签变化!)

  • 钱包聚类:保持保守


    聚类可以提供帮助(例如,将由一个操作员控制的地址分组),但如果错误,它也可能污染您的数据集。


  • 更倾向于 精确度而非召回率:错误合并比漏合并更糟糕。

  • 将聚类视为 假设,而非事实。

  • 保留原始地址,以便您可以回滚。

  • 实体任务解锁内容常见陷阱
    合同分类协议级特征代理/升级模式误导
    钱包聚类阶段流动共享资金来源的错误合并
    机器人检测清晰的“有机”信号随着机器人适应的标签漂移
    财库识别实际收益分析财库与用户费用混淆

    SimianX AI entity graph
    entity graph

    第3步:为DeFi进行特征工程(“经济真相”层)


    这是AI变得有用的地方。您的模型从特征中学习——因此设计反映 机制 的特征,而不仅仅是“数字”。


    A. DEX和流动性特征(执行现实)


    有用的特征包括:


  • 深度和滑点: 交易规模的估计价格影响(例如,$10k/$100k/$1m)

  • 流动性分布: 当前价格附近的集中度(针对集中流动性AMM)

  • 费用效率: 每单位TVL的费用,每单位交易量的费用

  • 洗盘交易信号: 高交易量但净头寸变化小

  • MEV压力: 三明治模式,反向交易频率,池活动周围的优先费用峰值

  • 重要规则: 如果您关心可交易性,请建模 压力下的滑点,而不是“平均每日交易量”。


    B. 借贷特征(破产与反身性)


  • 利用率: 需求压力指标

  • 抵押品集中度: 前N名抵押品份额(鲸鱼风险)

  • 清算密度: 多少抵押品接近清算阈值

  • 坏账代理: 清算失败或回收少于债务的情况

  • 利率制度变化: 借贷/供应利率的突然变化

  • C. “真实收益”与激励收益(可持续性核心)


    DeFi 收益通常混合:


  • 费用支持收益: 交易费用、借贷利息、协议收入

  • 激励收益: 代币发行、奖励、贿赂、一次性补贴

  • 一个实用的分解:


  • gross_yield = fee_yield + incentive_yield

  • real_yield ≈ fee_yield - dilution_cost(稀释成本是上下文相关的,但至少应该跟踪发行量占市值和流通供应增长的百分比)

  • 关键见解:可持续收益很少是最高收益。它是当激励减少时仍然存在的收益。

    SimianX AI DEX 和借贷特性插图
    DEX 和借贷特性插图

    第 4 步:标记目标(您希望模型预测的内容)


    许多 DeFi 数据集失败是因为标签模糊。好的目标是具体且可测量的。


    模型目标示例


  • 风险分类: “30 天内 >30% TVL 回撤的概率”

  • 流动性冲击: “在高波动期间,$250k 交易的滑点 >2% 的机会”

  • 收益崩溃: “费用与发行比率连续 14 天低于 0.3”

  • 漏洞/异常: “相对于历史基线的异常流出”

  • 制度检测: “市场从有机流动性转变为激励驱动的流动性”

  • 避免标签泄漏


    如果您的标签使用未来信息(例如后来的漏洞),请确保您的特征仅使用事件发生前可用的数据。否则模型会“作弊”。


    SimianX AI 标记时间线插图
    标记时间线插图

    第5步:选择正确的AI方法(以及LLMs的适用范围)


    不同的DeFi问题映射到不同的模型家族。


    A. 时间序列预测(当动态很重要时)


    在你预测时使用:


  • 费用、交易量、利用率、排放计划

  • TVL流入/流出

  • 波动性状态

  • B. 分类与排名(当你选择“顶级候选人”时)


    在你需要时使用:


  • “按可持续收益排名的前20个池”

  • “最有可能经历流动性冲击的协议”

  • “最有可能积累的钱包群体”

  • C. 异常检测(当你还不知道攻击时)


    对以下内容有用:


  • 新的利用模式

  • 治理攻击

  • 桥接耗尽签名

  • 预言机操控状态

  • D. 图学习(当关系是信号时)


    链上自然是一个图:钱包 ↔ 合约 ↔ 池 ↔ 资产。基于图的特征在以下方面可以超越平面表格:


  • Sybil检测

  • 协调行为

  • 传染路径(清算级联)

  • LLMs的帮助(以及它们不适用的地方)


    LLMs非常适合:


  • 将提案、文档、审计解析为结构化笔记

  • 提取治理论坛中的“变化内容”

  • 生成假设和检查

  • LLMs 不是替代品:


  • 正确的链上解码

  • 因果推断

  • 回测纪律

  • 一个实用的混合:


  • LLMs用于解释 + 结构

  • ML/时间序列/图用于预测 + 评分

  • 基于规则的检查用于硬约束

  • SimianX AI 模型选择决策树
    模型选择决策树

    第6步:评估和回测(不可谈判的部分)


    DeFi是非平稳的。如果你不仔细评估,你的“信号”就是海市蜃楼。


    A. 按时间分割,而不是随机分割


    使用基于时间的分割:


  • 训练:较早的时期

  • 验证:中间

  • 测试:最近的样本外窗口

  • B. 跟踪准确性和决策质量


    在 DeFi 中,您通常关注 排名和风险,而不仅仅是“准确性”。


  • 分类:精确度/召回率,ROC-AUC,PR-AUC

  • 排名:NDCG,top-k 命中率

  • 风险:校准曲线,预期短缺,回撤统计

  • 稳定性:随时间的性能衰减(漂移)

  • 简单评估检查清单


    1. 定义 决策规则(例如,“如果风险评分 > 0.7 则避免”)


    2. 在 交易成本和滑点 假设下进行回测


    3. 运行 压力测试(高油费,高波动性,流动性紧缩)


    4. 与 基准 进行比较(简单启发式通常获胜)


    5. 存储 审计记录(特征,模型版本,快照区块)


    评估层级你测量的内容重要性
    预测性AUC / 错误信号质量
    经济性PnL / 回撤 / 滑点现实世界的可行性
    操作性延迟 / 稳定性它能每天运行吗?
    安全性假阳性/假阴性风险偏好对齐

    SimianX AI 回测和监控
    回测和监控

    第 7 步:作为循环部署(而不是一次性报告)


    一个真正的“实用工作流程”是一个您可以每天/每周运行的循环。


    核心生产循环


  • 吸收新块/事件

  • 在滚动窗口上重新计算特征

  • 对池/协议/钱包群体进行评分

  • 对阈值突破触发警报

  • 记录解释和快照以便审计

  • 在 DeFi 中重要的监控


  • 数据漂移: 交易量/费用/状态是否超出历史范围?

  • 标签漂移: “MEV 机器人”的行为是否在变化?

  • 管道健康: 缺失事件,ABI 解码失败,价格预言机异常

  • 模型衰减: 最近窗口中的性能下降

  • 实用规则:如果您无法解释 为什么 模型改变了其评分,您就无法在反射市场中信任它。

    SimianX AI 监控仪表板
    监控仪表板

    一个实例: “这个APY是真的吗?”


    让我们将工作流程应用于一个常见的DeFi陷阱:主要是激励的吸引性收益。


    步骤


  • 定义对象: 一个特定的池/金库

  • 时间范围: 接下来的30–90天

  • 结果: 可持续性评分

  • 计算:


  • fee_revenue_usd(交易费用 / 借款利息)

  • incentives_usd(排放 + 贿赂 + 奖励)

  • net_inflows_usd(TVL是有机的还是雇佣的?)

  • user_return_estimate(费用收入减去IL / 借款成本(如适用))

  • 一个简单的可持续性比率:


  • fee_to_incentive = fee_revenue_usd / max(incentives_usd, 1)

  • 解释:


  • fee_to_incentive > 1.0通常表示费用支持的收益

  • fee_to_incentive < 0.3表明激励占主导

  • 指标它告诉你什么红旗阈值
    feetoincentive费用支持与排放< 0.3
    TVL流失雇佣流动性高周流失
    大户份额集中风险前5名 > 40%
    MEV强度执行毒性上升的夹击率
    每TVL净费用效率下降趋势

    添加AI:


  • 在多个交易量场景下预测 fee_revenue_usd

  • 分类“有机与激励驱动”机制

  • 当比率快速下降时发出警报

  • SimianX AI 真实收益分解
    真实收益分解

    AI如何在链上进行DeFi数据分析?


    AI用于DeFi数据分析通过将低级区块链工件(交易、日志、跟踪和状态)转化为经济特征(费用、杠杆、流动性深度、风险集中),然后学习可以测量的结果的模式(收益可持续性、流动性冲击、破产风险、异常流动)。 “AI”部分的效果取决于:


  • 特征映射从事件 → 经济,

  • 定义成功/失败的标签

  • 以及防止过拟合的评估循环

  • 如果将工作流程视为一个可重复的系统——就像在SimianX风格的多步骤分析中强调的分阶段研究方法——您将获得随着时间推移而改进的模型,而不是脆弱的一次性见解。


    SimianX AI ai-on-chain mechanics
    ai-on-chain mechanics

    实用工具:您可以实际运行的最小堆栈


    您不需要一个庞大的团队,但您确实需要纪律。


    A. 数据层


  • 数据仓库(按链/时间的表 + 分区)

  • ABI解码和事件规范化

  • 带有预言机/TWAP保护的价格管道

  • B. 分析层


  • 特征作业(滚动窗口、队列指标)

  • 评估工具(时间拆分、基准、压力测试)

  • 仪表板 + 警报

  • C. “研究代理”层(可选但强大)


    在这里,多代理思维方式大放异彩:


  • 一个代理检查数据质量

  • 一个专注于协议机制

  • 一个压力测试假设

  • 一个撰写最终简报,附上引用和警告

  • 这也是SimianX AI可以成为有用的思维模型的地方:不要依赖单一的“全知”分析,而是使用专业视角并强制明确的权衡——然后输出清晰、结构化的报告。您可以在SimianX AI上探索平台方法。


    SimianX AI tooling stack
    tooling stack

    常见失败模式(以及如何避免它们)


  • 将 TVL 误认为健康: TVL 可以被租用。跟踪流失、集中度和费用效率。

  • 忽视滑点成本: 没有执行假设的回测是幻想。

  • 过于信任标签: “聪明资金”标签会漂移;保持信心并重新验证。

  • 未建模激励: 排放计划很重要;将其视为一流变量。

  • 没有审计轨迹: 如果无法从相同区块重现分数,那就不是研究——而是内容。

  • 关于 DeFi 数据分析的 AI 常见问题:实用的链上工作流程


    如何为 DeFi 中的机器学习构建链上特征?


    从协议机制开始:将事件映射到经济学(费用、债务、抵押品、流动性深度)。使用滚动窗口,避免泄漏,并存储带版本控制的特征定义,以便您可以重现结果。


    DeFi 中的真实收益是什么,为什么重要?


    真实收益是主要由有机协议收入(费用/利息)支持的收益,而不是代币排放。它很重要,因为排放可能会消退,而基于费用的回报通常会持续(尽管它们仍然可能是周期性的)。


    如何在不自欺欺人的情况下回测 DeFi 信号?


    按时间拆分,包含交易成本和滑点,并在压力状态下测试。始终与简单基准进行比较;如果您的模型无法可靠地超越启发式,可能是过拟合。


    LLM 能否替代定量链上分析?


    LLM 可以加快解释速度——总结提案、提取假设、组织检查清单——但它们无法替代正确的事件解码、严格的标签和基于时间的评估。使用 LLM 来构建研究,而不是“幻觉”链。


    我如何检测激励驱动的(雇佣)流动性?


    跟踪 TVL 流失、费用与激励比率以及钱包群体组成。如果流动性在激励激增时出现,并在之后迅速离开,则将收益视为脆弱,除非费用独立支持它。


    结论


    当你将链上噪声转化为 可重复的工作流程 时,AI 在 DeFi 中才真正有价值:以决策为先的框架、可重复的数据集、保守的实体标记、基于机制的特征、时间分割评估和持续监控。遵循这个实用的链上循环,你将产生可与协议间比较、对制度变化具有韧性、并且能够向团队成员或利益相关者解释的分析。


    如果你想要一种结构化的方法来进行分阶段、多视角的研究(并将复杂数据转化为清晰、可共享的输出),可以探索 SimianX AI 作为将严谨分析组织成可操作工作流程的模型。

    准备好改变您的交易了吗?

    加入数千名投资者的行列,使用 AI 驱动的分析做出更明智的投资决策

    SimianX AI LogoSimianX

    先进的多智能体股票分析平台,使AI智能体能够实时协作并讨论市场见解,从而做出更好的交易决策。

    所有系统运行正常

    © 2026 SimianX. 保留所有权利。

    联系我们:support@simianx.ai