从第一性原理出发:AI底层逻辑与AI交易的实践之路
摘要
大模型的本质是向量运算与模式识别,而非“思考”。将其迁移到金融交易中,预测短期涨跌难以奏效,但识别市场状态(Regime)价值显著。本文解析底层逻辑,探讨Regime识别技术及NoFx基础设施的应用。
一、大模型的底层逻辑:从“黑箱”到向量运算
你可能在使用ChatGPT、Claude等大模型时,会觉得它们像拥有“智慧”,能理解语言、回答问题。但如果拆开来看,它们的本质其实是一套复杂的向量运算。想要理解AI在交易中的应用,我们得先从大模型的底层逻辑说起。
核心思想:用向量表示一切
人类靠词汇和语法表达意思,比如“今天天气不错”,每个词都有明确的含义。但机器不认识这些词汇,它们只“懂”数字。所以大模型做的第一件事,就是把离散的“token”(可以理解为词或子词)转换成连续的向量。
比如,“今天”会被映射成一个高维向量,可能是像[0.12, -0.45, 0.78, 0.23, …]这样包含4096个数字的数组;“天气”则可能是[0.34, -0.12, 0.56, 0.89, …]的4096维向量。这种映射不是人工规定的,而是模型通过分析海量文本自己“学”出来的——在训练过程中,语义相近的词会被放在向量空间中更接近的位置。比如“国王”和“女王”的向量距离很近,而“国王”和“苹果”的距离就很远。
核心计算:向量相似度如何工作?
有了向量表示,模型怎么知道词和词之间的关系呢?这就要靠Transformer中的自注意力(Self-Attention)机制了。
简单说,对于一句话中的每个词,模型都会问:“我应该关注这句话里的其他哪些词?”具体计算时,会生成三个向量:
-
Query(Q):“我在找什么” -
Key(K):“其他词能提供什么” -
Value(V):“其他词的实际内容”
然后通过公式Attention(Q, K, V) = softmax(Q · Kᵀ / √d) · V计算注意力。其中,Q和K的点积运算用来衡量两个向量的相似度——方向越接近的向量,点积结果越大,说明它们越相关。再通过softmax把这些相似度变成概率,最后用概率对V做加权求和,就能让每个词都“聚合”起句子中相关的信息。
堆叠与非线性:让模型“有深度”
单层注意力的能力有限,就像一层楼的房子装不下太多东西。所以Transformer会把多层注意力“堆”起来,每层之后再接一个前馈网络(FFN),公式是FFN(x) = activation(x · W₁) · W₂。
这里的activation是ReLU、GELU这类非线性函数,作用很关键:如果没有非线性,再多层的线性变换也相当于一层,模型就失去了“深度”,无法处理复杂问题。
现在很多模型会用MoE(Mixture of Experts)架构,比如DeepSeek、GPT-4(传闻),简单说就是每次计算时不是所有参数都工作,而是动态选择部分“专家网络”参与,这是为了提高效率,不改变底层的计算逻辑。
输出:从向量到概率分布
经过N层处理后,最后一层的向量会乘以一个词表矩阵,得到每个可能出现的token的分数,再通过softmax转换成概率分布。模型要么选概率最高的token,要么按概率“采样”,然后把这个token加回输入,重复整个过程——这就是大模型“生成内容”的原理,本质是自回归生成。
各家模型的差异:换汤不换药
虽然DeepSeek、Qwen、Claude、Gemini、GPT-4等模型各有特点:
-
DeepSeek用MoE架构,还会压缩KV缓存降低成本; -
Qwen有dense和MoE两条产品线,用SwiGLU激活函数; -
Claude架构没公开,推测是优化过的dense Transformer; -
Gemini是多模态设计,文本、图像、音频共享注意力; -
GPT-4传闻用MoE,8个专家各有220B参数。
但它们的底层逻辑完全一致:把输入转成向量,用点积算相似度,用相似度聚合信息,堆叠多层加非线性,最后输出概率分布。没有“理解”,没有“思考”,就是高维空间里的几何运算。
那么,这套逻辑能用到金融市场吗?我们接着往下看。
二、大模型在“预测”还是“识别模式”?
理解了大模型的计算流程,有个关键问题需要明确:大模型到底在做什么?
表面上看,它像在“预测”。比如给“今天天气”,它输出“不错”的概率最高,看起来是预测了下一个词。但拆开来看,它实际在做的是:
-
把当前的上下文(比如“今天天气”)编码成向量; -
在训练过的参数里,找到和这个向量最像的“模式”(比如历史上“今天天气”后面常接“不错”“很好”等); -
输出这个模式对应的概率分布。
也就是说,它不是“预测未来会发生什么”,而是“识别当前输入最像训练数据中的哪种模式”。
这两者的区别很重要:预测是对未知事件的推断,而识别是对已知模式的匹配。大模型在语言领域好用,是因为自然语言有极强的统计规律——“中华人民共和”后面几乎一定是“国”,“如果…那么…”后面大概率接结果,这些模式在训练数据中反复出现,模型自然能学会。
当你问ChatGPT问题时,它不是在“思考答案”,而是在“找到和你的问题最匹配的模式,然后输出这个模式通常对应的回答”。
迁移到金融市场:问题出在哪?
把这套逻辑用到金融市场,很自然会想到:把市场数据编码成向量,找到历史上最相似的模式,然后预测后续走势。但这里有个根本性问题:金融市场的“下一步走势”和自然语言的“下一个词”,统计特性完全不同。
1. 统计规律的强度差异
自然语言的统计规律极强,给定足够上下文,下一个词的不确定性(熵)很低。但金融市场的短期走势接近随机游走——不管你用技术指标、基本面数据还是链上数据,下一根K线涨还是跌的概率几乎是50:50,信号早就被噪声淹没了。
Pratas等人2023年的研究就显示,用LSTM预测比特币波动率时,模型只能画出更平滑的曲线,对真正重要的“大幅波动”完全没辙。它学到的只是“均值回归”这种弱模式,对极端事件无能为力。
2. 非平稳性
语言的统计规律相对稳定,“苹果”这个词的语义几十年甚至上百年都不会变。但市场结构一直在变:2021年有效的规律,到2024年可能就失效了。监管政策、参与者结构、流动性分布都在演化,你从历史数据里学的模式,面对的可能是一个完全不同的市场。
3. 对抗性
语言生成没有“对手盘”,你预测下一个词是“吃”,没人会故意让它变成“飞”。但金融市场是零和博弈——任何被发现的有效模式,都会因为大量资金涌入套利而失效。市场本身就在对抗所有试图利用模式的人。
结论:模式识别≠预测
所以,大模型的核心能力是模式识别,不是预测。在语言领域,因为模式足够稳定、足够强,模式识别的输出才看起来像预测。但在金融市场,想用同样的方法“预测涨跌”注定会失败,因为短期价格方向的模式太弱、太不稳定、太容易被对抗。
但这并不意味着模式识别在金融领域没用。关键是:我们应该识别什么模式?
三、换个思路:识别市场状态(Regime)
预测涨跌的信噪比太低,但有个相关问题的信噪比高得多:当前市场处于什么状态?
市场不是“均质”的,它会在不同的“Regime”(状态)之间切换,比如:
-
低波动震荡:价格在窄幅区间内波动,方向不明确; -
高波动震荡:波动剧烈但没有明显趋势; -
单边上涨:持续走高,回调幅度小; -
单边下跌:持续走低,反弹力度弱; -
流动性危机:快速下跌,伴随大规模清算。
这些状态有持续性——趋势行情可能持续数天甚至数周,震荡市也是。在时间尺度上,状态的自相关性比单根K线的涨跌强得多。
早在1989年,Hamilton的状态切换模型就开创了这个方向。Wang等人2020年的研究也显示,用隐马尔可夫模型(HMM)识别美股的牛熊状态,在2008年金融危机和2020年新冠崩盘期间,能有效规避大幅回撤。他们的超额收益不是来自预测涨跌,而是在高风险状态时降低仓位。
四、技术路径:市场状态嵌入(Market State Embedding)
既然大模型的框架能识别语言模式,那能不能迁移过来识别市场状态?当然可以。
LLM的逻辑是“token→向量→相似度计算→输出分布”,迁移到市场状态识别就是“市场状态→向量→相似度计算→Regime分类”。
编码器(Encoder):把复杂数据变成向量
核心目标是:把高维、异构的市场特征(比如价格、成交量、资金费率等)压缩成低维稠密的向量,并且让状态相似的时刻,向量距离更近;状态不同的时刻,向量距离更远。
这里可以参考TS2Vec(Yue等人,AAAI 2022),它是时序表示学习的当前最优方法,在150多个UCR/UEA数据集上表现很好。其核心是“分层对比学习”,通过多时间尺度的对比损失,同时学习“时间戳级”和“实例级”的表示。
训练:如何定义“相似”与“不同”?
训练时用对比学习,需要定义正负样本:
-
正样本:两个时刻的后续走势相似(比如都是单边上涨); -
负样本:两个时刻的后续走势不同(比如一个震荡、一个下跌)。
也可以参考SoftCLT(ICLR 2024),用“连续相似度”代替非黑即白的“硬标签”,让模型更灵活地学习相似性。
输出:如何得到市场状态?
有两种常用方法:
-
聚类法:对历史的向量用KMeans或GMM聚类,得到K个类别,再人工解读每个类别的状态含义(比如“类别1对应低波动震荡”); -
检索法:用当前的向量,在历史数据中找最相似的前K个时刻,统计这些时刻的状态分布,直接输出“当前状态最像历史上的哪些时刻”。
检索法的可解释性更强,能给出具体的历史类比,方便理解。
五、对比传统方法:市场状态识别有何优势?
vs 隐马尔可夫模型(HMM)
HMM有两个局限:一是假设观测值服从特定分布(通常是高斯分布),二是状态数量需要预先指定。而神经网络不做分布假设,能处理高维输入,还能自动发现数据中自然存在的状态结构,更灵活。
vs 传统技术指标
ADX、RSI、布林带等指标,每个只能捕捉市场的一个维度,很难处理多因子之间的交互,而且阈值需要人工设定。而端到端的学习能自动发现特征组合,阈值由数据驱动,更适应市场变化。
六、应用场景:状态识别如何指导交易?
识别市场状态的价值,主要体现在策略选择和风险控制上。
策略匹配:不同状态用不同策略
-
低波动震荡:适合网格策略(在区间内高抛低吸); -
趋势行情:适合趋势跟踪策略(跟随上涨或下跌趋势); -
高波动震荡:适合降低仓位(避免来回止损); -
流动性危机:适合空仓(规避系统性风险)。
风险管理:避开高风险状态
Wang等人的研究表明,状态切换策略的超额收益,主要来自在“不利状态”时降低敞口。比如设定规则:一旦识别到高风险状态(如流动性危机),就把仓位砍半或清仓。不追求抓住每一波行情,但要避开能导致大幅亏损的系统性风险。
七、NoFx:AI交易的基础设施层
有了方法论,落地还需要基础设施。NoFx不是“让大模型预测涨跌”的产品,而是定位为AI交易的基础设施层。
数据层:统一碎片化数据
加密货币市场的数据极度碎片化:中心化交易所(CEX)的API格式不一,链上数据需要自己解析,衍生品数据分散在不同源头。NoFx做的第一件事,就是把这些异构数据归一化,提供统一的访问接口。
具体包含哪些数据?
-
价格数据:多周期K线(1分钟到1个月)、逐笔成交、加权平均价(VWAP)、不同周期的价格变动百分比; -
成交量数据:原始成交量及均线、累计成交量 delta(CVD)、多周期CVD、主动买卖量、成交量异常检测、量价背离指标; -
持仓数据:持仓量(OI)绝对值、不同周期的OI变化量和变化率、OI加权价格、多空人数比、大户持仓占比、杠杆分布; -
资金费率:当前资金费率、预测资金费率、历史序列、24小时/7天/30天累计资金; -
清算数据:多空爆仓量、爆仓比、大额清算事件(单笔超10万美元)、清算热力图、不同周期累计清算; -
资金流向:机构/散户的期货/现货净流入、大单买卖(阈值可配置)、交易所资金流入流出、鲸鱼地址异动; -
订单簿数据:买卖一档价格及挂单量、盘口价差、不同深度的挂单快照(±0.1%到±2%)、挂单不平衡度、大额挂单检测、订单簿斜率; -
技术指标:多种周期的EMA、SMA、MACD、RSI、布林带、ATR、ADX/DMI、随机RSI、OBV、一目均衡表; -
波动率:不同周期的已实现波动率、ATR百分比、布林带宽度、价格振幅(最高价-最低价)。
这些数据通过API开放访问,比如调用GET /api/quant-data?symbol=BTCUSDT,就能得到包含资金流向、持仓量、价格变化等信息的JSON数据。
执行层:统一交易接口
不同交易所的API不仅数据格式不同,交易功能(如限价单、市价单、止损单的参数)、仓位精度、杠杆配置也不一样。NoFx抽象出统一的执行接口,支持任意交易所市场,策略层不需要关心底层是哪个交易所。
决策层:AI决策框架
在数据层和执行层之上,NoFx提供AI决策框架:市场数据→特征工程→AI推理→风控过滤→执行。
支持的推理引擎包括DeepSeek、Claude、GPT、Gemini、Qwen等。但AI在这里不是预测涨跌,而是做结构化决策:
-
多维度市场状态分析; -
候选标的筛选排序; -
仓位管理和风险评估; -
入场/出场条件判断。
输出是结构化的JSON,包含决策、置信度、推理链(Chain of Thought),每次决策的完整上下文都会记录,确保可追溯。
状态识别的集成
状态识别作为决策框架的模块,流程是:市场数据→状态识别→策略路由→AI决策→风控→执行。AI做具体决策时,会收到当前的状态判断作为参考,不同状态下,决策的激进程度、仓位上限、止损宽度会自动调整。
为什么要做NoFx?
AI交易的瓶颈不在模型,而在工程。一个能稳定运行的系统需要:稳定的数据流、低延迟的执行、完善的风控、可追溯的日志、灵活的策略配置。没有这些基础设施,模型再强也没用。
市面上很多AI交易产品是“黑箱”:用户不知道AI为什么开仓,不知道风控逻辑,出问题无从排查。NoFx的设计原则是“透明、可控”:
-
完整的推理链日志; -
可配置的风控(止损、仓位上限、杠杆限制); -
开源,用户可自己部署; -
网页UI调参,不需要改代码。
AI交易层:长期目标
NoFx的长期目标是成为AI交易的标准化层,有三个支柱:
-
传统量化的工程积累:订单管理、风控引擎、回测框架、执行算法——这些是几十年量化交易沉淀的基础,没有它们,AI就是空中楼阁; -
前沿AI的推理能力:大模型在结构化分析、多因子综合判断、自然语言交互上的优势,是传统规则引擎做不到的,但AI需要被正确约束,不能让它自由“预测市场”; -
严格的数学框架:状态识别、向量相似度、对比学习——这些可验证、可解释的方法,拒绝“AI说买就买”的玄学。
平权化:让每个人都能用AI交易
技术的意义在于服务更多人。目前量化交易的门槛太高:要懂编程、金融、数据工程、风控,还要有资金接入机构级数据和执行通道,散户很难参与。
NoFx想做的是“AI+量化的平权化”,提供可视化的AI交易编排系统:
-
不用写代码:策略逻辑、风控规则、AI参数都能在网页UI上配置; -
不用懂量化:预置策略模板覆盖常见场景,调参数就行; -
不用自建基础设施:数据、执行、风控、日志全由平台提供; -
完全透明:每次AI决策的输入、推理、输出都可查。
就像Excel让每个人能做数据分析(不用学SQL),Figma让每个人能做设计(不用学Photoshop),NoFx希望让每个人能编排AI交易策略,不用成为量化工程师。开源是必然选择,基础设施必须可信、可审计。
八、局限性:理性看待AI交易
AI交易不是“圣杯”,有其局限性:
-
过拟合:模型可能只是记住了历史模式,泛化能力存疑,需要用样本外数据验证和滚动回测; -
状态漂移:市场结构在演化,历史状态的特征可能不再适用,需要持续监控和定期重训练; -
识别延迟:状态切换的识别必然有滞后,需要在敏感度和误报率之间做取舍。
它的价值不在于预测,而在于提供结构化的市场状态描述,辅助策略选择和风控。
九、写在最后:从第一性原理出发的思考
做AI交易这件事,出发点应该是第一性原理:不是看到“AI交易”这个词就跟风,而是先问“AI的计算本质是什么?这个本质能迁移到金融场景吗?迁移过来应该解决什么问题?”
答案是:向量相似度计算可以迁移,但目标不该是预测涨跌,而是识别市场状态。
另一个出发点是用户导向:技术再厉害,如果只有专业团队能用,意义有限。真正有价值的产品,应该让完全不懂代码的交易者也能上手——专业性体现在底层架构和方法论,易用性体现在产品交互,把复杂的东西做简单,才是真本事。
目前NoFx的用户反馈也验证了这个方向:GitHub两个月收获9500+星标,一个半月为Binance带来1800+新增KYC首次交易用户,实际使用用户超9万人,交易量持续增长。这说明市场确实需要这样的工具:普通交易者想要专业级的AI交易能力,但不想花几个月学量化编程。
NoFx正在做的,就是把机构级的数据、执行、风控能力,封装成任何人都能用的产品——让技术服务大众,而不是少数人。
参考文献
-
Yue, Z., et al. (2022). TS2Vec: Towards Universal Representation of Time Series. AAAI 2022. -
Soft Contrastive Learning for Time Series. ICLR 2024. -
Niroshan, G., et al. (2025). TS2Vec-Ensemble. arXiv. -
Wang, M., Lin, Y.H., & Mikhelson, I. (2020). Regime-Switching Factor Investing with Hidden Markov Models. Journal of Risk and Financial Management. -
Hamilton, J.D. (1989). A New Approach to the Economic Analysis of Nonstationary Time Series and the Business Cycle. Econometrica. -
Yuan, Y., & Mitra, G. (2019). Market Regime Identification Using Hidden Markov Models. SSRN. -
Pratas, T.E., et al. (2023). Forecasting Bitcoin Volatility: Exploring the Potential of Deep Learning. Eurasian Economic Review. -
Omole, O., & Enke, D. (2024). Deep Learning for Bitcoin Price Direction Prediction. Financial Innovation. -
Huang, Z.C., et al. (2024). Forecasting Bitcoin Volatility Using Machine Learning Techniques. Journal of International Financial Markets.
常见问题(FAQ)
问:大模型真的能“理解”市场吗?
答:不能。大模型的本质是向量运算和模式识别,它不会“理解”市场,只是通过历史数据学习模式,然后匹配当前输入。
问:为什么AI不适合预测金融市场的短期涨跌?
答:因为短期走势接近随机游走,信号被噪声淹没;市场结构会变(非平稳性);而且是零和博弈,有效模式会被套利掉。
问:Regime识别和传统技术指标有什么区别?
答:传统指标只看单一维度,阈值人工设定;Regime识别是端到端学习,自动处理多因子交互,阈值由数据驱动,更适应市场变化。
问:NoFx是如何保证透明性的?
答:通过完整的推理链日志、可配置的风控规则、开源代码和可自行部署的特性,让用户能看到每一步决策的逻辑,排查问题。
问:普通人使用NoFx需要懂编程吗?
答:不需要。NoFx提供网页UI,策略逻辑、风控规则、AI参数都能通过界面配置,预置模板覆盖常见场景,调参数即可使用。

