llm-quant/docs/principles/multi_agent_decision.md

# 多智能体决策原理

本篇总结项目中多智能体博弈式决策的设计理念，覆盖角色建模、对话协议、信念修正与评估方法，为后续实现与复盘提供统一参照。

## 设计目标

- 让主持、预测、风险、执行等角色围绕相同市场场景进行多轮交互，形成可追踪的共识。
- 用可解释的数据引用和信念修正规则替代纯黑盒优化，确保决策链路可审计、可回放。
- 保持策略拓展性：能够按需引入新的部门或逻辑规则，而无需重写整体流程。

## 角色与知识建模

1. **主持（Moderator）**：负责议程控制、轮次推进、冲突降级，持有全局上下文与流程规则。
2. **预测（Forecaster）**：聚合行情、因子与新闻信号，给出趋势判断及置信度。
3. **风险（Risk）**：掌握仓位限制、合规阈值、风险事件库，可提出否决与回滚建议。
4. **执行（Execution）**：将共识映射为具体指令（调仓、对冲、风控动作），并反馈执行状态。
5. **扩展角色**：支持引入情绪、宏观、行业等专业代理，每个代理绑定专属数据域与可信度模型。

每个角色需注册：

- **信号源接口**：行情、特征、风险指标或外部知识库。
- **知识缓存**：共享信息（全体可见）与私有信息（角色独享）的区分。
- **可信度权重**：依据历史表现动态调整，参与信念融合与冲突解决。

## 多轮对话协议

1. **议程发布**：主持宣布议题、目标与约束（标的、持仓限制、复审阈值）。
2. **观点陈述**：各角色按顺序提交观点、置信度与引用证据。
3. **证据扩展**：若信息不足，可调用数据工具（如 `fetch_data`）补充证据。
4. **反驳与驳回**：角色可针对他人观点给出反驳，主持负责仲裁冲突、记录理由。
5. **风险复核**：风险代理综合内部指标与外部告警，对共识进行校验并给出限制/驳回。
6. **共识决议**：主持生成决议草案，执行代理将其转化为交易动作。
7. **执行反馈**：执行结果、风险事件与日志写入数据库，供后续回放。

消息采用结构化 Schema，至少包含：`role`、`action`、`confidence`、`evidence_refs`、`annotations`，确保 UI 与日志可追踪。

## 信念修正与推理

- **权重更新**：基于可信度、历史绩效和证据充足性调整角色影响力。
- **逻辑规则库**：引入 Argumentation Framework / 模态逻辑，对冲突观点做合法性校验。
- **风险否决**：风险节点可触发降级流程（减仓、冻结执行、重新议程）。
- **记忆管理**：保留每轮发言与修正历史，支持回放与监督学习。

## 与执行层的衔接

- 决策结果写入 `Decision.rounds`、`risk_assessment` 等结构，记录动因与建议动作。
- 执行模块需识别“冻结执行”“调仓幅度”“回滚原因”等指令，确保风险闭环。
- 多轮博弈记录同步到 UI，便于运营侧审查“提出→反驳→定案”的全过程。

## 关键指标

- **协作效率**：轮次收敛时间、冲突率、复核次数。
- **合规度**：风险否决覆盖率、违规触发率、回滚成功率。
- **业绩表现**：收益、回撤、超额收益稳定性，与默认策略对比。
- **解释追踪**：证据覆盖率、引用数据准确性、决策重放完整度。

## 迭代路线图

1. 线下 PoC：以固定历史样本验证多轮流程可行性。
2. 回测闭环：接入 BacktestEngine，对多轮策略做收益/风险对比。
3. 影子运行：实时记录建议但不执行，验证告警与回滚逻辑。
4. 小资金试点：在严格风控下上线，收集失败案例与反馈。
5. 正式上线：完善监控指标，形成常规运营与文档更新流程。

若后续扩展新的代理或推理组件，应在此文档补充角色说明与协议变更，确保团队共享统一原理。