llm-quant/docs/TODO.md

# 记住，我们在开发可实战的投资助理工具，其业务水平要处在投资的前列。不要单纯只实现些简单的功能


# 项目待办清单

> 用于跟踪现阶段尚未完成或需要后续完善的工作，便于规划优先级。

## 1. UI 与日志增强
- 今日计划页增加“一键重评估”入口，以及日志钻取 / 历史对比视图（对齐 README 中的架构目标）。
- 回测页面支持多版本实验管理（对比不同提示/温度的收益曲线），与 `tuning_results` 记录联动。
- Streamlit 聚焦监控场景，补充实时指标面板、异常日志钻取与“仅监控不干预”模式的一键复评策略。

## 2. 数据与特征层
- 实现 `app/features/factors.py` 中的 `compute_factors()`，补齐因子计算与持久化流程。
- 完成 `app/ingest/rss.py` 的 RSS 拉取与写库逻辑，打通新闻与情绪数据源。
- 强化 `DataBroker` 的取数校验、缓存与回退策略，确保行情/特征补数统一自动化，减少人工兜底。
- 围绕动量、估值、流动性等核心信号扩展轻量高质量因子集，全部由程序生成，满足端到端自动决策需求。

## 3. 决策优化与强化学习
- ✅ 扩展 `DecisionEnv` 的动作空间（提示版本、部门温度、function 调用策略等），不仅限于代理权重调节。
- 引入 Bandit / 贝叶斯优化或 RL 算法探索动作空间，并将 `portfolio_snapshots`、`portfolio_trades` 指标纳入奖励约束。
- 将 `DecisionEnv` 改造为多步 episode，逐日输出状态（行情特征、持仓、风险事件）与动作，充分利用历史序列训练强化学习策略。
- ✅ 基于多步环境接入 PPO / SAC 等连续动作算法，结合收益、回撤、成交成本设定奖励与约束，提升收益最大化的稳定性。
- 在整段回测层面引入并行贝叶斯优化（TPE/BOHB）或其他全局搜索，为强化学习提供高收益初始权重与参数候选。
- 建立离线验证与滚动前向测试流程，对新策略做回测 vs. 实盘对照，防止收益最大化策略过拟合历史数据。
- 构建实时持仓/成交数据写入链路，使线上监控与离线调参共用同一数据源。
- 借鉴 TradingAgents-CN 的做法：拆分环境与策略、提供训练脚本/配置，并输出丰富的评估指标（如 Sharpe、Sortino、基准对比）。
- 完善 `BacktestEngine` 的成交撮合、风险阈值与指标输出，让回测信号直接对接执行端，形成无人值守的自动闭环。

### 3.1 实施步骤（建议顺序）
1. 环境重构：扩展 `DecisionEnv` 支持逐日状态/动作/奖励，完善 `BacktestEngine` 的状态保存与恢复接口，并补充必要的数据库读写钩子。
2. 训练基线：实现基于多步环境的 PPO（或 SAC）训练脚本，定义网络结构、奖励项（收益/回撤/成交成本）和超参，先在小规模标的上验证收敛。
3. 全局搜索：在整段回测模式下并行运行 TPE/BOHB 等贝叶斯优化，产出高收益参数作为 RL 的初始化权重或候选策略。
4. 验证闭环：搭建滚动前向测试流水线，自动记录训练策略的回测表现与准实时对照，接入监控面板并输出风险/收益指标。
5. 上线准备：结合实时持仓/成交链路，完善回滚与安全阈值机制，准备 A/B 或影子跟投实验，确认收益最大化策略的稳健性。

## 4. 测试与验证
- 补充部门上下文构造、多模型调用、回测指标生成等核心路径的单元 / 集成测试。
- 建立决策流程的回归测试用例，确保提示模板或配置调整后行为可复现。
- 编写示例 Notebook / end-to-end 教程，参照 TradingAgents-CN 的教学方式，覆盖“数据→回测→调参→评估”全流程。
- 针对数据摄取、策略主干与回测指标建立自动化验证管线，作为无人干预运行的质量护栏。

## 5. 文档同步
- 随功能推进，更新 README 与讨论文档，确保描述与实际实现保持一致。

## 6. LLM 协同与配置
- 精简 Provider 列表、强化 function-calling 架构，完善降级和重试策略，并用配置化的角色提示与数据 Scope 提高模型行为可控性。

（最后更新：2025-09-29）