记住，我们在开发可实战的投资助理工具，其业务水平要处在投资的前列。不要单纯只实现些简单的功能

项目待办清单

用于跟踪现阶段尚未完成或需要后续完善的工作，便于规划优先级。

✅ 扩展 DecisionEnv 的动作空间（提示版本、部门温度、function 调用策略等），不仅限于代理权重调节。
引入 Bandit / 贝叶斯优化或 RL 算法探索动作空间，并将 portfolio_snapshots、portfolio_trades 指标纳入奖励约束。
将 DecisionEnv 改造为多步 episode，逐日输出状态（行情特征、持仓、风险事件）与动作，充分利用历史序列训练强化学习策略。
✅ 基于多步环境接入 PPO / SAC 等连续动作算法，结合收益、回撤、成交成本设定奖励与约束，提升收益最大化的稳定性。
在整段回测层面引入并行贝叶斯优化（TPE/BOHB）或其他全局搜索，为强化学习提供高收益初始权重与参数候选。
建立离线验证与滚动前向测试流程，对新策略做回测 vs. 实盘对照，防止收益最大化策略过拟合历史数据。
构建实时持仓/成交数据写入链路，使线上监控与离线调参共用同一数据源。
借鉴 TradingAgents-CN 的做法：拆分环境与策略、提供训练脚本/配置，并输出丰富的评估指标（如 Sharpe、Sortino、基准对比）。
完善 BacktestEngine 的成交撮合、风险阈值与指标输出，让回测信号直接对接执行端，形成无人值守的自动闭环。

环境重构：扩展 DecisionEnv 支持逐日状态/动作/奖励，完善 BacktestEngine 的状态保存与恢复接口，并补充必要的数据库读写钩子。
训练基线：实现基于多步环境的 PPO（或 SAC）训练脚本，定义网络结构、奖励项（收益/回撤/成交成本）和超参，先在小规模标的上验证收敛。
全局搜索：在整段回测模式下并行运行 TPE/BOHB 等贝叶斯优化，产出高收益参数作为 RL 的初始化权重或候选策略。
验证闭环：搭建滚动前向测试流水线，自动记录训练策略的回测表现与准实时对照，接入监控面板并输出风险/收益指标。
上线准备：结合实时持仓/成交链路，完善回滚与安全阈值机制，准备 A/B 或影子跟投实验，确认收益最大化策略的稳健性。

（最后更新：2025-09-29）