llm-quant/docs/TODO.md
2025-10-06 21:51:02 +08:00

4.2 KiB
Raw Blame History

记住,我们在开发可实战的投资助理工具,其业务水平要处在投资的前列。不要单纯只实现些简单的功能

项目待办清单

用于跟踪现阶段尚未完成或需要后续完善的工作,便于规划优先级。

1. UI 与日志增强

  • 今日计划页增加“一键重评估”入口,以及日志钻取 / 历史对比视图(对齐 README 中的架构目标)。
  • 回测页面支持多版本实验管理(对比不同提示/温度的收益曲线),与 tuning_results 记录联动。
  • Streamlit 聚焦监控场景,补充实时指标面板、异常日志钻取与“仅监控不干预”模式的一键复评策略。

2. 数据与特征层

  • 实现 app/features/factors.py 中的 compute_factors(),补齐因子计算与持久化流程。
  • 完成 app/ingest/rss.py 的 RSS 拉取与写库逻辑,打通新闻与情绪数据源。
  • 强化 DataBroker 的取数校验、缓存与回退策略,确保行情/特征补数统一自动化,减少人工兜底。
  • 围绕动量、估值、流动性等核心信号扩展轻量高质量因子集,全部由程序生成,满足端到端自动决策需求。

3. 决策优化与强化学习

  • 扩展 DecisionEnv 的动作空间提示版本、部门温度、function 调用策略等),不仅限于代理权重调节。
  • 引入 Bandit / 贝叶斯优化或 RL 算法探索动作空间,并将 portfolio_snapshotsportfolio_trades 指标纳入奖励约束。
  • DecisionEnv 改造为多步 episode逐日输出状态行情特征、持仓、风险事件与动作充分利用历史序列训练强化学习策略。
  • 基于多步环境接入 PPO / SAC 等连续动作算法,结合收益、回撤、成交成本设定奖励与约束,提升收益最大化的稳定性。
  • 在整段回测层面引入并行贝叶斯优化TPE/BOHB或其他全局搜索为强化学习提供高收益初始权重与参数候选。
  • 建立离线验证与滚动前向测试流程,对新策略做回测 vs. 实盘对照,防止收益最大化策略过拟合历史数据。
  • 构建实时持仓/成交数据写入链路,使线上监控与离线调参共用同一数据源。
  • 借鉴 TradingAgents-CN 的做法:拆分环境与策略、提供训练脚本/配置,并输出丰富的评估指标(如 Sharpe、Sortino、基准对比
  • 完善 BacktestEngine 的成交撮合、风险阈值与指标输出,让回测信号直接对接执行端,形成无人值守的自动闭环。

3.1 实施步骤(建议顺序)

  1. 环境重构:扩展 DecisionEnv 支持逐日状态/动作/奖励,完善 BacktestEngine 的状态保存与恢复接口,并补充必要的数据库读写钩子。
  2. 训练基线:实现基于多步环境的 PPO或 SAC训练脚本定义网络结构、奖励项收益/回撤/成交成本)和超参,先在小规模标的上验证收敛。
  3. 全局搜索:在整段回测模式下并行运行 TPE/BOHB 等贝叶斯优化,产出高收益参数作为 RL 的初始化权重或候选策略。
  4. 验证闭环:搭建滚动前向测试流水线,自动记录训练策略的回测表现与准实时对照,接入监控面板并输出风险/收益指标。
  5. 上线准备:结合实时持仓/成交链路,完善回滚与安全阈值机制,准备 A/B 或影子跟投实验,确认收益最大化策略的稳健性。

4. 测试与验证

  • 补充部门上下文构造、多模型调用、回测指标生成等核心路径的单元 / 集成测试。
  • 建立决策流程的回归测试用例,确保提示模板或配置调整后行为可复现。
  • 编写示例 Notebook / end-to-end 教程,参照 TradingAgents-CN 的教学方式,覆盖“数据→回测→调参→评估”全流程。
  • 针对数据摄取、策略主干与回测指标建立自动化验证管线,作为无人干预运行的质量护栏。

5. 文档同步

  • 随功能推进,更新 README 与讨论文档,确保描述与实际实现保持一致。

6. LLM 协同与配置

  • 精简 Provider 列表、强化 function-calling 架构,完善降级和重试策略,并用配置化的角色提示与数据 Scope 提高模型行为可控性。

最后更新2025-09-29