51 lines
4.2 KiB
Markdown
51 lines
4.2 KiB
Markdown
# 记住,我们在开发可实战的投资助理工具,其业务水平要处在投资的前列。不要单纯只实现些简单的功能
|
||
|
||
|
||
|
||
# 项目待办清单
|
||
|
||
> 用于跟踪现阶段尚未完成或需要后续完善的工作,便于规划优先级。
|
||
|
||
## 1. UI 与日志增强
|
||
- 今日计划页增加“一键重评估”入口,以及日志钻取 / 历史对比视图(对齐 README 中的架构目标)。
|
||
- 回测页面支持多版本实验管理(对比不同提示/温度的收益曲线),与 `tuning_results` 记录联动。
|
||
- Streamlit 聚焦监控场景,补充实时指标面板、异常日志钻取与“仅监控不干预”模式的一键复评策略。
|
||
|
||
## 2. 数据与特征层
|
||
- 实现 `app/features/factors.py` 中的 `compute_factors()`,补齐因子计算与持久化流程。
|
||
- 完成 `app/ingest/rss.py` 的 RSS 拉取与写库逻辑,打通新闻与情绪数据源。
|
||
- 强化 `DataBroker` 的取数校验、缓存与回退策略,确保行情/特征补数统一自动化,减少人工兜底。
|
||
- 围绕动量、估值、流动性等核心信号扩展轻量高质量因子集,全部由程序生成,满足端到端自动决策需求。
|
||
|
||
## 3. 决策优化与强化学习
|
||
- ✅ 扩展 `DecisionEnv` 的动作空间(提示版本、部门温度、function 调用策略等),不仅限于代理权重调节。
|
||
- 引入 Bandit / 贝叶斯优化或 RL 算法探索动作空间,并将 `portfolio_snapshots`、`portfolio_trades` 指标纳入奖励约束。
|
||
- 将 `DecisionEnv` 改造为多步 episode,逐日输出状态(行情特征、持仓、风险事件)与动作,充分利用历史序列训练强化学习策略。
|
||
- ✅ 基于多步环境接入 PPO / SAC 等连续动作算法,结合收益、回撤、成交成本设定奖励与约束,提升收益最大化的稳定性。
|
||
- 在整段回测层面引入并行贝叶斯优化(TPE/BOHB)或其他全局搜索,为强化学习提供高收益初始权重与参数候选。
|
||
- 建立离线验证与滚动前向测试流程,对新策略做回测 vs. 实盘对照,防止收益最大化策略过拟合历史数据。
|
||
- 构建实时持仓/成交数据写入链路,使线上监控与离线调参共用同一数据源。
|
||
- 借鉴 TradingAgents-CN 的做法:拆分环境与策略、提供训练脚本/配置,并输出丰富的评估指标(如 Sharpe、Sortino、基准对比)。
|
||
- 完善 `BacktestEngine` 的成交撮合、风险阈值与指标输出,让回测信号直接对接执行端,形成无人值守的自动闭环。
|
||
|
||
### 3.1 实施步骤(建议顺序)
|
||
1. 环境重构:扩展 `DecisionEnv` 支持逐日状态/动作/奖励,完善 `BacktestEngine` 的状态保存与恢复接口,并补充必要的数据库读写钩子。
|
||
2. 训练基线:实现基于多步环境的 PPO(或 SAC)训练脚本,定义网络结构、奖励项(收益/回撤/成交成本)和超参,先在小规模标的上验证收敛。
|
||
3. 全局搜索:在整段回测模式下并行运行 TPE/BOHB 等贝叶斯优化,产出高收益参数作为 RL 的初始化权重或候选策略。
|
||
4. 验证闭环:搭建滚动前向测试流水线,自动记录训练策略的回测表现与准实时对照,接入监控面板并输出风险/收益指标。
|
||
5. 上线准备:结合实时持仓/成交链路,完善回滚与安全阈值机制,准备 A/B 或影子跟投实验,确认收益最大化策略的稳健性。
|
||
|
||
## 4. 测试与验证
|
||
- 补充部门上下文构造、多模型调用、回测指标生成等核心路径的单元 / 集成测试。
|
||
- 建立决策流程的回归测试用例,确保提示模板或配置调整后行为可复现。
|
||
- 编写示例 Notebook / end-to-end 教程,参照 TradingAgents-CN 的教学方式,覆盖“数据→回测→调参→评估”全流程。
|
||
- 针对数据摄取、策略主干与回测指标建立自动化验证管线,作为无人干预运行的质量护栏。
|
||
|
||
## 5. 文档同步
|
||
- 随功能推进,更新 README 与讨论文档,确保描述与实际实现保持一致。
|
||
|
||
## 6. LLM 协同与配置
|
||
- 精简 Provider 列表、强化 function-calling 架构,完善降级和重试策略,并用配置化的角色提示与数据 Scope 提高模型行为可控性。
|
||
|
||
(最后更新:2025-09-29)
|