llm-quant/docs/TODO_TRAE.md

# 多智能体个人投资助理项目待开发与待优化项

基于对项目代码库和文档的分析，现将项目中的待开发、待优化项整理如下：

## 1. UI 与日志增强
- **今日计划页**：增加"一键重评估"入口，以及日志钻取/历史对比视图
- **回测页面**：支持多版本实验管理，可对比不同提示/温度的收益曲线，与`tuning_results`记录联动
- **Streamlit界面优化**：补充实时指标面板、异常日志钻取与"仅监控不干预"模式的一键复评策略
- **部门意见详情页**：展示已添加的`_telemetry`与`_department_telemetry`JSON字段信息

## 2. 数据与特征层
- **因子计算模块完善**：`app/features/factors.py`中的`compute_factors()`函数需要进一步优化因子计算与持久化流程
- **新闻数据源打通**：完成`app/ingest/rss.py`的RSS拉取与写库逻辑，强化新闻与情绪数据处理
- **DataBroker增强**：强化取数校验、缓存与回退策略，确保行情/特征补数统一自动化，减少人工兜底
- **因子集扩展**：围绕动量、估值、流动性等核心信号扩展轻量高质量因子集，全部由程序生成，满足端到端自动决策需求

## 3. 决策优化与强化学习
- **动作空间扩展**：扩展`DecisionEnv`的动作空间，包括提示版本、部门温度、function调用策略等
- **强化学习算法集成**：引入Bandit/贝叶斯优化或RL算法探索动作空间，并将`portfolio_snapshots`、`portfolio_trades`指标纳入奖励约束
- **实时数据链路构建**：构建实时持仓/成交数据写入链路，使线上监控与离线调参共用同一数据源
- **环境与策略拆分**：借鉴TradingAgents-CN的做法，拆分环境与策略、提供训练脚本/配置，并输出丰富的评估指标
- **回测引擎完善**：完善`BacktestEngine`的成交撮合、风险阈值与指标输出，让回测信号直接对接执行端

## 4. 测试与验证
- **测试覆盖率提升**：补充部门上下文构造、多模型调用、回测指标生成等核心路径的单元/集成测试
- **回归测试用例**：建立决策流程的回归测试用例，确保提示模板或配置调整后行为可复现
- **教程与示例**：编写示例Notebook/end-to-end教程，覆盖"数据→回测→调参→评估"全流程
- **自动化验证管线**：针对数据摄取、策略主干与回测指标建立自动化验证管线

## 5. 文档同步
- 随功能推进，更新README与讨论文档，确保描述与实际实现保持一致

## 6. LLM协同与配置
- **Provider优化**：精简Provider列表，强化function-calling架构，完善降级和重试策略
- **提示工程**：用配置化的角色提示与数据Scope提高模型行为可控性
- **日志增强**：增强日志功能，记录完整的提示参数与决策结果，便于分析

## 7. 风险闭环强化
- 回测引擎中调整撮合逻辑，统一考虑仓位上限、换手约束、滑点与手续费
- 完善`bt_risk_events`表及落库链路，回测报告输出风险事件统计
- `DecisionEnv`的Episode观测新增换手、风险事件等字段，默认奖励将回撤、风险与换手纳入惩罚项

## 8. 其他优化点
- **模型调用稳定性**：完善LLM调用的错误处理和重试机制
- **响应速度优化**：优化数据查询和计算逻辑，提高系统整体响应速度
- **配置管理优化**：优化配置存储和加载机制，支持更灵活的配置管理

这些待开发和待优化项涵盖了系统的各个层面，从前端UI到后端数据处理，从策略优化到测试验证，可以根据项目优先级和资源情况逐步实施。

## 9. 数据与特征层具体优化建议
根据系统现状分析，以下是数据与特征层的详细优化建议及实施优先级：

### 优先级一：因子计算模块优化
- **现有问题**：当前`factors.py`中的`compute_factors()`函数在计算过程中缺少足够的错误处理和边界条件检查
- **优化方向**：
  - 添加因子计算过程中的数据有效性校验机制
  - 实现因子值的异常值检测与处理逻辑
  - 增加计算进度显示和日志记录
  - 优化`_persist_factor_rows`函数的批处理性能
- **预期收益**：提高因子计算的准确性和稳定性，减少因数据质量问题导致的决策偏差

### 优先级二：DataBroker数据访问层增强
- **现有问题**：`data_access.py`中的DataBroker类在数据获取失败时缺乏有效回退机制
- **优化方向**：
  - 实现多级缓存策略，减少重复数据请求
  - 开发数据请求失败的自动重试机制
  - 增加数据源健康状态监控
  - 设计数据质量评估指标
- **预期收益**：提高数据获取的稳定性和效率，增强系统对数据源波动的适应能力

### 优先级三：新闻数据源接入完善
- **现有问题**：`rss.py`中的新闻处理逻辑较为简单，情感分析和实体提取能力有限
- **优化方向**：
  - 扩展支持的RSS源数量和类型
  - 增强情感分析模型，提高情绪识别准确率
  - 改进实体提取算法，更准确地识别新闻中的股票代码
  - 实现新闻时效性评分机制
- **预期收益**：提升新闻数据对投资决策的参考价值，丰富决策依据

### 优先级四：数据完整性检查体系
- **现有问题**：缺乏系统性的数据完整性检查机制
- **优化方向**：
  - 建立数据完整性规则和指标体系
  - 开发定时执行的数据质量检查脚本
  - 实现异常数据的自动告警机制
  - 设计数据补全和修复流程
- **预期收益**：确保数据质量，减少因数据问题导致的决策错误

### 优先级五：因子库扩展
- **现有问题**：当前`DEFAULT_FACTORS`列表中的因子类型相对有限
- **优化方向**：
  - 研究并实现更多高质量的技术因子
  - 开发基本面因子计算逻辑
  - 设计因子组合和因子权重优化算法
  - 建立因子绩效评估框架
- **预期收益**：丰富决策模型的输入特征，提高投资决策的准确性和多样性

这些具体的优化建议可以作为项目团队在推进数据与特征层优化工作时的详细指导，按照优先级顺序逐步实施，将有助于系统性地提升系统的数据处理能力和决策支持水平。