llm-quant/docs/decision_optimization_notes.md

283 B

决策优化讨论记录(已归档)

原始的强化学习与决策优化笔记已整理为专题文档,详见:

  • docs/principles/reinforcement_learning_tuning.md

如需更新相关内容,请直接维护上述原理文档,此文件仅保留以兼容历史链接。