add rate limiting and response caching to LLM providers

2025-10-17 10:13:27 +08:00 · 2025-10-17 10:13:27 +08:00 · ae1a49f79f
commit ae1a49f79f
parent 7395c5acab
8 changed files with 413 additions and 7 deletions
--- a/app/llm/cache.py
+++ b/app/llm/cache.py
@ -0,0 +1,123 @@
 """In-memory response cache for LLM calls."""
 from __future__ import annotations
 import hashlib
 import json
 import os
 from collections import OrderedDict
 from copy import deepcopy
 from threading import Lock
 from typing import Any, Callable, Mapping, Optional, Sequence
 from time import monotonic
 DEFAULT_CACHE_MAX_SIZE = int(os.getenv("LLM_CACHE_MAX_SIZE", "512") or 0)
 DEFAULT_CACHE_TTL = float(os.getenv("LLM_CACHE_DEFAULT_TTL", "180") or 0.0)
 _GLOBAL_CACHE: "LLMResponseCache" | None = None
 def _normalize(obj: Any) -> Any:
    if isinstance(obj, Mapping):
        return {str(key): _normalize(value) for key, value in sorted(obj.items(), key=lambda item: str(item[0]))}
    if isinstance(obj, (list, tuple)):
        return [_normalize(item) for item in obj]
    if isinstance(obj, (str, int, float, bool)) or obj is None:
        return obj
    return str(obj)
 class LLMResponseCache:
    """Simple thread-safe LRU cache with TTL support."""
    def __init__(
        self,
        max_size: int = DEFAULT_CACHE_MAX_SIZE,
        default_ttl: float = DEFAULT_CACHE_TTL,
        *,
        time_func: Callable[[], float] = monotonic,
    ) -> None:
        self._max_size = max(0, int(max_size))
        self._default_ttl = max(0.0, float(default_ttl))
        self._time = time_func
        self._lock = Lock()
        self._store: OrderedDict[str, tuple[float, Any]] = OrderedDict()
    @property
    def enabled(self) -> bool:
        return self._max_size > 0 and self._default_ttl > 0
    def get(self, key: str) -> Optional[Any]:
        if not key or not self.enabled:
            return None
        with self._lock:
            entry = self._store.get(key)
            if not entry:
                return None
            expires_at, value = entry
            if expires_at <= self._time():
                self._store.pop(key, None)
                return None
            self._store.move_to_end(key)
            return deepcopy(value)
    def set(self, key: str, value: Any, *, ttl: Optional[float] = None) -> None:
        if not key or not self.enabled:
            return
        ttl_value = self._default_ttl if ttl is None else float(ttl)
        if ttl_value <= 0:
            return
        expires_at = self._time() + ttl_value
        with self._lock:
            self._store[key] = (expires_at, deepcopy(value))
            self._store.move_to_end(key)
            while len(self._store) > self._max_size:
                self._store.popitem(last=False)
    def clear(self) -> None:
        with self._lock:
            self._store.clear()
 def llm_cache() -> LLMResponseCache:
    global _GLOBAL_CACHE
    if _GLOBAL_CACHE is None:
        _GLOBAL_CACHE = LLMResponseCache()
    return _GLOBAL_CACHE
 def build_cache_key(
    provider_key: str,
    resolved_endpoint: Mapping[str, Any],
    messages: Sequence[Mapping[str, Any]],
    tools: Optional[Sequence[Mapping[str, Any]]],
    tool_choice: Any,
 ) -> str:
    payload = {
        "provider": provider_key,
        "model": resolved_endpoint.get("model"),
        "base_url": resolved_endpoint.get("base_url"),
        "temperature": resolved_endpoint.get("temperature"),
        "mode": resolved_endpoint.get("mode"),
        "messages": _normalize(messages),
        "tools": _normalize(tools) if tools else None,
        "tool_choice": _normalize(tool_choice),
    }
    raw = json.dumps(payload, ensure_ascii=False, sort_keys=True)
    return hashlib.sha256(raw.encode("utf-8")).hexdigest()
 def is_cacheable(
    resolved_endpoint: Mapping[str, Any],
    messages: Sequence[Mapping[str, Any]],
    tools: Optional[Sequence[Mapping[str, Any]]],
 ) -> bool:
    if tools:
        return False
    if not messages:
        return False
    temperature = resolved_endpoint.get("temperature", 0.0)
    try:
        temperature_value = float(temperature)
    except (TypeError, ValueError):
        temperature_value = 0.0
    return temperature_value <= 0.3
--- a/app/llm/client.py
+++ b/app/llm/client.py
@ -12,21 +12,25 @@ import requests
 from .context import ContextManager, Message
 from .templates import TemplateRegistry
 from .cost import configure_cost_limits, get_cost_controller, budget_available
 from .cache import build_cache_key, is_cacheable, llm_cache
 from .rate_limit import RateLimiter
 from app.utils.config import (
    DEFAULT_LLM_BASE_URLS,
    DEFAULT_LLM_MODELS,
    DEFAULT_LLM_TEMPERATURES,
    DEFAULT_LLM_TIMEOUTS,
    DEFAULT_LLM_MODEL_OPTIONS,
    LLMConfig,
    LLMEndpoint,
    get_config,
 )
-from app.llm.metrics import record_call, record_template_usage
+from app.llm.metrics import record_call, record_cache_hit, record_template_usage
 from app.utils.logging import get_logger
 LOGGER = get_logger(__name__)
 LOG_EXTRA = {"stage": "llm"}
 RATE_LIMITER = RateLimiter()
 class LLMError(RuntimeError):
    """Raised when LLM provider returns an error response."""
@ -122,6 +126,17 @@ def resolve_endpoint(endpoint: LLMEndpoint) -> Dict[str, object]:
    timeout = endpoint.timeout
    prompt_template = endpoint.prompt_template
    def _safe_int(value: object, fallback: int) -> int:
        try:
            return int(value)
        except (TypeError, ValueError):
            return fallback
    rate_limit_per_minute = 0
    rate_limit_burst = 0
    cache_enabled = True
    cache_ttl_seconds = 0
    if provider_cfg:
        if not provider_cfg.enabled:
            raise LLMError(f"Provider {provider_key} 已被禁用")
@ -134,6 +149,15 @@ def resolve_endpoint(endpoint: LLMEndpoint) -> Dict[str, object]:
            timeout = provider_cfg.default_timeout
        prompt_template = prompt_template or (provider_cfg.prompt_template or None)
        mode = provider_cfg.mode or ("ollama" if provider_key == "ollama" else "openai")
        rate_limit_per_minute = max(0, _safe_int(provider_cfg.rate_limit_per_minute, 0))
        rate_limit_burst = provider_cfg.rate_limit_burst
        rate_limit_burst = _safe_int(rate_limit_burst, rate_limit_per_minute or 0)
        if rate_limit_per_minute > 0:
            rate_limit_burst = max(1, rate_limit_burst or rate_limit_per_minute)
        else:
            rate_limit_burst = max(0, rate_limit_burst)
        cache_enabled = bool(provider_cfg.cache_enabled)
        cache_ttl_seconds = max(0, _safe_int(provider_cfg.cache_ttl_seconds, 0))
    else:
        base_url = base_url or _default_base_url(provider_key)
        model = model or _default_model(provider_key)
@ -143,6 +167,15 @@ def resolve_endpoint(endpoint: LLMEndpoint) -> Dict[str, object]:
        if timeout is None:
            timeout = DEFAULT_LLM_TIMEOUTS.get(provider_key, 30.0)
        mode = "ollama" if provider_key == "ollama" else "openai"
        defaults = DEFAULT_LLM_MODEL_OPTIONS.get(provider_key, {})
        rate_limit_per_minute = max(0, _safe_int(defaults.get("rate_limit_per_minute"), 0))
        rate_limit_burst = _safe_int(defaults.get("rate_limit_burst"), rate_limit_per_minute or 0)
        if rate_limit_per_minute > 0:
            rate_limit_burst = max(1, rate_limit_burst or rate_limit_per_minute)
        else:
            rate_limit_burst = max(0, rate_limit_burst)
        cache_enabled = bool(defaults.get("cache_enabled", True))
        cache_ttl_seconds = max(0, _safe_int(defaults.get("cache_ttl_seconds"), 0))
    return {
        "provider_key": provider_key,
@ -153,6 +186,10 @@ def resolve_endpoint(endpoint: LLMEndpoint) -> Dict[str, object]:
        "temperature": max(0.0, min(float(temperature), 2.0)),
        "timeout": max(5.0, float(timeout)),
        "prompt_template": prompt_template,
        "rate_limit_per_minute": rate_limit_per_minute,
        "rate_limit_burst": rate_limit_burst,
        "cache_enabled": cache_enabled,
        "cache_ttl_seconds": cache_ttl_seconds,
    }
@ -201,6 +238,38 @@ def call_endpoint_with_messages(
    temperature = resolved["temperature"]
    timeout = resolved["timeout"]
    api_key = resolved["api_key"]
    rate_limit_per_minute = max(0, int(resolved.get("rate_limit_per_minute") or 0))
    rate_limit_burst = max(0, int(resolved.get("rate_limit_burst") or 0))
    cache_enabled = bool(resolved.get("cache_enabled", True))
    cache_ttl_seconds = max(0, int(resolved.get("cache_ttl_seconds") or 0))
    if rate_limit_per_minute > 0:
        if rate_limit_burst <= 0:
            rate_limit_burst = rate_limit_per_minute
        wait_time = RATE_LIMITER.acquire(provider_key, rate_limit_per_minute, rate_limit_burst)
        if wait_time > 0:
            LOGGER.debug(
                "LLM 请求触发限速：provider=%s wait=%.3fs",
                provider_key,
                wait_time,
                extra=LOG_EXTRA,
            )
            time.sleep(wait_time)
    cache_store = llm_cache()
    cache_allowed = (
        cache_enabled
        and cache_ttl_seconds > 0
        and cache_store.enabled
        and is_cacheable(resolved, messages, tools)
    )
    cache_key: Optional[str] = None
    if cache_allowed:
        cache_key = build_cache_key(provider_key, resolved, messages, tools, tool_choice)
        cached_payload = cache_store.get(cache_key)
        if cached_payload is not None:
            record_cache_hit(provider_key, model)
            return cached_payload
    cfg = get_config()
    cost_cfg = getattr(cfg, "llm_cost", None)
@ -261,6 +330,8 @@ def call_endpoint_with_messages(
        # Ollama may return `tool_calls` under message.tool_calls when tools are used.
        # Return the raw response so callers can handle either OpenAI-like responses or
        # Ollama's message structure with `tool_calls`.
        if cache_allowed and cache_key:
            cache_store.set(cache_key, data, ttl=cache_ttl_seconds)
        return data
    if not api_key:
@ -298,6 +369,8 @@ def call_endpoint_with_messages(
                model,
                extra=LOG_EXTRA,
            )
    if cache_allowed and cache_key:
        cache_store.set(cache_key, data, ttl=cache_ttl_seconds)
    return data
--- a/app/llm/metrics.py
+++ b/app/llm/metrics.py
@ -14,6 +14,7 @@ class _Metrics:
    total_calls: int = 0
    total_prompt_tokens: int = 0
    total_completion_tokens: int = 0
    cache_hits: int = 0
    provider_calls: Dict[str, int] = field(default_factory=dict)
    model_calls: Dict[str, int] = field(default_factory=dict)
    decisions: Deque[Dict[str, object]] = field(default_factory=lambda: deque(maxlen=500))
@ -62,6 +63,20 @@ def record_call(
    _notify_listeners()
 def record_cache_hit(provider: str, model: Optional[str] = None) -> None:
    """Record a cache-hit event for observability."""
    normalized_provider = (provider or "unknown").lower()
    normalized_model = (model or "").strip()
    with _LOCK:
        _METRICS.cache_hits += 1
        if normalized_provider:
            _METRICS.provider_calls.setdefault(normalized_provider, _METRICS.provider_calls.get(normalized_provider, 0))
        if normalized_model:
            _METRICS.model_calls.setdefault(normalized_model, _METRICS.model_calls.get(normalized_model, 0))
    _notify_listeners()
 def snapshot(reset: bool = False) -> Dict[str, object]:
    """Return a snapshot of current metrics. Optionally reset counters."""
@ -70,6 +85,7 @@ def snapshot(reset: bool = False) -> Dict[str, object]:
            "total_calls": _METRICS.total_calls,
            "total_prompt_tokens": _METRICS.total_prompt_tokens,
            "total_completion_tokens": _METRICS.total_completion_tokens,
            "cache_hits": _METRICS.cache_hits,
            "provider_calls": dict(_METRICS.provider_calls),
            "model_calls": dict(_METRICS.model_calls),
            "decision_action_counts": dict(_METRICS.decision_action_counts),
@ -86,6 +102,7 @@ def snapshot(reset: bool = False) -> Dict[str, object]:
            _METRICS.total_calls = 0
            _METRICS.total_prompt_tokens = 0
            _METRICS.total_completion_tokens = 0
            _METRICS.cache_hits = 0
            _METRICS.provider_calls.clear()
            _METRICS.model_calls.clear()
            _METRICS.decision_action_counts.clear()
--- a/app/llm/rate_limit.py
+++ b/app/llm/rate_limit.py
@ -0,0 +1,48 @@
 """Simple token-bucket rate limiter for LLM calls."""
 from __future__ import annotations
 from threading import Lock
 from time import monotonic
 from typing import Callable, Dict
 class RateLimiter:
    """Token bucket rate limiter that returns required wait time."""
    def __init__(self, monotonic_func: Callable[[], float] | None = None) -> None:
        self._now = monotonic_func or monotonic
        self._lock = Lock()
        self._buckets: Dict[str, dict[str, float]] = {}
    def acquire(self, key: str, rate_per_minute: int, burst: int) -> float:
        """Attempt to consume a token; return wait time if throttled."""
        if rate_per_minute <= 0:
            return 0.0
        capacity = float(max(1, burst if burst > 0 else rate_per_minute))
        rate = float(rate_per_minute)
        now = self._now()
        with self._lock:
            bucket = self._buckets.get(key)
            if bucket is None:
                bucket = {"tokens": capacity, "capacity": capacity, "last": now, "rate": rate}
                self._buckets[key] = bucket
            else:
                bucket["capacity"] = capacity
                bucket["rate"] = rate
            tokens = bucket["tokens"]
            elapsed = max(0.0, now - bucket["last"])
            tokens = min(capacity, tokens + elapsed * rate / 60.0)
            if tokens >= 1.0:
                bucket["tokens"] = tokens - 1.0
                bucket["last"] = now
                return 0.0
            bucket["tokens"] = tokens
            bucket["last"] = now
            deficit = 1.0 - tokens
            wait_time = deficit * 60.0 / rate
            return max(wait_time, 0.0)
    def reset(self) -> None:
        with self._lock:
            self._buckets.clear()
--- a/app/ui/views/settings.py
+++ b/app/ui/views/settings.py
@ -230,6 +230,41 @@ def render_llm_settings() -> None:
        enabled_val = st.checkbox("启用", value=provider_cfg.enabled, key=enabled_key)
        mode_val = st.selectbox("模式", options=["openai", "ollama"], index=0 if provider_cfg.mode == "openai" else 1, key=mode_key)
        rate_key = f"provider_rate_{selected_provider}"
        burst_key = f"provider_burst_{selected_provider}"
        cache_enabled_key = f"provider_cache_enabled_{selected_provider}"
        cache_ttl_key = f"provider_cache_ttl_{selected_provider}"
        col_rate, col_burst = st.columns(2)
        with col_rate:
            rate_limit_val = st.number_input(
                "限速 (次/分钟)",
                min_value=0,
                max_value=5000,
                value=int(provider_cfg.rate_limit_per_minute or 0),
                step=10,
                key=rate_key,
                help="0 表示不限制请求频率，适合本地或私有部署。",
            )
        with col_burst:
            burst_limit_val = st.number_input(
                "突发令牌数",
                min_value=0,
                max_value=5000,
                value=int(provider_cfg.rate_limit_burst or max(1, provider_cfg.rate_limit_per_minute or 1)),
                step=5,
                key=burst_key,
                help="控制瞬时突发的最大请求数，建议不低于限速值。",
            )
        cache_enabled_val = st.checkbox("启用响应缓存", value=provider_cfg.cache_enabled, key=cache_enabled_key)
        cache_ttl_val = st.number_input(
            "缓存有效期(秒)",
            min_value=0,
            max_value=3600,
            value=int(provider_cfg.cache_ttl_seconds or 0),
            step=30,
            key=cache_ttl_key,
            help="缓存相同请求的返回结果以降低成本；0 表示禁用。",
        )
        st.markdown("可用模型：")
        if provider_cfg.models:
            st.code("\n".join(provider_cfg.models), language="text")
@ -267,6 +302,19 @@ def render_llm_settings() -> None:
            provider_cfg.api_key = api_val.strip() or None
            provider_cfg.enabled = enabled_val
            provider_cfg.mode = mode_val
            try:
                provider_cfg.rate_limit_per_minute = max(0, int(rate_limit_val))
            except (TypeError, ValueError):
                provider_cfg.rate_limit_per_minute = 0
            try:
                provider_cfg.rate_limit_burst = max(0, int(burst_limit_val))
            except (TypeError, ValueError):
                provider_cfg.rate_limit_burst = provider_cfg.rate_limit_per_minute or 0
            provider_cfg.cache_enabled = bool(cache_enabled_val)
            try:
                provider_cfg.cache_ttl_seconds = max(0, int(cache_ttl_val))
            except (TypeError, ValueError):
                provider_cfg.cache_ttl_seconds = 0
            providers[selected_provider] = provider_cfg
            cfg.llm_providers = providers
            cfg.sync_runtime_llm()
--- a/app/utils/config.py
+++ b/app/utils/config.py
@ -113,24 +113,40 @@ DEFAULT_LLM_MODEL_OPTIONS: Dict[str, Dict[str, object]] = {
        "base_url": "http://localhost:11434",
        "temperature": 0.2,
        "timeout": 30.0,
        "rate_limit_per_minute": 120,
        "rate_limit_burst": 40,
        "cache_enabled": True,
        "cache_ttl_seconds": 120,
    },
    "openai": {
        "models": ["gpt-4o-mini", "gpt-4.1-mini", "gpt-3.5-turbo"],
        "base_url": "https://api.openai.com",
        "temperature": 0.2,
        "timeout": 30.0,
        "rate_limit_per_minute": 60,
        "rate_limit_burst": 30,
        "cache_enabled": True,
        "cache_ttl_seconds": 180,
    },
    "deepseek": {
        "models": ["deepseek-chat", "deepseek-coder"],
        "base_url": "https://api.deepseek.com",
        "temperature": 0.2,
        "timeout": 45.0,
        "rate_limit_per_minute": 45,
        "rate_limit_burst": 20,
        "cache_enabled": True,
        "cache_ttl_seconds": 240,
    },
    "wenxin": {
        "models": ["ERNIE-Speed", "ERNIE-Bot"],
        "base_url": "https://aip.baidubce.com",
        "temperature": 0.2,
        "timeout": 60.0,
        "rate_limit_per_minute": 30,
        "rate_limit_burst": 15,
        "cache_enabled": True,
        "cache_ttl_seconds": 300,
    },
 }
@ -173,6 +189,10 @@ class LLMProvider:
    prompt_template: str = ""
    enabled: bool = True
    mode: str = "openai"  # openai 或 ollama
    rate_limit_per_minute: int = 60
    rate_limit_burst: int = 30
    cache_enabled: bool = True
    cache_ttl_seconds: int = 180
    def to_dict(self) -> Dict[str, object]:
        return {
@ -186,6 +206,10 @@ class LLMProvider:
            "prompt_template": self.prompt_template,
            "enabled": self.enabled,
            "mode": self.mode,
            "rate_limit_per_minute": self.rate_limit_per_minute,
            "rate_limit_burst": self.rate_limit_burst,
            "cache_enabled": self.cache_enabled,
            "cache_ttl_seconds": self.cache_ttl_seconds,
        }
@ -291,6 +315,10 @@ def _default_llm_providers() -> Dict[str, LLMProvider]:
            default_temperature=float(meta.get("temperature", DEFAULT_LLM_TEMPERATURES.get(provider, 0.2))),
            default_timeout=float(meta.get("timeout", DEFAULT_LLM_TIMEOUTS.get(provider, 30.0))),
            mode=mode,
            rate_limit_per_minute=int(meta.get("rate_limit_per_minute", 60) or 0),
            rate_limit_burst=int(meta.get("rate_limit_burst", meta.get("rate_limit_per_minute", 60)) or 0),
            cache_enabled=bool(meta.get("cache_enabled", True)),
            cache_ttl_seconds=int(meta.get("cache_ttl_seconds", 180) or 0),
        )
    return providers
@ -619,6 +647,7 @@ def _load_from_file(cfg: AppConfig) -> None:
        for key, data in providers_payload.items():
            if not isinstance(data, dict):
                continue
            provider_key = str(key).lower()
            models_raw = data.get("models")
            if isinstance(models_raw, str):
                models = [item.strip() for item in models_raw.split(',') if item.strip()]
@ -626,8 +655,23 @@ def _load_from_file(cfg: AppConfig) -> None:
                models = [str(item).strip() for item in models_raw if str(item).strip()]
            else:
                models = []
            defaults = DEFAULT_LLM_MODEL_OPTIONS.get(provider_key, {})
            def _safe_int(value: object, fallback: int) -> int:
                try:
                    return int(value)
                except (TypeError, ValueError):
                    return fallback
            rate_limit_per_minute = _safe_int(data.get("rate_limit_per_minute"), int(defaults.get("rate_limit_per_minute", 60) or 0))
            rate_limit_burst = _safe_int(
                data.get("rate_limit_burst"),
                int(defaults.get("rate_limit_burst", defaults.get("rate_limit_per_minute", rate_limit_per_minute)) or rate_limit_per_minute or 0),
            )
            cache_ttl_seconds = _safe_int(
                data.get("cache_ttl_seconds"),
                int(defaults.get("cache_ttl_seconds", 180) or 0),
            )
            provider = LLMProvider(
-                key=str(key).lower(),
+                key=provider_key,
                title=str(data.get("title") or ""),
                base_url=str(data.get("base_url") or ""),
                api_key=data.get("api_key"),
@ -637,7 +681,11 @@ def _load_from_file(cfg: AppConfig) -> None:
                default_timeout=float(data.get("default_timeout", 30.0)),
                prompt_template=str(data.get("prompt_template") or ""),
                enabled=bool(data.get("enabled", True)),
-                mode=str(data.get("mode") or ("ollama" if str(key).lower() == "ollama" else "openai")),
+                mode=str(data.get("mode") or ("ollama" if provider_key == "ollama" else "openai")),
                rate_limit_per_minute=max(0, rate_limit_per_minute),
                rate_limit_burst=max(1, rate_limit_burst) if rate_limit_per_minute > 0 else max(0, rate_limit_burst),
                cache_enabled=bool(data.get("cache_enabled", defaults.get("cache_enabled", True))),
                cache_ttl_seconds=max(0, cache_ttl_seconds),
            )
            providers[provider.key] = provider
        if providers:
--- a/docs/TODO.md
+++ b/docs/TODO.md
@ -29,10 +29,10 @@
 | 工作项 | 状态 | 说明 |
 | --- | --- | --- |
 | Provider 与 function 架构 | ✅ | Provider 管理、function-calling 降级与重试策略已收敛。 |
-| 提示模板治理 | 🔄 | LLM 设置新增模板版本治理与使用监控，后续补充成本/效果数据。 |
+| 提示模板治理 | ✅ | LLM 设置提供模板版本治理、元数据维护与调用监控，待补充成本/效果分析。 |
-| 部门遥测可视化 | 🔄 | LLM 设置新增遥测面板，支持分页查看/导出部门 & 全局遥测。 |
+| 部门遥测可视化 | ✅ | 设置页已支持部门/全局遥测筛选、导出与动态限额调节。 |
-| 多轮逻辑博弈框架 | 🔄 | 新增主持 briefing、预测对齐及冲突复核轮，持续完善信念修正策略。 |
+| 多轮逻辑博弈框架 | ✅ | 主持 briefing、预测对齐、风险复核与冲突回合均已串联上线。 |
-| LLM 稳定性提升 | ⏳ | 持续优化限速、降级、成本控制与缓存策略。 |
+| LLM 稳定性提升 | ✅ | Provider 级限速、响应缓存与成本守卫协同生效，支撑平滑降级策略。 |
 ## UI 与监控
--- a/tests/test_llm_runtime.py
+++ b/tests/test_llm_runtime.py
@ -0,0 +1,49 @@
 """Tests for LLM runtime helpers such as rate limiting and caching."""
 from __future__ import annotations
 import pytest
 from app.llm.cache import LLMResponseCache
 from app.llm.rate_limit import RateLimiter
 def test_rate_limiter_returns_wait_time() -> None:
    """Ensure limiter enforces configured throughput."""
    current = [0.0]
    def fake_time() -> float:
        return current[0]
    limiter = RateLimiter(monotonic_func=fake_time)
    assert limiter.acquire("openai", rate_per_minute=2, burst=1) == pytest.approx(0.0)
    delay = limiter.acquire("openai", rate_per_minute=2, burst=1)
    assert delay == pytest.approx(30.0, rel=1e-3)
    current[0] += 30.0
    assert limiter.acquire("openai", rate_per_minute=2, burst=1) == pytest.approx(0.0)
 def test_llm_response_cache_ttl_and_lru() -> None:
    """Validate cache expiration and eviction semantics."""
    current = [0.0]
    def fake_time() -> float:
        return current[0]
    cache = LLMResponseCache(max_size=2, default_ttl=10, time_func=fake_time)
    cache.set("key1", {"value": 1})
    assert cache.get("key1") == {"value": 1}
    current[0] += 11
    assert cache.get("key1") is None
    cache.set("key1", {"value": 1})
    cache.set("key2", {"value": 2})
    assert cache.get("key1") == {"value": 1}
    cache.set("key3", {"value": 3})
    assert cache.get("key2") is None
    assert cache.get("key1") == {"value": 1}
    assert cache.get("key3") == {"value": 3}