2026年5月27日 (水)
今日のテーマ:測定、監視、およびツール表面セキュリティ。 一般的なLLMベンチマーキングハーネスが体系的に誤った製造レイテンシとスループットが可能な新しい研究面では、別々の作業では、新規のエージェント攻撃面(MCP/tool-description-agenting)を強調し、配布中のアライメント障害をキャッチするモニターの必要性が強調されています。 市場は、AI-adjacent触媒(SpaceX IPO Spillovers、AppleのWWDC AIの物語)を中心にヘッドライン主導を維持し、暗号はフローと「AIインフラストラクチャ」の位置で取引し続けています。
LLMs は生産に深く動くので、計測とガバナンスに関する最も困難な問題はますますますます高まっています: 負荷下での実際のパフォーマンスを測定し、オフディストリビューションを上回るだけでなく、微妙なプロンプトレイヤ攻撃に対するエージェント ツール サーフェスを硬化させます。 一般的なスレッドは「平均で良い」メトリックが十分ではないということです。実際の故障モードに縛られたテストをターゲティングする必要があります。
生産LLMの推論のベンチマークの全身の測定のbiasのペーパー警告
広く使用されているベンチマーキングユーティリティは、クライアントサイドのキューイングネック(多くの場合、単一プロセス、非同期駆動ハーネス)を導入し、偏光度/スループット測定をスケールで生成できる新しいarXivペーパーargues。
チームでは、ベンチマーク番号を使用してSLOを設定し、ベンダーを選択し、クラスターのサイズを選択します。 ハーネスがボトルネックである場合は、下段(モデルを信じることはそれよりも遅くなります)か、信頼できないシステム(正しいことを測定していないときは、SLOに会っていると信じています)を出荷することができます。
- 01 Benchmark harness architecture can dominate the result. A single-process client can create artificial tail latency and distort throughput curves, especially under high concurrency.
- 02 Production SLO evaluation needs end-to-end measurement, including network, batching, queueing, and retry behavior, not just isolated model kernel timing.
- 03 Bias shows up most in the tails. If you optimize for p50 and ignore p95/p99 under realistic load patterns, you can ‘pass’ benchmarks and still fail users.
If you rely on load tests for go/no-go decisions, validate your harness first: run a no-op server to measure client-side saturation, then run a known-fast endpoint to confirm the harness is not the limiter. Track p95/p99 under step-load and burst-load profiles, and report both server-side and client-observed timings so bottlenecks are attributable.
「マニュアル」と現実:LMエージェントのMCPツール説明中毒攻撃のベンチマーク
紙は、モデルコンテキストプロトコル(MCP)の中毒攻撃を評価するための現実的なベンチマークを導入し、ツールの説明に焦点を合わせ、ツールの文書/メタデータを操作することにより、エージェントの計画層をターゲットとするツールの説明ポジショニング(TDP)に焦点を当てています。
エージェントシステムは、多くの場合、信頼できる指示としてツールの説明を処理します。 攻撃者がそれらの説明を毒することができます(または「マニュアル」エージェントが読みます)、エージェントは、ユーザープロンプトが良性である場合でも、危険な行動に鎮静することができます。
- 01 Tool metadata is an attack surface. ‘Safe’ tools can become unsafe if their descriptions embed hidden constraints, adversarial instructions, or misleading affordances.
- 02 This is not just prompt injection. Poisoning can persist across runs if tool registries, caches, or shared manuals are reused.
- 03 Mitigations need layered checks: provenance (who authored tool descriptions), constrained schemas, and runtime policy that validates actions against user intent.
For any MCP-style or tool-augmented agent, treat tool descriptions as untrusted input: (1) require signed/provenanced tool manifests, (2) restrict descriptions to a structured schema (cap length, forbid instructions like ‘ignore previous’), and (3) enforce an action policy that compares each tool call against the user goal and least-privilege scopes. Add a red-team test that poisons tool descriptions and measures whether the agent’s plan changes.
LLM の配下アライメント障害のベンチマーキングモニター
紙は、監視パイプラインが配布(OOD)の設定で起こるアライメントや安全上の失敗を検知できるかどうかをベンチマーク(MOOD)で評価するために提案します。
多くの現実世界インシデントは「流通の脱獄」ではなく、彼らは奇妙なエッジケースです:異常なプロンプト、小説のコンテキスト、または予期しない応答パターン。 モニターが既知のパターンだけをキャッチした場合、ほとんどの問題の失敗を見逃します。
- 01 OOD is where monitoring is tested. A monitor that looks strong on curated examples can fail when prompts or outputs shift slightly.
- 02 Detection quality depends on the pipeline, not a single classifier: logging, feature extraction, thresholds, and escalation workflows all matter.
- 03 The operational goal is fast triage, not perfect labeling. Monitors should surface ‘high-risk anomalies’ early with evidence for human review.
Build an ‘OOD drill’ for your deployment: periodically inject synthetic but realistic anomalies (novel instructions, unfamiliar domains, odd formatting, conflicting goals) and evaluate whether your monitoring stack flags them, routes them correctly, and preserves the evidence needed for investigation. Tune thresholds against false negatives first, then reduce noise with better grouping and escalation rules.
専門のユーザーのための承認された、オンデマンドの安全弛緩
紙は、規制された文脈の緩和された安全アライメントのためのモジュラーフレームワークを提案し、ガバナンスを所定の位置に保ちながら、過剰な燃料を削減することを目指しています。
LLMの「眠るような」統合メカニズム
ディスカッション・リンクされた紙は、睡眠に触発された統合メカニズムを探求し、学習表現の安定性を時間とともに向上することを目的としています。