2026年5月23日 (土)
今日のテーマ:信頼の境界は、主要な戦場になっています。 新しい作業では、マルチエージェントLMシステムがドメインカムフラージュ注射とカレットチャネルを介してトリッキングできる方法を示します。チームは、エージェントIDEと評価スイートを出荷します。 実用的な質問は「エージェントはそれを行うことができませんか?」ではなく、「シスタード、リーク、またはサイレントオフレールからそれを止めるものは何ですか?」
エージェントのセキュリティは、理論から具体的な攻撃や防御パターンへと移行します。ドメイン・カムフラージュのプロンプト・インジェクションは、ネイブ・フィルタを迂回し、カルバート・チャネルは「ベンガン」のアウトプットを通してデータを引き出すことができ、新しいベンチマークはメッシー・マルチ・ターゲット・環境でエージェントの動作を測定しようとします。 エージェントをデプロイする場合、adversarial の入数とコンテクトメントのインストゥルメントを想定した場合、精度だけでなく、
ドメイン カムフラージュ プロンプト 注射は、マルチ エージェント システムのための実用的なバイパスを強調します。
新しいペーパーは、悪意のある指示が正当な、同じドメインのコンテンツのように見えるようにすることで、マルチエージェントLLMセットアップで検出を蒸発させる「ドメインカムフラージュ注射」攻撃を分析します。
実際の展開では、エージェントはWebページ、チケット、ドキュメント、および信頼できるテキストをブレンドするメールを消費します。 攻撃者が指示を文脈的に「ドメイン内」表示させることができれば、単純に許可リスト、キーワードフィルタ、またはソースチェックが失敗し、エージェントは攻撃者の計画に従うことができます。
- 01 Treat all retrieved text as untrusted input, even when it comes from ‘familiar’ domains or looks semantically on-topic.
- 02 Multi-agent architectures can amplify risk, because one compromised sub-agent can pass poisoned instructions to others as ‘internal’ messages.
- 03 Detection should be coupled with containment: when a prompt-injection slips through, the blast radius should still be small.
Add a hard boundary between ‘retrieved content’ and ‘instructions’: enforce a policy that only system prompts (or signed internal directives) can create new goals, request secrets, or change permissions. Use least-privilege tool grants per step (read-only by default), and log the exact text span that triggered each tool call so you can trace which document steered the agent.
Covert-channel防衛は、エージェントが「egress」のパスを取得すると関連しています
紙は、LM エージェントのエグレッション用のアプリケーション層参照モニターを提案します。そうしないペイロード(フォーマット、注文、タイミング、エンコーディング、メディアアーティファクト)内のデータを隠すことができるカデットチャネルに焦点を当てます。
侵害されたエージェントが許可された出力に秘密を符号化できる場合は、宛先とスキャンテキストをブロックすることは十分ではありません。 エージェントは、より出力されたモダリティ(JSON、コード、画像、マルチパートメッセージ)と、より自動化されたホック(チケット、チャット、レポート)を得るため、盗まれたカデットチャネルの数が増加します。
- 01 ‘Allowed output’ does not mean ‘safe output’, because data can be encoded in structure, not just words.
- 02 Egress controls need to be protocol-aware (schemas, canonicalization, length limits), not just content-aware.
- 03 If your incident model includes secret leakage, you must monitor and constrain outputs at the boundary, not only at inputs.
Canonicalize outbound artifacts: stable JSON key ordering, normalized whitespace, strict schemas, bounded field lengths, and rejection of invisible characters or homoglyphs. Where possible, separate high-trust outputs (e.g., internal logs) from low-trust channels (external messages), and require human review for any step that could leak sensitive context.
ベンチマークは「単一ターゲット」から不確実性に基づくエージェント戦略まで幅広く展開
複数のターゲットWeb CTFや、単一の結果のリーダーボードを超えて、よりリアルな設定でエージェントの動作を評価するベンチマークを提案します。
アウトカムのみのスコアは、危険な行動や脆弱な行動を隠すことができます(危険なツールの使用、推測とチェックの発疹、および悪いトライア)。 複数のターゲット環境は、エージェントが優先順位付け、時間割り当て、および実際のオペレータスタイルのエージェントが動作する方法に近い不確実性を管理します。
- 01 A high success rate is less meaningful if the agent got there via risky, non-repeatable, or unsafe steps.
- 02 Evaluation should capture process signals: tool-call budgets, retries, privilege usage, and how often the agent asks for escalation.
- 03 If you deploy offensive or admin-like agents, benchmark them in environments that include ‘unknown unknowns’, not just scripted exploits.
Adopt a two-layer eval: (1) outcome metrics (task completion, time), plus (2) safety/process metrics (max privilege used, forbidden action attempts, network egress attempts, and number of tool calls). Treat regressions in layer (2) as release blockers even if layer (1) improves.
CTFExplorer: Evaluating LLM Offensive Agents Through Multi-Target Web CTF Benchmarking
Benchmark for evaluating offensive agents across multiple unknown targets, emphasizing triage and strategy.
AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
Paper arguing for richer, multi-dimensional evaluation of agent systems beyond single-score leaderboards.
スーパーセットは「エージェント時代のためのIDE」として発売
スーパーセット(YC P26)は、エージェントのワークフローを中心に構築されたIDEとして提示され、エージェントが再現可能な、検査可能な、チームシェア可能なツールチェーンへの継続的なシフトを反映しています。
Spotifyは、ElevenLabsを搭載したオーディオブック作成ツールを出荷
Spotifyは、クリエイターのツール作成と配布パイプラインが主要なAIの戦場になっています。