2026年5月14日 (木)
新規のベンチマークの波は、実用的なエージェントの故障モード(接地、オーバートラスト、ドメインの信頼性)でゼロ化していますが、Notionのプッシュは、そのワークスペースを「統合としてのエージェントハブ信号」が標準の製品パターンになっています。
新規のベンチマークの波は、実用的なエージェントの故障モード(接地、オーバートラスト、ドメインの信頼性)でゼロ化していますが、Notionのプッシュは、そのワークスペースを「統合としてのエージェントハブ信号」が標準の製品パターンになっています。
新しい研究は、主要なエージェントの故障モードを標的: 過信環境証拠
arXiv ペーパーは LLM の代理店の「証拠接地欠陥」をベンチマークする拡張可能なフレームワークを提案し、エージェントがファイル、Web ページ、API やログなどの環境で検証された観察にどのように役立つかに焦点を当てています。
ツールを使用してのエージェントは、古典的なQAベンチマークがキャプチャされていない方法で失敗します。 エージェントが信頼できる観察を権威として扱います(ログ、スプーフィングされたページ、注入されたファイル)、それは自信を持って有害な行動を取ることができます。 製品のセキュリティと信頼性のエンジニアリングに直結した評価です。
- 01 Treat “environment inputs” as adversarial by default. The agent should track provenance, freshness, and authority, not just content.
- 02 Grounding is a systems problem: retrieval policies, context admission rules, and action gates matter as much as the model.
- 03 If your agent can execute irreversible actions, you need explicit verification steps (cross-checks, confirmations, or secondary sources) when evidence confidence is low.
Add a lightweight “evidence policy” layer to your agent pipeline: label every observation with provenance (source, timestamp, trust level), require at least one independent confirmation for high-impact actions, and log which evidence items justified each tool call for post-incident review.
マルチモーダルエージェントベンチマークによる臨床予測:AgentRx
AgentRx は、マルチモーダル臨床予測タスクの LLM エージェントのベンチマーク調査、一時的な EHR データ、イメージング、放射性レポート、および臨床ノートなどの異種性モーダルティティティティメントをスパニングしています。
ヘルスケアは、高ステーク、メッシーマルチソース入力、およびトレーサビリティの厳しい要件のためのストレステストです。 ここでより良いベンチマークは、エージェントが競合証拠を合成し、勧告を正当化しなければならない任意のドメインのためのより現実的な評価慣行に変換することができます。
- 01 Multimodal pipelines amplify failure modes. Errors can come from modality fusion, missing context, or spurious correlations, not just “hallucination.”
- 02 If you ship in regulated or high-trust contexts, evaluation must include calibration and uncertainty handling, not only accuracy.
- 03 Agent performance should be judged alongside workflow fit: interpretability, audit trails, and safe escalation paths are part of “quality.”
Create a “high-stakes eval pack” modeled on clinical workflows: require citations to source segments, force an uncertainty statement (what could change the decision), and include an escalation rule (when to defer to a human) in every agent output. Then measure compliance as a first-class metric.
ワークスペース内に「AIエージェントハブ」を展開
TechCrunchは、Notionが、AIエージェント、外部データソース、カスタムコードをNotionワークスペースに直接接続することを目的とした開発者プラットフォームを立ち上げたことを報告しています。
これは製品信号です。ワークスペースは「エージェントプラスインテグレーション」の制御面になっています。 Notionが成功すると、ユーザーはエージェントが権限、ログ、および反復可能なワークフローを使用してツール全体で行動することを期待します。
- 01 “Agents as integrations” is becoming the default packaging. Distribution follows where work already happens (docs, tasks, CRM).
- 02 Permissioning and auditability become table stakes: who let the agent do what, and when, must be inspectable.
- 03 The competitive gap will increasingly be reliability and governance, not raw model capability.
If you build an agent integration, ship an admin-ready control surface on day one: per-tool permissions, a clear list of actions the agent can take, an activity log with undo/rollback where possible, and a “safe mode” switch that disables mutations.
AssayBenchは、LMやエージェントのAssayレベルの「仮想セル」ベンチマークを提案
シリコの現象スクリーニングタスクにおけるベンチマークのフラミングは、不確実性の下での異質な生物学的証拠と予測をブレンドします。
なぜ再試行がエージェントを悪化させることができるのか:ツールパイプラインの「コンテキスト汚染」
コンテキストで失敗した試みが、その後のエラー率を上げ、クリーナーの再起動と状態の分離を動機づける方法の正式な治療。