2026年4月14日 (火)
最も重要なAI、パブリックマーケット、および暗号の実用的で、ソースリンクされたラウンドアップは、最後の24時間で動きます。
今日のAIフィードは、ガバナンスリスクと測定の間を分割しています。レポートでは、公式がAnthropicモデルをテストするために銀行をプッシュする可能性があると述べていますが、新しい論文やコミュニティプロジェクトは、LLMの評価を現実的に行うようにしようとしています。エネルギーアウェアの推論から、モデルが実際のコードベースで実際のバグを見つけることができるかどうかをベンチマークします。 実用的なメッセージ:モデルの選択をリスク決定として扱い、ベンチマークを不完全に扱い、自分の環境で再現することができます。
報告: 公式はAnthropicのMythosモデルをテストするために銀行を奨励することができる
TechCrunchは、トランプ政務官が、最近政府がサプライチェーンリスクとしてAnthropicに懸念しているにもかかわらず、Mythosと呼ばれるAnthropicモデルを操縦するために銀行を奨励することができると報告しています。
正確に言えば、AIベンダーの選定は、単なるモデル品質ではなく、ポリシー信号によって形成することができます。 規制会社にとって、運用リスクを上げます。パイロットは政治的に敏感な一晩になり、ベンダーの集中力は内部統制よりも早く硬化させることができます。
- 01 Model adoption in regulated industries is becoming a governance exercise (security, compliance, regulators, and public scrutiny), not a simple product decision.
- 02 A ‘preferred vendor’ narrative can flip quickly, so portability (prompts, evals, and audit trails) matters as much as raw capability.
- 03 Treat early pilots as evidence-gathering, with clear exit criteria, so you can switch providers without restarting from zero.
Create a portable model-evaluation packet for every AI feature: your test prompts, success metrics, red-team cases, and privacy requirements. Re-run the same packet on every candidate model and keep the artifacts ready for audit.
ワットカウントはLMMの推論のためのエネルギー・アウェアのベンチマークを提案します
新しい arXiv 紙は、Wat Counts、データセット、およびベンチマークを導入し、Heregeneous GPU の設定を横断する LLM 推論のエネルギー消費量を測定しました。
推論コストはトークンあたりわずかドルではなく、スループットをキャップできる電力と冷却制約です。 スケールでモデルを実行すると、エネルギー・アウェア・プロファイリングはどのモデル、量子化、ハードウェア・ミックスが実際に有効になっているかを変更できます。
- 01 Energy, latency, and throughput trade off differently across GPUs, so ‘fastest’ is not necessarily ‘most efficient’ for your workload.
- 02 Benchmarks that include energy measurements help operators avoid surprises when scaling from a demo to production.
- 03 Sustainable inference is increasingly a competitive lever for providers and an internal constraint for teams running on-prem or at the edge.
Add power and cost-per-1K-tokens to your internal eval dashboard. If you cannot measure it directly, start by comparing GPU utilization, latency percentiles, and batch size sensitivity for your real traffic.
N-Day-Benchは、LMが実際のコードベースで実際の脆弱性を見つけることができるかどうかを尋ねます
N-Day-Bench というコミュニティプロジェクトでは、現実世界の脆弱性事例を収集し、LMS が元のコードベースでそれらを識別できるかどうかを評価します。
タスクが合成であるため、セキュリティ評価が失敗することが多い。 実質的なバグファインディングテストは、エージェントがトリエージやレビューに役立つかどうか、または主に自信のあるノイズを生成するかどうかを理解するのに役立ちます。
- 01 Real-code evaluation surfaces failure modes that toy benchmarks hide: dependency context, build systems, and ambiguous intent.
- 02 Vulnerability-finding is high-risk because false positives waste time and false negatives create a dangerous sense of coverage.
- 03 The most valuable outcome may be process improvements (better checklists and review workflows), not just model scores.
If you use LLMs for security review, run them in a constrained workflow: require citations to specific files and lines, force a minimal reproducer or proof sketch, and gate any automated patching behind human review.
LLMに対するカード: ベンチマークのユーモアアライメント
研究者は、人間のベースラインに対するユーモアの好みを測定するために、人類スタイルのセットアップに対してカード上のフロンティアモデルをテストします。
ReplicatorBench:社会的および行動科学におけるエージェントのレプリカ性の評価
LLMエージェントがデータ可用性が矛盾しているときにレプリケーション作業をサポートできるかどうかを標的とするベンチマーク。
NVIDIA PhysicsNeMo チュートリアル: Darcy フロー、FNO、PINN、surrogate モデリング
ColabのPhysicsNeMoのステップバイステップ・ウォークスルー、物理・インフォーメードMLのワークフローを構築し、推論をベンチマークします。