2026年3月12日 (木)
モデルとエージェントのインフラストラクチャの更新、および注目すべき市場は株式と暗号を渡って移動します。
NVIDIA はオープン モデルとエージェントのトレーニング インフラストラクチャ ナレーション (Nemotron 3 Super とターミナル エージェント データ パイプライン) を押しながら、製品 チャット ターは、チャットGPT のようなワークフロー サーフェスに Generative ビデオ (Sora) をもたらすことに重点を置いています。 プローブエージェントの信頼性、評価、規制指向のベンチマークを継続的に研究。
NVIDIA は、Nemotron 3 Super: 120B のオープン ハイブリッド MoE モデルを touts Nemotron 3 Super: エージェントのワークロードを目的とした
NVIDIA が Nemotron 3 Super をリリースし、120B-parameter オープンソースのハイブリッド Mamba-attention MoE モデルとして説明し、より高いスループットとマルチエージェント/ツール使用のシナリオに位置しました。
スループット用に最適化されたオープンで大容量モデルは、エージェントシステムの経済性(レイテンシとアクションごとのコスト)を変えることができます。特に、推論量が急速に拡大するマルチエージェントのオーケストレーションに適しています。 パフォーマンスクレームが保持されると、企業や研究展開のための「オープンウェイトが追いつかっている」物語を強化します。
- 01 Throughput-focused architecture choices (hybrid + MoE) matter as much as raw quality once agents become always-on services.
- 02 Open-weight, large models can shift build-versus-buy decisions for teams that need customization, on-prem options, or tighter data control.
- 03 For production agents, model choice is increasingly a systems decision: batching, tool-call patterns, and context length drive real cost more than benchmark scores.
If you are evaluating open models for agents, run a workload-specific bake-off: measure tool-call latency, token throughput, and failure modes (hallucinated commands, unsafe actions) on your real tasks. Track $/successful task, not just $/1M tokens.
NVIDIA は、Scaling 端末エージェントのデータパイプラインとして Nemotron-Terminal を強調
書き込み-up は、Nemotron-Terminal を記述し、ターミナルベースの LLM エージェントのトレーニングデータを生成し、キュレーションするための系統的なデータエンジニアリングパイプラインとして組み込まれています。
ターミナルエージェントは、それらを現実的なコマンドシーケンス、エラー回復、および安全な動作動作の動作を教えるデータとしてのみ良いです。 データパイプラインのexplicit(および反復可能)を作ることは、再現性および安全テストを改善している間代理店の機能の改善を加速できます。
- 01 Agent progress is increasingly gated by data quality and coverage, not just model size.
- 02 Terminal environments are high-risk: data must encode safe defaults, permission boundaries, and robust failure handling.
- 03 Transparent pipelines make it easier to audit what an agent was trained to do, which matters for enterprise adoption and compliance.
If you train or fine-tune terminal agents, create a task taxonomy (setup, build, deploy, incident response) and ensure you have examples that include failures (missing dependencies, permission errors, conflicting configs). Add automatic checks that block destructive commands unless explicitly authorized in the eval harness.
レポート:OpenAIのSoraはChatGPTに直接統合される
Verge は、OpenAI の動画生成製品である Sora を別々のサイト/アプリでしかアクセスできないと予想しています。
ビデオ生成をドミナントチャット表面に移行すると、製品の配布と使用パターンが変わります。摩擦を下げ、反復的なプロンプトが増加し、複数のワークフロー(テキストをビデオに載せます)を1つのコンテキスト内で有効にします。 また、スケールで合成媒体に関する新たな安全・政策の懸念も高まります。
- 01 Multimodal creation is shifting from 'specialty tools' to default chat workflows, which can dramatically increase adoption.
- 02 Video generation inside a general assistant will pressure teams to improve provenance, watermarking, and abuse detection for synthetic media.
- 03 For creators and marketers, the competitive edge will increasingly come from workflow design (templates, brand controls, review loops) rather than raw model access.
If you plan to use AI video in production, define a review pipeline now: human approval for public releases, a policy for likeness and copyrighted content, and a storage strategy that keeps prompts, versions, and source assets for auditability.
Googleは、マルチモーダル検索のためのGemini Embedding 2を導入
Googleは、テキスト、画像、オーディオ、ビデオ、および文書を、検索およびRAGスタイルのアプリケーションのための共有埋め込みスペースに置くために意図したマルチモーダル埋め込みモデルであるGemini Embedding 2を発表しました。
GateLensは、自動車ソフトウェアリリース分析のための推論強化剤を提案
arXiv 紙は、安全とコンプライアンス関連の文脈における大きな表形式のデータセットに関する分析のための LLM-agent アプローチについて説明します。
AI法評価ベンチマークは、NLPとRAG準拠の再現性評価を対象としています。
NLPとRAGシステムの透明、再現性評価を目指したARXivデータセット提案。