マルチモーダル・エージェント時代が本格化、開発現場の選択肢が急速に拡大
2026年06月05日
この1週間でAI開発の現場選択肢が大きく変わった。オープンモデルがマルチモーダル・コンピュータユース・エージェント機能で商用モデルに追いついき始めて、「どのモデルを選ぶか」という判断軸が今までと違ってきてるな、という感じ。
① MiniMax M3:1M長コンテキスト+マルチモーダル+コード実行で商用モデル級へ
MiniMax AI が6月初旬にリリースした MiniMax M3 は、今のオープンウェイト陣営で初めて「本当に使える」段階に到達したモデルの一つ。要するに、長コンテキスト・マルチモーダル・コード実行能力を同時に備えたオープンモデルが、ようやく商用モデルと肩を並べるようになった、ってことだ。
MiniMax M3 は以下のスペックで公開されている:1M(100万トークン)のネイティブコンテキストウィンドウ、画像・動画入力を含むネイティブマルチモーダル対応、コンピュータユース(ScreenQuery や UI Agent 機能)。ベンチマークは SWE-Bench Pro で59.0%(GPT-5.5 や Gemini 3.1 Pro を上回る)、Terminal-Bench 2.1 で66.0%、MCP Atlas で74.2%、OSWorld-Verified で70.06%。これらの数値は、単なる学術ベンチマークではなく、実務的なコード作成・システム操作タスクでの性能を示している。オープンウェイトモデルとしては初めて、商用最先端モデルの性能レベルに到達した。
# MiniMax M3 の利用例
from minimax_sdk import MiniMaxClient
client = MiniMaxClient(api_key="your-key")
response = client.chat.create(
model="minimax-m3",
messages=[{
"role": "user",
"content": "This screenshot shows a form. Fill it out with the provided data.",
"image_url": "https://example.com/form.png"
}],
max_tokens=2048
)
print(response.choices[0].message.content)
これはかなり大きい転機。これまで「コード生成なら商用モデル一択」って状況だったのが、今ならオープンモデルでも十分本番運用できるレベルになった。特にシステム導入案件で「顧客のデータセンター内での推論が必須」とか「商用APIへの依存を避けたい」みたいな制約がある場合、選択肢が一気に広がる。ただし、1M コンテキストでも「本当に全て取り込める」わけではない実務課題とか、マルチモーダルが「画像認識の精度」レベルに留まる可能性とか、導入時の工夫の余地はまだ多い。PoC から本番移行するには「このモデルで本当に足りるのか」の検証フェーズが必須になるな。
ソース: MiniMax M3 - Hugging Face Blog
② Holo3.1:コンピュータユース・エージェントがローカル推論時代へ
Hugging Face から6月2日に公開された Holo3.1 は、「コンピュータを操作する AI」というジャンルを大きく前に進めた。要するに、Web・デスクトップ・モバイル画面を見て「ここをクリックする」「このテキストを入力する」という一連の動作を自動化するモデルが、ローカルマシンで動かせる段階に来た、ってことだ。
Holo3.1 ファミリーは、3つの本番環境対応度を改善している:環境(Web・デスクトップ・モバイル)、エージェントフレームワーク、デプロイメント対象。初めてローカル推論向けの量子化版(Quantized Checkpoints)をリリースしており、FP8・Q4 GGUF・NVFP4 の3バリエーションが提供されている。これにより、エッジデバイスや組織内 GPU でも動作可能になった。Web 自動化(UI Agent)の精度も向上し、複雑なマルチステップタスク(例:フォーム入力→検索→結果の抽出)をより確実に実行できるようになっている。
# Holo3.1 でローカル推論を実行
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "huggingface/holo3.1-local-fp8"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
load_in_8bit=True
)
# スクリーンショットベースのタスク指示
inputs = tokenizer(
"Click the 'Submit' button in this screenshot and wait for confirmation.",
return_tensors="pt"
)
outputs = model.generate(**inputs, max_length=512)
print(tokenizer.decode(outputs[0]))
SIer現場的には、これはけっこう革新的。これまで「UI自動化」といえば RPA ツール(UiPath とか Automation Anywhere)か、スクレイピングで限定的に対応するしかなかった。でも Holo3.1 なら「画面を見てテキスト指示に従う」っていう柔軟な自動化が、ローカル環境で実行できる。特に既存システムの大量手作業の削減とか、複数システムにまたがる定型業務の自動化とか、RPA では手に負えないケースに活躍しそう。ただし、本番環境での「確実性」「エラーハンドリング」には試行錯誤が必要。Holo3.1 が100%確実に動くわけではなく、失敗時の人間介入のワークフロー設計が実装の鍵になるな。
ソース: Holo3.1: Fast & Local Computer Use Agents - Hugging Face Blog
③ Microsoft MAI-Code-1-Flash:GitHub Copilot の新時代、OpenAI 依存を減らす動き本格化
Microsoft が6月2日に発表した MAI-Code-1-Flash は、一見すると「もう一つのコード生成モデル」に見えるけど、実は大きな産業地図の変動を示してる。要するに、Microsoft が「OpenAI のモデルに頼らず、自社モデルで GitHub Copilot を動かす」という戦略に本格シフトした、ってことだ。
MAI-Code-1-Flash は GitHub Copilot と VS Code に統合されて、開発者の自然言語記述(例:「ユーザー認証を処理する関数を書いて」)からソースコード生成を行う。リリース直後の報告によると、従来より高速な応答時間(Flash は軽量版の意味)と、コスト削減を実現しているとのこと。Microsoft は同時に「AI Credits」という新しい課金モデルを GitHub Copilot に導入し、全プラン(Personal・Business・Enterprise)で月次の無料利用枠を設定。Copilot Code Review(GitHub Actions 統合)と User-Level Budget(組織・エンタープライズ向け)も一般提供開始した。OpenAI への API コスト支出を減らしつつ、開発者に低価格のコード支援を提供する戦略が明確化している。
# GitHub Copilot で MAI-Code-1-Flash を使用
# VS Code のコマンドパレット (Ctrl+Shift+P) で以下を実行:
# > GitHub Copilot: Select Model
# > MAI-Code-1-Flash
// VS Code で下記のコメント行を書くと、自動補完が提案される
// Fetch data from API endpoint and parse JSON response
function fetchAndParseData(url) {
// [Copilot が自動生成]
}
これまで「コード生成 AI 導入」といえば、OpenAI の API 使用料が経営層を悩ませるケースが多かった。けど今は Microsoft が低価格の代替手段を提供し始めてる。既存 Microsoft Stack(GitHub・Azure・VS Code)を使ってる組織なら、追加コストほぼゼロで次世代コード支援が得られる、ってわけだ。これは SI 受託案件の原価構造を大きく変える可能性がある。一方、OpenAI の GPT-5.5 や Gemini 3.1 Pro みたいな最先端モデルと比べると、MAI-Code-1-Flash は「十分な性能」ではあるけど「最高峰」ではない感じ。高度なアルゴリズム実装とか、複雑なビジネスロジック生成とかには、まだ商用モデルの方が頼りになるかもしれない。組織のコード生成タスクを「ルーチン業務向け(MAI-Code-1-Flash)」と「創造的業務向け(高性能モデル)」に分けて使い分ける戦略が現実的になったな。
ソース: Microsoft unveils new AI models to lessen reliance on OpenAI and lower costs for developers - CNBC