AnthropicがClaude Opus 4.7でソフトウェアエンジニアリング界を「一変」させた理由

つくば市のホームページ制作会社

Claude Opus 4.7が4月17日にリリースされ、早速ソフトウェアエンジニアリングの現場でとんでもない反響を呼んでいます。「最も難しいコーディング作業を、もう監視する必要なく任せられるレベル」とユーザーが興奮する理由を探ってみました。

「監視不要」まで到達した理由

Opus 4.7の最大の進歩は、ソフトウェアエンジニアリング能力の大幅改善です。特に最も困難なタスクで顕著な向上を見せており、開発者たちが口を揃えて「これまで密な監視が必要だった最難関のコーディング作業を、Opus 4.7には自信を持って任せられる」と評価しています。

何がそれを可能にしたか。複雑で長時間かかるタスクを厳密性と一貫性をもって処理し、指示に正確に注意を払い、さらに自分の出力を検証する方法まで編み出してから報告するのです。つまり、「自己チェック機能」を持ったAIエンジニアが誕生したといえます。

画像解析も大幅パワーアップ

コーディングだけじゃありません。Opus 4.7は視覚能力も大きく向上し、画像をより高解像度で認識できるようになりました。インターフェース、プレゼンテーション、ドキュメントの作成においても、より洗練されて創造的な成果を生み出すといいます。

これってどういうことかというと、WebデザインからUI/UXデザイン、さらにはプレゼン資料作成まで、「見た目」が重要な業務でもClaudeが頼りになるパートナーになったということ。デザインセンスも備えたAIエンジニア、って感じですね。

新しい制御機能が実用性を加速

Opus 4.7では「xhigh」という新しい労力レベルが追加され、「high」と「max」の中間に位置づけられました。開発者は/effortコマンドや--effort、モデルピッカーから選択でき、他のモデルでは自動的に「high」にフォールバックします。

さらに、Claude Codeでは自動モードがMaxサブスクライバー向けに提供開始。/ultrareviewコマンドなど新しいコントロールも追加され、開発ワークフローがより柔軟になりました。

RESONIXから見た実務への影響

長年Web制作の現場で様々なプロジェクトを手がけてきた立場から言うと、「自己検証するAI」の登場は本当に大きな変化です。これまでAIが生成したコードは必ず人間がレビューする前提でしたが、Opus 4.7レベルなら「最初から品質の高いコードを期待できる」という段階に入りました。

特に中小企業のWebサイト制作やシステム開発において、限られたリソースでより高品質な成果を出す強力な武器になりそうです。ただし、完全に任せきりにするのではなく、「信頼できるパートナー」として活用するのがポイントでしょう。

開発現場の「当たり前」が変わる

週に300万人以上の開発者が使用するClaude Codeの大規模アップデートと合わせて考えると、2026年は「AIとペアプログラミングが当然」の時代になりそうです。リモート開発環境への接続、複数ファイルとターミナルの表示、インアプリブラウザなど、開発者が欲しかった機能が一気に充実しました。

面白いのは、最初に「危険すぎて公開できない」として話題になったClaude Mythosとは対照的に、Opus 4.7は実用的な改善に焦点を当てていること。Anthropicは攻撃的な技術力アピールよりも、開発者の日常業務を確実に改善する方向に舵を切ったように見えます。

この流れを見ていると、2026年後半にはAIを使わない開発現場の方が少数派になるかもしれませんね。技術の進歩を追いかけるだけでなく、どう現場に取り入れるかが重要になってきました。

OpenAIのAgents SDKが本格始動。サンドボックス機能で開発者の「怖い」を一掃してしまった

つくば市のホームページ制作会社

OpenAIが開発者向けのAgents SDKを大幅アップデートしました。今回の更新で最も注目すべきは、AIエージェントを安全に動作させるサンドボックス機能の実装です。これまで「AIに勝手にファイルを触られるのが怖い」「コードを実行させるのは危険」と感じていた開発者にとって、まさに待ち望んでいた機能と言えるでしょう。

安全性の不安を解消するサンドボックス実行

従来のAIエージェント開発では、モデルがファイルシステムに直接アクセスしたり、予期しないコマンドを実行する可能性がありました。今回のアップデートでは、エージェントを制御された環境内で動作させるサンドボックス機能が追加され、この問題が根本的に解決されています。

具体的には、エージェントがファイルの検査、コマンドの実行、コード編集を行う際も、すべて隔離された安全な環境内で処理されます。開発者は自前のサンドボックスを使うこともできますし、Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercelなどの組み込みサポートから選択することも可能です。

企業利用を想定したハーネス機能の強化

もう一つの大きな改良点は「ハーネス機能」の拡張です。これはエージェントがモデル以外の要素とやり取りするための仕組みで、今回のアップデートで大幅に強化されています。

新しいハーネスには設定可能なメモリ機能、ファイルシステムツール、標準化された統合機能が含まれており、エージェントがドキュメントやシステムとより効果的にやり取りできるようになりました。RESONIXでも企業のワークフロー自動化を手がけることがありますが、こうした機能があれば社内のファイル操作や承認フローと連携したエージェントが作りやすくなりそうです。

特に注目したいのは「Manifest抽象化」という機能。これによってエージェントのワークスペースを標準化された形で記述でき、ローカルファイルのマウントや出力ディレクトリの定義、AWS S3やGoogle Cloud Storageといったクラウドストレージとの接続が簡単になります。

実際の企業事例から見える実用性

既にいくつかの企業が新しいAgents SDKを実際に活用しています。法務システムを手がけるLexisNexisは「複雑な法務文書の作成ワークフローが統一されたフレームワークで実現できるようになった」とコメント。また、Coinbaseは数時間でAI エージェントと暗号通貨ウォレットを連携させるAgentKitを完成させています。

Oscar Healthというヘルスケア企業の事例も興味深く、複雑な医療記録から正確なメタデータを抽出するワークフローを自動化したとのこと。これまでの手法では信頼性に欠けていた処理が、新しいインフラで確実に動作するようになったそうです。

中小企業の現場でも、顧客サポートの自動化や複数段階にわたる調査作業、コンテンツ生成などに応用できそうな事例ばかりです。

開発者にとって何が変わるのか

今回のアップデートで開発者の作業が大幅に簡略化されます。これまでエージェント開発では「プロトタイプは作れるけど、本格運用は不安」という声をよく聞いていました。セキュリティ面や統合の複雑さが障壁になっていたんですね。

新しいSDKではこうした課題が解決され、開発者は独自のビジネスロジックに集中できるようになります。標準化されたプリミティブ(Tool use、カスタム指示、ファイル編集など)が用意されているため、基盤部分を一から構築する必要がありません。

現時点ではPythonでの提供ですが、TypeScriptサポートも計画されており、コードモードやサブエージェントといった更なる機能拡張も予定されています。料金は標準APIの価格体系に基づいており、特別な契約は不要です。

AIエージェントの実用化がいよいよ現実的になってきました。安全性の担保された環境で、企業レベルのワークフローを自動化できるツールが手に入ったわけですから、これは開発者にとって大きなターニングポイントになりそうです。

Stripeが週に1,000個のPRを出すAI「Minions」を公開。開発者の仕事が完全に変わった

つくば市のホームページ制作会社

最近面白いニュースが飛び込んできた。決済会社Stripeが、完全に自動でコードを書いてプルリクエストまで作ってくれるAI「Minions」を公開したんです。週に1,000個以上のPRを出すって、もう人間の開発者より働いてるじゃん。

Copilotの次の段階は「完全おまかせ」

GitHub CopilotやCursorのようなAIコーディングツールって、いまや当たり前になった。でも結局、開発者が横についてプロンプトを書いて、AIの作業を見守る必要がある。

Stripeの「Minions」は全然違う。エンジニアがSlackで「〇〇の機能を作って」って投げたら、あとは放置。コーヒーでも飲んで戻ってきたら、完成したPRが待ってるという「fire and forget」な世界。

実際に動作する流れはこんな感じだ。エンジニアがSlackでMinionsをタグ付けして依頼する。AIが動き出す前に、自動的に関連するJiraチケットや仕様書を収集。そのあとAIがコードを書いて、自動でテストを実行し、問題があれば修正を繰り返して、最終的に人間がレビューできる状態のPRを作成する。

Stripeが解決した「AIコーディングの3つの課題」

普通のAIエージェントって、途中でリンターを忘れたり、テストをスキップしたりする。Stripeは「創造的な部分」と「決まりきった作業」をうまく分けた。

AIがコードを書く→必ずリンターを実行(AIは省略できない)→エラーがあればAIが修正→自動でGitコミット、みたいに、決定論的な「ゲート」を挟み込んでいる。

それから、巨大なコードベースに対してルール全部を渡すとコンテキストウィンドウがあふれる問題。Stripeは作業場所に応じてルールを切り替える。決済関連のディレクトリで作業してれば決済のルールだけ適用する、という具合に。

フィードバックループも3段階で設計されてる。5秒以内に終わるローカルリンター、選択的に実行されるCI、そして300万個のテストがあるフルCIと、段階的にチェックが厳しくなっていく仕組み。

「道具より、道具を支えるインフラ」が勝負

面白いのは、StripeのMinionsって使ってるAIモデル自体は「ほぼ商用品」だということ。オープンソースツールのフォークベースなんだそう。勝負の分かれ目は、そのAIをどう既存の開発フローに組み込むかのインフラ設計にあった。

実際、MicrosoftやGoogleでも、すでにコードの25〜30%はAIが書いているらしい。でもStripeのアプローチで興味深いのは、「人間がやってること」を分析して、AIにも同じフローを踏ませる発想。

RESONIXでも、最近のプロジェクトでGitHub Copilotを使う機会が増えてきてるけど、まだまだ「横についてる」感じ。でもこういう完全自動化の波がWeb制作の現場にも来るとしたら、人間の開発者に求められるスキルも変わっていくんじゃないかな。

開発者の仕事は「タスクデザイン」に

実際のStripeエンジニアの仕事を見ると、もうコード自体は書いてない。タスクの説明を書いて、AI の出力をレビューして、それを支えるインフラを設計する。それが新しい「開発者の仕事」になってる。

中小企業のWeb制作でも、いずれこういうAIエージェントがWordPressのカスタマイズやフロントエンドの実装をやってくれる日が来るかもしれない。そのとき人間に求められるのは、「どういう機能が必要か」を正確に伝える能力と、AIが作ったものをちゃんと評価できる目じゃないかと思う。

ちょっと先の話に聞こえるかもしれないけど、Stripeみたいな技術集団がすでに週1,000個のPRを AI に任せてる事実を見ると、この変化は思ってるより早く来そう。開発者として生き残るなら、今のうちにCI/CDやテスト設計、システム全体の理解を深めておくのが良さそうです。

MetaのMuse Sparkが変えた「一人ひとりに最適化されたAI」の新世界

つくば市のホームページ制作会社

MetaがついにMuse Sparkを正式リリースしました。これまでのLlamaシリーズとは全く異なるアプローチで、一人ひとりに合わせて最適化される「パーソナル超知能」を目指している点が面白いんです。

AIエージェントが複数同時に動く、新しい体験

Muse Sparkの最大の特徴は、複数のAIエージェントが同時に動いて一つの問題を解決する仕組み。たとえばフロリダ旅行を計画するとき、一つのエージェントが旅程を作り、別のエージェントがオーランドとキーズを比較し、三つ目が子ども向けアクティビティを探してくれるそう。

これ、今までのチャット形式とは全然違いますよね。一つひとつ質問して答えを待つのではなく、AIが勝手に並列処理で最適解を探してくる感じです。

写真を撮るだけで空港の売店から「一番プロテインが多いスナック」を特定したり、商品をスキャンして競合と比較してくれたりもします。「AIが世界を理解するのを待つのではなく、一緒に世界を見る」というMetaの表現が印象的でした。

15年分のデータを活用する「個人化」の威力

他のAI企業と決定的に違うのは、Metaが持っているデータの質です。2010年からFacebookを使っている人なら、15年分の行動・好み・人間関係をAIが把握している状況。

OpenAIは過去の質問内容、Googleは検索履歴しか知りませんが、Metaは「何を買って、誰をフォローして、何をスクロールで飛ばしたか」まで分かります。これをベースにした個人最適化は、確かに他社には真似できません。

Meta AIアプリにログインすると、FacebookとInstagramのアカウントが自動連携されるのも戦略的。ユーザーの過去データがそのままAIに活かされる仕組みになっています。

オープンソースから商用モデルへの大転換

今回のMuse Sparkで注目すべきは、Metaがオープンソース戦略を転換した点。これまでのLlamaシリーズは誰でも自由に使えましたが、Muse Sparkは完全にクローズド。設計やコードは一切公開されません。

理由は明確で、Metaは2026年だけでAI関連のインフラに1,150億〜1,350億ドル(約17〜20兆円)を投資する予定。これだけ巨額の投資をするなら、直接収益につながるビジネスモデルが必要ということでしょう。

今は限定パートナーのみがAPI経由でアクセスできる状態ですが、将来的には有料APIとして広く提供される予定です。OpenAIやAnthropicと同じ土俵で勝負する体制に変わったわけです。

Web制作の現場でも活用できそうなポイント

RESONIXでWeb制作をやっていて感じるのは、この「マルチモーダルな認識能力」が実用的だということ。クライアントから「この画面の使い勝手を改善したい」と言われたとき、スクリーンショットを見せるだけでAIが具体的な改善提案をしてくれる可能性があります。

特に小規模事業者の場合、専門的なUI/UX分析ツールを導入するのは予算的に厳しいことが多いんですが、画像を見ただけで改善点を指摘してくれるAIがあれば、もっと気軽にサイト改善に取り組めるはず。

商品写真から競合比較まで自動でやってくれる機能も、ECサイト運営には重宝しそうです。「この商品の強みを他社と比べて教えて」みたいな使い方ができれば、マーケティング資料作りも効率化できますね。

2026年はAIエージェントが当たり前になる年

Muse Sparkの発表を見ていると、2026年がAIエージェントの実用化元年になりそうな予感がします。チャット形式で一問一答するのではなく、複雑な目標を伝えるだけでAIが勝手に最適解を見つけてくる世界。

中小企業の現場でも、「来月のキャンペーン企画を考えて」「競合の価格調査して」みたいな曖昧な指示で、AIが複数の角度から分析・提案してくれる日が近そうです。

Meta以外にもAnthropic、OpenAI、Googleが似たような方向で開発を進めているので、今年後半にはエージェント型AIの選択肢がかなり増えているでしょう。面白い時代になってきました。

GoogleがGemma 4でオープンソースAI界を完全に変えた。これもうフリーで最強じゃん

つくば市のホームページ制作会社

4月2日、Googleが突然Gemma 4をリリースしました。これ、ちょっと衝撃的すぎて開発者界隈がざわめいてます。なにせApache 2.0ライセンスで完全フリー、商用利用も改変も再配布も全部OK。しかもベンチマークスコアが前世代から倍近く跳ね上がってるんです。

性能がエグすぎる。数学89%、コーディング80%

まず数字から見てみましょう。Gemma 3から4への性能向上が異次元レベルです。

AIME 2026数学ベンチマークが20.8%から89.2%に。LiveCodeBenchコーディングスコアが29.1%から80.0%に。GPQA科学問題が42.4%から84.3%に。これ、誤字じゃありません。本当にこんなに跳ね上がってるんです。

しかも4つのサイズが用意されてて、一番小さいE2B(23億パラメータ)でもスマホで動く設計。一番大きい31Bモデルは現在オープンモデルランキング3位です。テキスト・画像・音声すべて処理できて、140以上の言語をサポート。

Apache 2.0ライセンスが革命的すぎる理由

でも本当にすごいのは性能じゃなくてライセンスなんですよ。

従来のGemmaは独自ライセンスで企業利用に制約がありました。でもGemma 4はApache 2.0。これ何を意味するかって、企業が自社のインフラで動かして、独自データで学習させて、改造したバージョンを販売しても全然OK。ロイヤリティも払わなくていいし、データを渡す必要もない。

つまり「GPT-4級の性能を持つモデルを、完全に自分のものとして使える」ってことです。これまでOpenAIやAnthropicのAPIに月数十万円払ってた企業が、一気に自社運用に切り替えられる可能性が出てきました。

GoogleがApache 2.0にした戦略的な狙い

なんでGoogleがこんな太っ腹なことをしたのか。これ、慈善事業じゃなくて完全に戦略です。

OpenAIとAnthropicはAPIビジネスで収益を上げようとしてる。でもGoogleは違うゲームをしてるんです。クラウドサービス(Google Cloud)、開発ツール、Android生態系を拡大したい。だからAIモデル自体は無料で配って、周辺サービスで儲ける作戦。

実際、Gemma 4はGoogle AI Studio、Android Studio、Vertex AIと連携がバッチリ。「モデルはタダであげるから、うちのプラットフォームを使ってね」という誘導が見え見えです(笑)

開発者にとって何が嬉しいのか

RESONIXの開発現場でも、これは相当インパクトありそうです。

まずコスト削減が半端ない。いままでClaude APIで月10万円払ってた処理を、自社サーバーで回せるようになる。初期投資は必要だけど、長期的には圧倒的に安い。

それとプライバシー。顧客データをOpenAIやAnthropicのサーバーに送りたくない案件って結構あるんですよ。でもGemma 4なら完全に自社環境で処理できる。

さらにカスタマイズ性。業界特有の用語や処理パターンを学習させたり、出力形式を完全にコントロールしたり。APIベースだと難しいことが、オープンモデルなら自由自在です。

エッジデバイスで動く意味

個人的に一番興奮してるのは、E2BとE4Bがスマホやラズパイで動くことです。

いままで「AIアシスタント作りたいけどサーバー費用が…」って諦めてた個人開発者や小さなチームが、一気に参入できるようになる。しかも完全オフラインで、レスポンスほぼゼロ秒。

IoTデバイスにAIを組み込むとか、店舗のタブレットに接客AIを入れるとか、可能性が一気に広がります。通信費もサーバー費用も不要で、プライバシーも完全に守られる。これ、中小企業のDX案件でめちゃくちゃ使えそうです。

オープンソースAIの新時代が始まった

Gemma 4のリリースで、AI業界の構造が根本から変わり始めてます。

これまでは「高性能AIを使いたければOpenAIかAnthropicに月額課金」が当たり前でした。でもApache 2.0ライセンスのGemma 4が登場したことで、「なんで毎月API代払ってるの?」って話になってくる。

特に中小企業にとって、毎月の従量課金って結構プレッシャーなんです。「今月APIを使いすぎて請求が高くなったらどうしよう」みたいな。でもオープンモデルなら、一度環境を整えれば後はハードウェア代だけ。

もちろん、自社運用にはそれなりの技術力が必要です。でも最近はOllamaやLM Studioみたいなツールで、普通の開発者でも簡単にローカルLLMを動かせるようになってる。Gemma 4も初日からこういうツールに対応してるので、導入のハードルは意外と低いかもしれません。

GoogleのGemma 4がスマホでAIエージェント時代を開く。チャットからサヨナラして自律AIが動き出した

つくば市のホームページ制作会社

4月2日、Google DeepMindから面白いものがリリースされました。Gemma 4という新しいオープンソースAIモデルファミリーです。何が面白いって、これまでのスマホでのAIは「チャット」が限界だったのに、今度はあなたのスマホの中で、AIが勝手にWikipediaを調べて、QRコードを作って、複数のタスクを組み合わせて実行してくれるんです。しかも完全にオフラインで。

従来のスマホAIは「質問したら答える」だけでした。でもGemma 4は違います。「Wikipediaで情報を調べて、それをもとに図表を作って、QRコードまで生成する」みたいな、複数ステップの作業を勝手にやってくれる。これが「AIエージェント」の世界です。

スマホ専用に最適化された驚きの軽量化技術

Gemma 4の技術的な面白さは「効果的パラメータ」という概念にあります。E2B(Effective 2 Billion)とE4B(Effective 4 Billion)という2つのスマホ専用モデルは、実際のメモリ使用量を極限まで削りながら、推論能力は大型モデル並みを維持しています。

具体的には、E2Bは約1.3GB、E4Bは約2.5GBのRAMで動作します。8GBのスマホなら余裕で動く計算です。Google曰く、前世代と比較して最大4倍高速化し、バッテリー消費も60%削減したとのこと。Armチップの最新命令セット(SME2)を使えば、平均5.5倍の処理速度向上も実現できるそうです。

この軽量化の秘密は「Per-Layer Embeddings(PLE)」という技術と、ローカル・グローバル注意機構のハイブリッド設計にあります。要は、必要な時だけフル性能を発揮し、普段は省エネモードで動作する仕組みです。

Agent Skillsで実現する自律作業フロー

本当に画期的なのは「Agent Skills」という機能です。Google AI Edge Galleryアプリ(AndroidとiOS両対応)をダウンロードすると、以下のような自律AIワークフローが体験できます:

  • 知識ベース拡張:Wikipediaを自動検索して最新情報を取得
  • インタラクティブコンテンツ生成:テキストから図表や暗記カードを自動作成
  • マルチモーダル処理:音声、画像、動画を組み合わせた複雑なタスクを実行
  • リアルタイム翻訳・転写:完全オフラインで音声をテキスト化や他言語に変換

しかも140以上の言語に対応し、最大256Kトークン(大型モデル)、128Kトークン(エッジモデル)という長文処理能力を持っています。つまり、長い資料を丸ごと読み込ませて分析させることも可能です。

開発者視点で見るとさらに面白い

Web制作の現場目線で見ると、Gemma 4の可能性はチャットの域を完全に超えています。Apache 2.0ライセンスで商用利用も自由ですし、Android StudioにはGemma 4を使ったコード補完機能も搭載予定です。

特に注目すべきは「function calling」(関数呼び出し)のネイティブサポートです。これにより、APIとの連携や外部ツールとの組み合わせが簡単になります。実際、Hugging Faceのコミュニティでは「ファインチューニング用の良い例を見つけるのに苦労するほど、最初から高性能」という評価も出ています。

中小企業の現場で考えると、これまで「AI導入」といえばクラウドサービスの月額料金やセキュリティ懸念がネックでした。でもGemma 4なら、一度ダウンロードすれば完全に自社内で動作するので、機密データも外部に出ません。

クラウドとの使い分けという戦略的視点

興味深いのは、GoogleがエッジとクラウドのAIを明確に使い分けている点です。スマホ上でプロトタイプを作り、必要に応じてGoogle Cloud上の大型Gemma 4モデルにスケールアップできる設計になっています。同じチャットテンプレート、同じトークナイザー、同じ関数呼び出し形式を共通化することで、開発からプロダクションまでシームレスな移行が可能です。

これって、中小企業のAI導入パターンとしても理にかなってます。最初はスマホやローカルPCで小さく始めて、効果が実証できたらクラウドでスケールするという段階的アプローチです。

GoogleはまもなくI/O 2026でGemini Ultra 2やAndroid 17の発表も予定しており、2026年がオンデバイスAI元年になりそうな勢いです。RESONIXとしても、このトレンドを踏まえたWeb制作やIT支援の提案を考えていく必要がありますね。気になることがあれば気軽に相談してください。

OpenAIが「Spud」コードネーム新モデルを4月に投入か。Geminiとの真っ向勝負が面白すぎる

つくば市のホームページ制作会社

またまた面白い展開になってきました。OpenAIがGPT-5.4の次に投入予定の新モデル「Spud」(コードネーム)が、実はもう完成していて4月中にリリースされる可能性が高いんです。しかも、Googleが今年に入ってからGemini 3.1 Proで業界トップに躍り出ている状況で、OpenAIがどう反撃するのか注目です。

「Spud」って何?GPT-5.5かGPT-6かもわからない謎モデル

OpenAIが内部で「Spud」と呼んでいるモデルは、3月24日に事前学習が完了したことが確認されています。その後の安全性評価期間(通常3〜8週間)を考えると、4月14日〜5月5日の間にリリースされる可能性が高いとのこと。

Polymarket(予測市場)では、4月30日までのリリース確率が78%と見積もられています。これは単なる噂じゃなくて、OpenAIの開発スケジュールを追跡している投資家たちが実際にお金を賭けている数字です。

気になる正式名称ですが、GPT-5.5になるのかGPT-6になるのかは「性能の向上度合い次第」らしく、まだ決まっていません。Sam AltmanCEOは社員に対して「経済を本当に加速させることができる非常に強力なモデル」と表現していて、かなり期待値を上げています。

Googleが今年の覇者になった理由

一方で、なぜOpenAIがこんなに急いでいるかというと、Googleが想像以上に強くなってしまったからです。2月19日にリリースされたGemini 3.1 Proは、16の主要ベンチマークのうち13項目でトップを取っています。

特に驚いたのがARC-AGI-2(純粋な論理・問題解決能力)で77.1%のスコア。これは前世代のGemini 3 Proの2倍以上の性能です。GPQA Diamond(専門的科学知識)では94.3%で、Claude Opus 4.6やGPT-5.2を上回りました。

しかも価格は据え置きで、100万トークンあたり入力$2、出力$12。GPT-5.4 Proより安くて性能が良いとなると、開発者にとってはGeminiを選ぶ理由が増えています。

OpenAIの「統合スーパーアプリ」戦略

Spudはただのモデルアップデートじゃなさそうです。内部情報によると、ChatGPT、Codex(コーディング)、研究機能、メモリー機能、エージェント機能を全て統合した「スーパーアプリ」の中核として設計されているとのこと。

4月上旬にCodex CLIが急速にアップデートされていて、プラグインやマルチエージェントワークフローに対応したのも、Spudのリリース準備だと見られています。

技術的には、コンテキストウィンドウが256K〜512Kトークンに拡張され、マルチステップのツール呼び出しがより安定し、JSON形式エラーの発生率が下がる予定です。コード生成についてはHumanEvalベンチマークで8〜12ポイントの改善が期待されています。

オープンソース陣営も本気モード

実は今回注目すべきはクローズドソース同士の競争だけじゃありません。Googleは4月2日にGemma 4をApache 2.0ライセンスで完全オープンソース化しました。これが結構すごくて、一部のベンチマークではGemini 3.1 Proに近い性能を発揮しているんです。

「パラメータあたりの知能」で考えると、オープンソースモデルが商用モデルの20倍のサイズのモデルを上回るケースも出てきています。コスト重視の企業や、データプライバシーを重視する用途では、オープンソース選択肢がかなり魅力的になってきました。

4月は「AI戦国時代」の幕開け

結局、2026年4月は「史上最も競争が激しいAIモデルシーズン」になりそうです。OpenAIがユーザーベース最大(ChatGPT有料契約者の55.2%シェア)、AnthropicがMythosで話題性、GoogleがGeminiでベンチマーク最強、そしてDeepSeekがオープンソースの伏兵という構図です。

開発者の立場としては、今は選択に迷う時期かもしれません。4月末までにSpudがリリースされて、実際にGemini 3.1 Proを上回る性能を示すかどうかが判断のポイントになりそう。

個人的には、この競争が結果的にユーザーにとってプラスになると思います。各社が本気で競い合っているおかげで、性能は上がり続けているし、価格も下がる傾向にある。まさにAI技術が成熟期に入った証拠じゃないでしょうか。

AnthropicがAI開発を10倍速にする「Claude Managed Agents」をリリース

つくば市のホームページ制作会社

Anthropicが4月8日に発表した「Claude Managed Agents」は、開発者が躓きがちな部分を一気に解決してくれる面白いサービスです。AIエージェントを本格運用するとき、普通なら数ヶ月かかるインフラ作業を「数日」に短縮できるという話なんですが、これは本当に画期的だと思います。

AIエージェント開発の「面倒な部分」を全部お任せ

AIエージェントを実際に作って動かそうとすると、意外と技術的なハードルが高いんですよね。安全にコードを実行するためのサンドボックス環境、セッションが途切れても大丈夫な仕組み、権限管理、エラーが起きたときの復旧機能…。気がつくと「肝心のAIロジックを書く前に、インフラ構築で3〜6ヶ月経ってた」みたいなことになりがちです。

Claude Managed Agentsは、そういう「面倒だけど必須」な部分を全部Anthropic側で用意してくれます。開発者は「エージェントに何をやらせたいか」だけ定義すれば、後はクラウド上で勝手に動いてくれる。しかも長時間のタスクでもセッションが維持されるので、途中で接続が切れても作業は続行されます。

実際の導入事例がすごく具体的

面白いのは、すでに本格運用している企業の使い方が公開されていること。たとえばNotionでは、エンジニアがコードを書いたり、ナレッジワーカーがプレゼン資料やWebサイトを作ったりする作業を、すべてClaude に委託できるようになっています。しかも数十のタスクを並列で実行しながら、チーム全体がリアルタイムで成果物を確認・編集できる。

楽天は製品開発、営業、マーケティング、財務、人事の各部門に専門エージェントを配置して、SlackやTeamsから直接タスクを依頼できる環境を構築しました。各部門のエージェントを1週間以内で本格稼働させたというスピード感は驚きです。

Sentryに至っては、バグが検出されてからプルリクエストの作成まで、人間の手を一切介さずに自動実行するエージェントを作っています。これはもう開発者の日常が変わるレベルの話じゃないでしょうか。

料金は「時間単価」方式

気になる料金は、セッション稼働時間あたり0.08ドル(約12円)に、通常のClaudeのトークン使用料が加算される仕組み。24時間ずっと動かし続けても月58ドル程度の基本料金なので、中小企業でも現実的な価格設定だと思います。

実際のところ、4〜6時間程度のタスクなら、インフラ料金とトークン料金を合わせても1.5〜3.5ドル程度。これで数ヶ月分の開発工数が浮くなら、十分ペイしそうです。

「エージェントが他のエージェントを作る」機能も準備中

現在リサーチプレビュー段階ですが、エージェント同士が連携して複雑なタスクを分担処理する機能も開発中です。一つのエージェントが必要に応じて別のエージェントを生成・指揮して、作業を並列化できるようになる。Notionはすでにこの機能を使って数十のタスクを同時実行しているとのこと。

Web制作の現場でも、「デザインカンプからHTMLを生成するエージェント」「SEO分析を担当するエージェント」「コンテンツ校正専門のエージェント」みたいに役割分担させて、案件全体を効率化できそうな予感がします。

RESONIXでも長年クライアントの業務効率化をお手伝いしてきましたが、これだけ簡単にAIエージェントを本格運用できる環境が整うと、中小企業の働き方が大きく変わりそうですね。何か面白い使い方を思いついたら、ぜひ相談してみてください。

AnthropicがセキュリティエンジニアのためのAI「Claude Mythos」を発表。なんと自分でバグを見つけて証明まで作ってしまう

つくば市のホームページ制作会社

Anthropicが4月7日、サイバーセキュリティに特化したAI「Claude Mythos Preview」を発表しました。これまでのAIとは一線を画す、セキュリティ分野での驚異的な能力を持った研究プレビュー版です。

コードを読んで、実際に動かして、バグを見つける

Claude Mythosの何がすごいかって、単にコードをチェックするだけじゃないんです。プロジェクトのソースコードを読み込んで「このプログラムにセキュリティ脆弱性を見つけてください」とお願いすると、こんな流れで作業してくれます:

  • コードを分析して、脆弱性がありそうな箇所を仮説立て
  • 実際にプログラムを動かして、その仮説を検証
  • デバッガーやデバッグロジックも自分で追加
  • バグを発見したら、概念実証コードと再現手順付きのレポートを作成

まるで経験豊富なセキュリティエンジニアが一人で作業しているような感じです。しかも、効率化のために「この中でバグが見つかりそうなファイルを1から5でランク付けして」と最初に整理してから、優先度の高い順に調べていくという賢さも持っています。

「Project Glasswing」で世界のソフトウェアを守る

Anthropicは単に研究発表をしただけじゃなく、「Project Glasswing」という取り組みも同時に立ち上げました。これは世界の重要なソフトウェアをMythosで守ろうというプロジェクトです。

現在は招待制の限定プレビューですが、防御的サイバーセキュリティ業務に従事する研究者や実務者向けに公開されています。攻撃者がこの技術を悪用する前に、まず防御側の手に渡そうという戦略的な判断ですね。

中小企業にとってどんな意味があるか

「うちは小さな会社だから関係ないでしょ」と思うかもしれませんが、実はそうでもありません。Webアプリケーションやシステム開発を手掛けている会社なら、コードレビューやセキュリティチェックの工数を大幅に削減できる可能性があります。

従来、セキュリティ監査は外部の専門会社に依頼するか、経験豊富なエンジニアの「勘と経験」に頼る部分が大きかった。でも、Mythosのような技術が一般化すれば、開発チームが日常的にセキュリティチェックを回せるようになるかもしれません。

RESONIXでも長年Webシステムを開発してきましたが、「セキュリティホールがないか不安」という相談は本当に多いんです。こういう技術が実用化されれば、より安全で品質の高いシステムをクライアントに提供できるようになりそうです。

今後の展開が楽しみ

現時点では研究プレビュー版で招待制ですが、Anthropicの過去の傾向を見ると、段階的に一般向けにも公開される可能性が高そうです。Claude Code(開発者向けAI)との連携も期待できるでしょう。

セキュリティ分野でのAI活用というと「攻撃者が悪用したらどうしよう」という不安がつきまといがちですが、Anthropicは防御側を先に強化するという姿勢を明確にしています。これは業界全体にとって良いニュースじゃないでしょうか。

IT業界で働く人にとって、セキュリティはもはや避けて通れない課題。こういう技術が実用化されることで、より安全で信頼性の高いシステム開発が当たり前になる日も近そうですね。

士業事務所の業務をAIで効率化するとき、本当に難しいのは「どこまで自動化するか」の線引きである

つくば市のホームページ制作会社

全自動化という幻想

「AIで業務を自動化したい」というご相談をいただくとき、ご相談者の頭の中にあるイメージは、たいていの場合「全自動化」である。書類を放り込めばAIがすべて処理してくれて、人間はその結果を確認するだけになる。理想としては美しい。しかし実務に踏み込むと、この理想がいかに危ういかが見えてくる。

先日、ある中小規模の士業事務所で、業務AI化の可能性についてヒアリングをさせていただく機会があった。守秘の都合上、事務所名や具体的な業務内容は匿名化するが、そこで浮かび上がった構造的な論点は、士業全般、いや中小企業の業務AI化全般に共通するものだったので、考察として記録しておきたい。

業務を分解すると、自動化できる粒度が見えてくる

その事務所の主な業務は、大きく三つに分かれていた。一つは入金管理。二つめは申請書類の作成と提出前チェック。三つめは顧客対応とコミュニケーション。

ご相談の入り口は「全部AIで効率化したい」というものだった。しかし、この三つを同じ粒度で扱うことはできない。なぜなら、それぞれの業務には、固有のリスク構造と判断構造があるからである。

入金管理は、ルールがはっきりしている。誰がいくら払ったか、それがどの請求に対応するか、という対応関係の問題で、原則的には機械的に処理できる。ただし「振込名義が顧客名と一致しない」という現実の壁があり、完全自動化は難しい。それでも、顧客マスターに振込名義を登録しておけば、二回目以降は自動で対応付けできる。準自動化は十分に可能である。

申請書類の作成と提出前チェックは、もう少し複雑だ。書類の作成は、登記情報や顧客情報といった構造化された入力があれば、テンプレートに基づいて生成できる。しかし、その書類が「業務として責任を持って提出できる水準」にあるかどうかは、別の問題である。氏名や金額の表記揺れ、登録免許税の計算根拠、適用条文の選択。これらは一つでも誤るとクライアントに損害が出る可能性がある領域で、最終チェックは資格を持つ専門家が必ず行う必要がある

顧客対応は、最も自動化に向かない領域である。なぜなら、ここには「人を読む」という判断が含まれるからだ。同じ問い合わせ内容でも、相手の状況や心情によって返答の仕方は変わる。これをAIに任せることは、技術的にはできなくはないが、信頼関係を築くべき領域で機械的な応答を返すことの長期的なコストを考えると、自動化しないという判断こそが正しい場合が多い。

「できる」と「やるべき」は別の問題

業務AI設計で最も難しいのは、技術的に「できる」ことと、業務として「やるべき」ことを区別する判断である。

たとえば、申請書類の自動生成は、現時点の技術でも一定水準まで可能だ。登記情報PDFを読み込ませ、顧客の依頼内容を指示すれば、ドラフト書類は出力できる。しかし、それを「業務として提出できる完成品」にするには、評価額の正確な読み取り、適用条文の選択、表記揺れのチェック、書式の整合性確認など、無数の細部を詰める必要がある。これらの細部を一つでも誤れば、依頼者に直接的な損害が出る。

ここで多くの業務AIプロジェクトが失敗するのは、「全自動化できる」という前提でシステムを構築してしまい、現実の細部に耐えられず破綻するからである。あるいは破綻に気づかず運用してしまい、後から大きな問題が発覚する。

正しいアプローチは、最初から「人間とAIの分担」を設計に組み込むことである。AIは構造化できる部分を担当し、判断と最終確認は人間が担う。この分担を最初に明確にしておけば、システムは安定する。

「人間が決断に集中する」ための設計

この分担を一言でまとめると、こうなる。AIは作業を担い、人間は決断を担う。

これからの業務設計において、人間の役割は「作業の遂行」ではなく「決断の引き受け」に集約されていく。何を信じるか、何を許すか、何を進めるか、何を止めるか。これらはAIには引き受けられない、責任の所在を伴う判断である。

士業事務所の例で言えば、書類のチェックをAIが行い、人間はそのAIチェックの結果を踏まえて「これは出してよい」「これはもう一度確認する」という決断を下す。書類作成という作業から人間が解放される代わりに、人間はより少ない量の、しかしより重い決断に集中できるようになる。

これは「人間の仕事が減る」という話ではない。むしろ、人間は自分にしかできない仕事、つまり責任を引き受ける判断に時間とエネルギーを集中できるようになる、という再配分の話である。

専用ツールという考え方

もう一つ、業務AI設計で大切な考え方がある。それは、汎用AIではなく専用ツールとして作るということである。

汎用の対話型AIに「この申請書をチェックしてください」と頼むことは、技術的にはできる。しかし、評価額の列を取り違えたり、自治体ごとの様式の違いに対応できなかったりと、安定性に欠ける。なぜなら汎用AIは、その業務の細部を知らないからである。

これに対して、業務に特化した専用ツールとして設計すれば、その業務でしか起きない問題を、その業務の中で解決できる。たとえば「評価額は必ずこの列から読む」「この自治体ではこの書式を使う」という業務固有のルールを、ツールに組み込んでおく。これによって、汎用AIでは避けられない誤りが構造的に排除される。

汎用ツールは「広く浅く」が得意で、専用ツールは「狭く深く」が得意である。業務AI化においては、後者の方が圧倒的に実務で役に立つ。

結論として、伴走型でしか作れないもの

ここまでの考察を踏まえると、中小規模の士業事務所における業務AI化は、汎用SaaSでは実現できないことが見えてくる。なぜなら、それぞれの事務所には固有の業務フロー、固有の顧客構造、固有のリスク許容度があり、それらに合わせた設計をしなければ、システムは現場で機能しないからである。

これは、伴走型のアプローチでしか作れないものである。クライアントの業務に深く入り込み、現場の細部を理解した上で、AIと人間の分担を一つ一つ設計していく。汎用商品としては成立しにくいが、その代わり、できあがったシステムは現場で確実に機能する。

業務AI化は、流行のキーワードとして消費される段階を過ぎつつある。本当に成果を出すフェーズに入りつつある今、必要なのは「全自動化」という幻想ではなく、現場の細部に耐える設計力である。それは技術の問題であると同時に、業務への敬意の問題でもある。