月額$500の自律AIエンジニア「Devin」——夢の話か、現実の武器か

2024年3月、「世界初の自律型AIソフトウェアエンジニア」を名乗る動画が公開された。Xで3000万回以上再生された。「エンジニアが不要になる」という見出しが飛び交い、AIコーディングの議論は一気に加速した。

それから約2年が経った。DevinはGoldman SachsやNubankに採用され、開発元のCognitionは評価額$10.2Bに達した。一方で、独立した第三者テストでの成功率は15%という数字も残っている。

この記事では、Devinの「夢」と「現実」を数字と事例で整理する。「AIエンジニアを雇う」という選択が、いつ正解になって、いつ失敗になるかを見ていく。

Devinとは何者か

Devinを一言で表すなら「仕様書を渡すと翌朝PRを作ってくれる派遣エンジニア」だ。

Claude CodeやCursorがエンジニアと一緒に作業する「ペアプログラマー」なら、Devinは「タスクを渡してその場を離れる」ツールだ。クラウド上の仮想マシン（VM）で動き、エディタを開き、ブラウザで検索し、コードを書き、テストを回し、GitHubにPRを送る。その間、人間は別の仕事をしていていい。

開発元はCognition AI。創業者のScott Wu、Steven Hao、Walden Yanの3人は全員国際情報オリンピック（IOI）の金メダリストという経歴を持つ。

2024年3月の公開当初は月額$2,000という価格設定だった。これが2025年には$500/月のTeamプランに、さらに2025年後半には$20/月から使えるCoreプランが追加された。

料金の「罠」——ACUという単位を理解する

Devinの料金はサブスクリプションではなく、ACU（Agent Compute Unit）という単位で動く。

公式ドキュメントによると1 ACU ≈ 15分のアクティブ作業時間だ。月のプランには一定数のACUが付属し、超過分は追加購入する形になる。

プラン	月額	付属ACU	超過単価
Core	$20	約9 ACU	$2.25/ACU
Team	$500	250 ACU	$2.00/ACU
Enterprise	カスタム	カスタム	—

出典: Devin公式料金ページ

Teamプランの$500/月＝250ACUを計算すると、約62.5時間の「作業時間」になる。月の稼働日20日で割れば1日3時間程度だ。

問題は「1タスクが何ACUかかるか事前にわからない」という点にある。ランニングマシンの時間課金に例えるといい——走り始めると課金が始まる。しかし複雑な迷路を探しながら走るとどれだけかかるか、走る前には見当もつかない。

# Teamプラン（$500/月 = 250 ACU）で何ができるか？

1 ACU ≈ 15分の作業時間

# 実際のACU消費の目安（参考値）
単純なバグ修正（再現手順が明確）: 1〜3 ACU（15〜45分）
機能追加（仕様が明確に書かれている）: 5〜15 ACU（1.25〜3.75時間）
レガシーコードの移行（1ファイル単位）: 10〜20 ACU（2.5〜5時間）
大規模リファクタリング（依存関係あり）: 30〜100 ACU（7.5〜25時間）← 予測困難

# つまり$500/月でできる目安
明確なバグ修正: 〜80件
小規模な機能追加: 〜16件
ファイル単位の移行: 〜12〜25ファイル

eesel.aiの調査によると、探索的なビルド作業で1セッションに155 ACU（≈$310）を消費した事例が報告されている。タスクの曖昧さがそのままコストの不確実性になる。

成功事例——どんな会社が、何のために使っているか

Goldman Sachs：「数百〜数千台のDevinを導入予定」

2025年7月、Goldman Sachsが大手銀行として初めてDevinを採用したと発表した。パイロット導入で生産性が3〜4倍になり、CTOが「数百〜数千台のDevinを導入予定」と明言した。

Fortune誌の取材によると、Devinが担当しているのは「繰り返し発生するが人間のエンジニアには退屈なタスク」だという。コードの移植、レガシーシステムの移行、テスト自動化——判断が少なく、手が多く必要な仕事だ。

Nubank：コスト20分の1、納期12倍高速化

ブラジル最大のフィンテック企業Nubankは、ETL（データの抽出・変換・読込を行うデータパイプライン）フレームワークをサブモジュール移行するプロジェクトでDevinを使った。Cognitionの公式2025年パフォーマンスレビューによると結果は以下の通りだ。

コスト: 20分の1に削減
納期: 12倍高速化
数百万行規模のリファクタリング効率: 8倍

共通点は「タスクの性質」だ。どちらの事例も、ゴールが明確で、判断の余地が少なく、繰り返し性が高い。「この関数をこのパターンで書き直す」を何百回もこなすような仕事だ。

Citiでも2〜20倍の生産性向上

FortuneやCNBCの報道では、Citiでも特定タスクで2〜20倍の生産性向上が確認されている。セキュリティ脆弱性の対応では、人間が平均30分かかる作業をDevinが1.5分で処理したという（20倍効率化）。

失敗事例——15%という数字の意味

Cognitionの自社発表とは別に、独立した評価が存在する。

trickle.soが実施した独立テストでは、20タスク中3タスク（15%）しか成功しなかった。テスト担当者のコメントはこうだ。「タスクが成功するか否かを事前に予測できない」「数日間、不可能な解決策を追い続けることがある」。

The Registerの報道でも複数のユーザーから同様の批判が上がっている。特に問題になったのは次の3つだ。

複雑な再帰処理: 無限ループを生成しがちで、問題を認識せずに続ける
サードパーティライブラリの競合: 複数ライブラリ間の依存関係の衝突を解決できない
曖昧な状況での判断: 仕様の解釈が必要な場面で行き詰まる

10 ACUを超えると処理パフォーマンスが低下するという報告もある。長時間の複雑なタスクでは、コストが上がるほど品質が下がる逆転現象が起きうる。

Cognitionが自社ブログで発表する成功事例と、独立した第三者テストの結果には大きな乖離がある。自社発表の数字は「Devinが得意とするタスク」に最適化された条件下の結果だ。全タスクに均等に適用した場合の性能ではない。

Claude Codeとの本質的な違い

「どちらが優れているか」という問いは的外れだ。これらは解決しようとしている問題が違う。

Devin（自律エージェント）

クラウドVMで非同期実行

タスク委任→結果確認のサイクル

リポジトリ全体を自動インデックス化

PR作成・コメント返答まで自律

複数Devinを同時並行で起動可

Claude Code（インタラクティブCLI）

ローカル環境でリアルタイム実行

人間がその場で指示・修正

CLAUDE.mdでプロジェクト規約を定義

カスタムMCPツールと連携可能

推論・アーキテクチャ議論が得意

比喩で整理するとわかりやすい。

Claude Codeは「隣に座っているペアプログラマー」だ。「この関数の設計どう思う？」「ここのロジック別の書き方はないか？」という会話が成立する。リアルタイムで方針を変えられる。指示が曖昧でも、その場で確認できる。

Devinは「仕様書を渡したら翌朝PRを作ってくれる派遣エンジニア」だ。良い案件（明確な仕様書）では素晴らしい成果を出す。曖昧な案件（「いい感じにして」）では、翌朝に期待外れの成果物か、大量の請求書が届く。

もう一つの違いは「途中で変えられるか」だ。

# ❌ Devinに曖昧な指示を出す（ACUを無駄に消費する典型）
"認証システムをいい感じに改善して"

→ Devinが「いい感じ」を独自に解釈して数時間作業
→ 完成物が意図と違う
→ 修正指示を出しても、最初から作り直すことになる
→ 消費ACUはそのままコストになる

# ✅ Devinが得意な構造化された指示
"以下の手順でJWT認証をリファクタリングしてください:
1. src/auth/jwt.ts の accessToken の有効期限を 15分 に変更
2. refreshToken の処理を src/auth/refresh.ts として分離
3. 既存テスト（src/auth/jwt.test.ts）が全てパスすることを確認
4. PRを作成してCHANGELOG.mdに変更内容を追記

完了の定義: テストが全件グリーンで、PRが作成されている状態"

タクシーと急行電車の違いにも似ている。Claude Codeはタクシーだ——どこへでも行けるし、途中で行き先を変えられる。Devinは急行電車——大量の荷物（コード変更）を確実に運ぶが、途中で目的地を変えると引き返しになる。

ROIが取れる仕事、取れない仕事

$500/月（Teamプラン）への投資を回収できるかを判断する軸は「タスクの構造化度」だ。

ROIが取れるタスクの特徴:

ゴールが数値で定義できる（「全テストがパスする」「全ファイルの関数名がsnake_caseになる」）
繰り返しが多い（同じパターンの処理を100ファイルに適用する）
コードベースの理解が必要だが、判断は少ない
人間エンジニアが「面倒だけど重要」と感じている仕事

具体的な例:

レガシーコードのPython 2 → 3移行
全ファイルへのテストカバレッジ追加（50% → 80%）
セキュリティ脆弱性パターンの一括修正
APIドキュメントの自動生成

ROIが取れないタスクの特徴:

仕様が「作りながら決まっていく」
ユーザーの意図を解釈する余地がある
新しいアーキテクチャの設計が必要
「これで合ってるかな？」という確認が頻繁に必要

「監督コスト」を忘れないこと。Devinにタスクを渡しても、エンジニアのゼロコストにはならない。PRのレビュー、テスト結果の確認、再指示——これらに熟練エンジニアの時間がかかる。METR研究では、AIエージェントの監督によって熟練エンジニアが19%遅くなるケースも報告されている。$500/月のDevinに加えて、監督エンジニアのコストも計算に入れること。

Cognitionの現在地——$10.2B評価の背景

Cognitionは2024年9月にARR（年間経常収益）$1Mだったが、2025年6月には$73Mまで成長した。Contrary Researchによるデータだ。

2025年7月には約$250MでWindsurfを買収。WindsurfのIPとチームを獲得し、ARR $82Mのエンタープライズ顧客基盤も手に入れた（TechCrunch）。

2025年9月には$400Mを追加調達し、評価額は$10.2Bに達した。

IOI金メダリスト3人が作ったツールが、独自モデルSWE-1.5（Cerebrasのチップで最大950トークン/秒の推論速度）まで開発している。インフラとモデルの両方を内製化する方向だ。

ただし、この$10.2B評価は「自律AIエンジニアが機能する」という仮説への先行投資だ。現時点でのROIは「明確に構造化されたタスク」に限定されている。

いつ使うべきか——判断のフロー

Loading diagram...

判断のポイントは「タスクを一言で言えるか」だ。「このファイルのすべてのconsole.logをlogger.infoに置き換える」は一言で言える。「ユーザー体験を改善する」は言えない。前者はDevinが得意で、後者はClaude Codeで対話しながら詰めるべきタスクだ。

「AIエンジニアを雇う」の正体

Devinの本質を言い換えると「自律ルンバ」だ。定期的な掃除（反復的なコード移行）には完璧な性能を発揮する。廊下の細かい場所も任せられる。でも「年末大掃除で押し入れを整理して」（曖昧なリファクタリング）は苦手だ。何が不要で何を残すかを、Devinは判断できない。

Goldman SachsやNubankが成果を出せたのは、「Devinが得意とするタスクにDevinを使った」からだ。Answer.AIの15%という成功率は、「Devinが苦手とするタスクも含めて均等に評価した」結果だ。どちらも正しい。

「AIエンジニアを雇う」ことで解決する問題は、「人間のエンジニアが嫌がる繰り返し作業を誰がやるか」という問題だ。それは確かに解決する。

「AIエンジニアを雇う」ことで解決しない問題は、「何を作るべきか」「どう設計するか」「このコードは正しいか」という問いだ。判断と解釈が必要な仕事は、2026年現在もDevinには難しい。

$500/月の価値があるかどうかは、自社の開発バックログに「明確に構造化されたが人手が足りない」タスクがどれだけあるかで決まる。それが十分にあれば投資に値する。なければ、Claude CodeやCursorを深く使いこなす方が費用対効果は高い。

PricingChoose from Core, Team, or Enterprise plans. Start working with parallel cloud SWE agents today.devin.ai

Cognition | Devin's 2025 Performance Review: Learnings From 18 Months of Agents At WorkEighteen months since launch, Devin’s gone from tackling small projects, to deeply embedding in engineering teams at thousands of companies, including some of the largest businesses in the world. We decided it was well past time for Devin to get a performance review - just like any human engineer. cognition.ai