2024年3月、「世界初の自律型AIソフトウェアエンジニア」を名乗る動画が公開された。Xで3000万回以上再生された。「エンジニアが不要になる」という見出しが飛び交い、AIコーディングの議論は一気に加速した。
それから約2年が経った。DevinはGoldman SachsやNubankに採用され、開発元のCognitionは評価額$10.2Bに達した。一方で、独立した第三者テストでの成功率は15%という数字も残っている。
この記事では、Devinの「夢」と「現実」を数字と事例で整理する。「AIエンジニアを雇う」という選択が、いつ正解になって、いつ失敗になるかを見ていく。
Devinとは何者か
Devinを一言で表すなら「仕様書を渡すと翌朝PRを作ってくれる派遣エンジニア」だ。
Claude CodeやCursorがエンジニアと一緒に作業する「ペアプログラマー」なら、Devinは「タスクを渡してその場を離れる」ツールだ。クラウド上の仮想マシン(VM)で動き、エディタを開き、ブラウザで検索し、コードを書き、テストを回し、GitHubにPRを送る。その間、人間は別の仕事をしていていい。
開発元はCognition AI。創業者のScott Wu、Steven Hao、Walden Yanの3人は全員国際情報オリンピック(IOI)の金メダリストという経歴を持つ。
2024年3月の公開当初は月額$2,000という価格設定だった。これが2025年には$500/月のTeamプランに、さらに2025年後半には$20/月から使えるCoreプランが追加された。
料金の「罠」——ACUという単位を理解する
Devinの料金はサブスクリプションではなく、ACU(Agent Compute Unit)という単位で動く。
公式ドキュメントによると1 ACU ≈ 15分のアクティブ作業時間だ。月のプランには一定数のACUが付属し、超過分は追加購入する形になる。
| プラン | 月額 | 付属ACU | 超過単価 |
|---|---|---|---|
| Core | $20 | 約9 ACU | $2.25/ACU |
| Team | $500 | 250 ACU | $2.00/ACU |
| Enterprise | カスタム | カスタム | — |
出典: Devin公式料金ページ
Teamプランの$500/月=250ACUを計算すると、約62.5時間の「作業時間」になる。月の稼働日20日で割れば1日3時間程度だ。
問題は「1タスクが何ACUかかるか事前にわからない」という点にある。ランニングマシンの時間課金に例えるといい——走り始めると課金が始まる。しかし複雑な迷路を探しながら走るとどれだけかかるか、走る前には見当もつかない。
# Teamプラン($500/月 = 250 ACU)で何ができるか?
1 ACU ≈ 15分の作業時間
# 実際のACU消費の目安(参考値)
単純なバグ修正(再現手順が明確): 1〜3 ACU(15〜45分)
機能追加(仕様が明確に書かれている): 5〜15 ACU(1.25〜3.75時間)
レガシーコードの移行(1ファイル単位): 10〜20 ACU(2.5〜5時間)
大規模リファクタリング(依存関係あり): 30〜100 ACU(7.5〜25時間)← 予測困難
# つまり$500/月でできる目安
明確なバグ修正: 〜80件
小規模な機能追加: 〜16件
ファイル単位の移行: 〜12〜25ファイル
eesel.aiの調査によると、探索的なビルド作業で1セッションに155 ACU(≈$310)を消費した事例が報告されている。タスクの曖昧さがそのままコストの不確実性になる。
成功事例——どんな会社が、何のために使っているか
Goldman Sachs:「数百〜数千台のDevinを導入予定」
2025年7月、Goldman Sachsが大手銀行として初めてDevinを採用したと発表した。パイロット導入で生産性が3〜4倍になり、CTOが「数百〜数千台のDevinを導入予定」と明言した。
Fortune誌の取材によると、Devinが担当しているのは「繰り返し発生するが人間のエンジニアには退屈なタスク」だという。コードの移植、レガシーシステムの移行、テスト自動化——判断が少なく、手が多く必要な仕事だ。
Nubank:コスト20分の1、納期12倍高速化
ブラジル最大のフィンテック企業Nubankは、ETL(データの抽出・変換・読込を行うデータパイプライン)フレームワークをサブモジュール移行するプロジェクトでDevinを使った。Cognitionの公式2025年パフォーマンスレビューによると結果は以下の通りだ。
- コスト: 20分の1に削減
- 納期: 12倍高速化
- 数百万行規模のリファクタリング効率: 8倍
共通点は「タスクの性質」だ。どちらの事例も、ゴールが明確で、判断の余地が少なく、繰り返し性が高い。「この関数をこのパターンで書き直す」を何百回もこなすような仕事だ。
Citiでも2〜20倍の生産性向上
FortuneやCNBCの報道では、Citiでも特定タスクで2〜20倍の生産性向上が確認されている。セキュリティ脆弱性の対応では、人間が平均30分かかる作業をDevinが1.5分で処理したという(20倍効率化)。
失敗事例——15%という数字の意味
Cognitionの自社発表とは別に、独立した評価が存在する。
trickle.soが実施した独立テストでは、20タスク中3タスク(15%)しか成功しなかった。テスト担当者のコメントはこうだ。「タスクが成功するか否かを事前に予測できない」「数日間、不可能な解決策を追い続けることがある」。
The Registerの報道でも複数のユーザーから同様の批判が上がっている。特に問題になったのは次の3つだ。
- 複雑な再帰処理: 無限ループを生成しがちで、問題を認識せずに続ける
- サードパーティライブラリの競合: 複数ライブラリ間の依存関係の衝突を解決できない
- 曖昧な状況での判断: 仕様の解釈が必要な場面で行き詰まる
10 ACUを超えると処理パフォーマンスが低下するという報告もある。長時間の複雑なタスクでは、コストが上がるほど品質が下がる逆転現象が起きうる。
Cognitionが自社ブログで発表する成功事例と、独立した第三者テストの結果には大きな乖離がある。自社発表の数字は「Devinが得意とするタスク」に最適化された条件下の結果だ。全タスクに均等に適用した場合の性能ではない。
Claude Codeとの本質的な違い
「どちらが優れているか」という問いは的外れだ。これらは解決しようとしている問題が違う。
比喩で整理するとわかりやすい。
Claude Codeは「隣に座っているペアプログラマー」だ。「この関数の設計どう思う?」「ここのロジック別の書き方はないか?」という会話が成立する。リアルタイムで方針を変えられる。指示が曖昧でも、その場で確認できる。
Devinは「仕様書を渡したら翌朝PRを作ってくれる派遣エンジニア」だ。良い案件(明確な仕様書)では素晴らしい成果を出す。曖昧な案件(「いい感じにして」)では、翌朝に期待外れの成果物か、大量の請求書が届く。
もう一つの違いは「途中で変えられるか」だ。
# ❌ Devinに曖昧な指示を出す(ACUを無駄に消費する典型)
"認証システムをいい感じに改善して"
→ Devinが「いい感じ」を独自に解釈して数時間作業
→ 完成物が意図と違う
→ 修正指示を出しても、最初から作り直すことになる
→ 消費ACUはそのままコストになる
# ✅ Devinが得意な構造化された指示
"以下の手順でJWT認証をリファクタリングしてください:
1. src/auth/jwt.ts の accessToken の有効期限を 15分 に変更
2. refreshToken の処理を src/auth/refresh.ts として分離
3. 既存テスト(src/auth/jwt.test.ts)が全てパスすることを確認
4. PRを作成してCHANGELOG.mdに変更内容を追記
完了の定義: テストが全件グリーンで、PRが作成されている状態"
タクシーと急行電車の違いにも似ている。Claude Codeはタクシーだ——どこへでも行けるし、途中で行き先を変えられる。Devinは急行電車——大量の荷物(コード変更)を確実に運ぶが、途中で目的地を変えると引き返しになる。
ROIが取れる仕事、取れない仕事
$500/月(Teamプラン)への投資を回収できるかを判断する軸は「タスクの構造化度」だ。
ROIが取れるタスクの特徴:
- ゴールが数値で定義できる(「全テストがパスする」「全ファイルの関数名がsnake_caseになる」)
- 繰り返しが多い(同じパターンの処理を100ファイルに適用する)
- コードベースの理解が必要だが、判断は少ない
- 人間エンジニアが「面倒だけど重要」と感じている仕事
具体的な例:
- レガシーコードのPython 2 → 3移行
- 全ファイルへのテストカバレッジ追加(50% → 80%)
- セキュリティ脆弱性パターンの一括修正
- APIドキュメントの自動生成
ROIが取れないタスクの特徴:
- 仕様が「作りながら決まっていく」
- ユーザーの意図を解釈する余地がある
- 新しいアーキテクチャの設計が必要
- 「これで合ってるかな?」という確認が頻繁に必要
「監督コスト」を忘れないこと。Devinにタスクを渡しても、エンジニアのゼロコストにはならない。PRのレビュー、テスト結果の確認、再指示——これらに熟練エンジニアの時間がかかる。METR研究では、AIエージェントの監督によって熟練エンジニアが19%遅くなるケースも報告されている。$500/月のDevinに加えて、監督エンジニアのコストも計算に入れること。
Cognitionの現在地——$10.2B評価の背景
Cognitionは2024年9月にARR(年間経常収益)$1Mだったが、2025年6月には$73Mまで成長した。Contrary Researchによるデータだ。
2025年7月には約$250MでWindsurfを買収。WindsurfのIPとチームを獲得し、ARR $82Mのエンタープライズ顧客基盤も手に入れた(TechCrunch)。
2025年9月には$400Mを追加調達し、評価額は$10.2Bに達した。
IOI金メダリスト3人が作ったツールが、独自モデルSWE-1.5(Cerebrasのチップで最大950トークン/秒の推論速度)まで開発している。インフラとモデルの両方を内製化する方向だ。
ただし、この$10.2B評価は「自律AIエンジニアが機能する」という仮説への先行投資だ。現時点でのROIは「明確に構造化されたタスク」に限定されている。
いつ使うべきか——判断のフロー
判断のポイントは「タスクを一言で言えるか」だ。「このファイルのすべてのconsole.logをlogger.infoに置き換える」は一言で言える。「ユーザー体験を改善する」は言えない。前者はDevinが得意で、後者はClaude Codeで対話しながら詰めるべきタスクだ。
「AIエンジニアを雇う」の正体
Devinの本質を言い換えると「自律ルンバ」だ。定期的な掃除(反復的なコード移行)には完璧な性能を発揮する。廊下の細かい場所も任せられる。でも「年末大掃除で押し入れを整理して」(曖昧なリファクタリング)は苦手だ。何が不要で何を残すかを、Devinは判断できない。
Goldman SachsやNubankが成果を出せたのは、「Devinが得意とするタスクにDevinを使った」からだ。Answer.AIの15%という成功率は、「Devinが苦手とするタスクも含めて均等に評価した」結果だ。どちらも正しい。
「AIエンジニアを雇う」ことで解決する問題は、「人間のエンジニアが嫌がる繰り返し作業を誰がやるか」という問題だ。それは確かに解決する。
「AIエンジニアを雇う」ことで解決しない問題は、「何を作るべきか」「どう設計するか」「このコードは正しいか」という問いだ。判断と解釈が必要な仕事は、2026年現在もDevinには難しい。
$500/月の価値があるかどうかは、自社の開発バックログに「明確に構造化されたが人手が足りない」タスクがどれだけあるかで決まる。それが十分にあれば投資に値する。なければ、Claude CodeやCursorを深く使いこなす方が費用対効果は高い。

