コーディングエージェントを体感！Devinを検証してみた｜技術ブログ

2026.03.31

こんにちは。
SB C&Sの佐藤です。

本日は要件から実装、テストやPRまで自走できる「世界初のAIソフトウェアエンジニア(コーディングエージェント)」であるDevinについて検証した結果をまとめさせていただきます。
メイン機能であるプロンプトからのコーディングに加え各種便利機能についてのご紹介、検証してみての感想まで書かせていただいております。ぜひ最後までご覧ください。

Devinとは？

Devinとは、Cognition.aiの「世界初のソフトウェア開発AIエージェント」です。特徴は、質問に答えるだけにとどまらず、プロンプトから実際に成果物(コード)を作り、動作確認をして、プルリクエスト作成という、開発における一連の流れをDevinだけで完結できる点です。
これまでの多くのAIコーディング支援は「コパイロット型」がメインで、開発に関わる一部タスクの自動化(主にプログラミング)が限界でした。
しかしDevinは「エージェント型」であるため、現状のコードを分析した上でプロンプトからタスクを組み立て、ゴールに向けて自動的に複数のタスクを実行してくれます。そのため、

依存機能のバージョンアップ対応(例：javaバージョンアップ)
全体に関わるリファクタリング(例：言語やフレームワークの変更)
新規機能の追加
PoCやモックの作成

といった、比較的規模の大きい対応であっても、1つのプロンプトで解決することが可能です。そのため「優秀なエンジニアを雇う」感覚でツール導入が可能とあり、大きく注目を浴びています。

Devin検討時の注意点

始めに注意点として、Devinに無料プランは存在しません。Devinでコードの生成等を行うには「ACU」というクレジットを消費します。このACUに無償枠が存在しないため、AI機能の活用には基本的にクレジット購入(プラン加入)が必要になります。そのためちょっとした検証の場合でも機能によってはプラン加入やACUの購入が必須となりますので、ご注意ください。
しかし一部機能はACU消費せず利用可能なため(詳細後述)、そこに絞った検証/利用でれば可能です。

１.png

1ACUの価格はプランによって異なりますが、およそ1ACU = 2.25 USD～2.00 USD相当です。プラン毎に購入時に対応するACUが割り当てられ(Coreプランであれば約8ACU)、月途中で全て消費してしまった場合は追加購入が可能になっています。

今回はCoreプランで検証しています。
また追加の注意点として、UIの日本語化はされておりません。※日本語での指示は可能です

開始方法

プラン選択(ACU購入と並行)から開始する方法と、ACU購入なしの状態で開始する方法がありますが、今回は後者で説明していきます。
Devin公式HPに飛び、右上の「Get started」をクリックします。

するとログインアカウントの作成方法が表示されますので、お好きな方法を選択してください。
メールアドレスで作成した場合、ログイン時にはメールアドレスに飛んでくる一時パスワードでのログインになります。

アカウントが正常に作成されるとDevin画面が表示されます。この画面で「Agentモード(ACUを消費し実際にコード生成やPR作成等の作業を実行させる)」、「Askモード(ACU消費なしでリポジトリコード等に対しての質問)での対話が可能になっています。

しかしこの状況ではACUが０でAgentモードでの各種操作が不可能なため、ACU購入(プラン加入)を行っていきます。
左下の歯車マークをクリックし、表示されるスライドバーでBilling＞Plansを選択します。

プラン一覧が表示されるため、加入したいプランの「Subscribe」をクリックしてください。今回は既にCoreプラン加入済みのためCoreプランに「Active」と表示されていますが、未加入の場合はTeamプラン同様に「Subscribe」ボタンが表示されます。

その後支払い処理を済ませると、プランに応じたACUが払い出されます。この状態になって初めて、Agentモードが実行可能になります。

０からアプリケーション作成

Agentモードでプロンプトを実行していきましょう。Agentモード(コード生成あり/ACU消費あり)で実行していきます。
今回、ACU消費を抑えるためにテスト用コードの生成や自動テストはしないよう指示しています。実際の開発では(一度に全てでなくても)この部分まで実装する必要がありますが、検証時にはこのような方法もテクニックの一つです。

作成が開始されると、Devinが自動でタスクを組み立てます。そしてそのタスクが順次実行されていくのですが、リアルタイムで現在何を行っているか、何が生成されたかを確認することができます。

またログでは各実行に対する消費ACUが細かく表示されます。(確認したい出力に対しマウスオーバーすると表示されます)

リアルタイムログに関しては、下図右側が確認するためのウィンドウとなります。

具体的には以下のような項目が確認ができます。またすべての項目に対して「リアルタイム表示」と「巻き戻し」が可能なため、後からログを確認することも可能です。

１．Diff：何を変えた？

実行中に変更したコードの一覧が表示されます。どのファイルがどのように変更されたかを確認できるため、不要な修正や意図しない修正が行われていないかを確認できます。

２．Worklog：何をしている？

実行中タスクについて、概要やアクションが表示されます。人間に向けた状況説明であり、「ちゃんと動いているか」「このまま進めてよいか」を一目で確認できます。

３．Shell：何を実行？

Devinが実行した実際のコマンド(環境操作 / 実行結果)が表示されます。完全なログのため、エラー原因やDevin実行結果の監査に役立ちます。また出力されているコマンドをコピペすることで、手動環境で再現することも可能になっています。

４．IDE：何を作った？

編集されたファイルやコード差分をIDE形式で表示します。IDE形式のためフォルダ構成まで把握した状態でコードを確認可能なのが嬉しいポイントです。またコードをリアルタイムで確認することにより瞬時のレビューを可能にし、ブラックボックス化を防ぎます。

５．Desktop：何を調べた？

Devinが内部ブラウザにて開いたり操作したWeb ページを記録します。これによりDevinの調査 / 確認行動の可視化が可能です。作成されたアプリケーションの動作確認でも使用されます。
人間が操作することも可能なため、画面遷移やサーバー起動をすることなく、生成結果を可視化し確認することも可能になっています。

このように細かな実行内容をリアルタイムで表示してくれるため、生成物に対する判断や、作業途中での方向修正や一時停止の判断がしやすくなっています。

アプリケーションが完成すると、レビュー(Devin Review)へのリンクが表示されます。クリックすると

何を修正したかの概要
生成物が正しく作成されているかを確認するためにどのようなことを動作確認する必要があるか(試験項目)
実際に修正したファイルの差分

といったレビューに必要な情報を1画面で確認することができます。
試験項目について、実際に動作確認する必要がある内容を先ほど紹介した内部ブラウザを使えば、Devin内での完結が可能です。

レビュー1.png

レビュー１.png

DevinではDevinが実行者、人間はレビューと要件定義という形式がメインなのですが、レビューを正しく行うために必要な情報(エビデンスやログ)が揃っている画面です。これを複数ツール連携で実現している場合は情報が散らばってしまい確認が複雑になりがちなので、1ツールで完結するDevinの強みの一部になっています。

また内部ブラウザで自動実行された内容も、実施内容とその結果のエビデンスとして画面スクリーンショットが添付された状態で出力されます。変更内容から項目作成→実行→結果報告の全てを自律的に、且つ１つのプロンプトで行ってくれる点にとてもエージェントを感じました。

テスト.png

※今回は画面操作テスト(動的テスト)のみですが、コード内にテストコード(静的テスト)が含まれる場合はその内容も自動実行されます。また変更内容に沿ったテストコードもコード変更と同時に生成→同じセッションで実行という流れも可能です

今回はPRの作成まで依頼していたため、実際のGitHub画面へのリンクも表示されます。

また修正して欲しい内容がある場合、GitHub上でこのPRにコメントをするだけでDevinが自動で検知し、内容を確認し、その内容で再度タスクを実行してくれます。
これは例えばチーム内でDevinアカウントを持っているのが開発者のみで承認を行うマネージャーは持っていない場合、マネージャーはGitHubからPRに対してだけ操作を行えば良いというメリットがあります。

コメント.png

実行.png

実際に作成されたアプリケーション(一部抜粋)がこちらです。
今回はACU節約のためにUIはだいぶ簡易ではありますが、動きは想像していた通りにできていました。グラフの表示など、シンプルながら見やすいものになっています。
またコード自体もしっかりと階層分けされていて、見やすく保守しやすい内容になっていると感じました。

画面１.png 画面２.png

その他便利機能

その他、AIエージェントでの開発を加速させるDevinの各種便利機能について、一部の概要をご紹介します。

１．DeepWiki

・リポジトリ全体のWikiをインデックスや図解まで含めて自動生成する機能
・ACU消費なしで利用可能
・ただし現状において自動生成は英語のみ

２．Knowledge

・Devinに自律実行する際に事前に教えておく(実行時に参照する)内容を定義する機能
・ASKやAgentで実行した内容から必要箇所を抜き出し、自動生成することも可能
・主にプロジェクト固有ルール、設計方針、社内規約、技術的制約といったプロジェクトに特化した内容を定義

３．Playbooks

・Devinが自律実行する作業フローをテンプレート化し、組織共有可能にする機能
・ASKやAgentで実行した内容から必要箇所を抜き出し、自動生成することも可能
・Knowledgeと合わせ、Devinを自組織専用のエージェントとして育てることが可能
・主に作業手順、判断基準、完了条件といったプロジェクトに特化しない内容を定義

４．MCP Marketplace

・DevinにサードパーティーツールのMCPを連携できる機能
・「Add Your Own」でカスタムMCPサーバーを追加可能
・「Test listing tools」を実行すると、Devinが分離されたテスト環境でサーバーに接続し、利用可能ツールの検出と接続テストが可能

５．JiraやSlack、Teamsとの連携

・UIからの設定で各種ツールと連携が可能
・各種ツールからDevinを呼び出し、リポジトリに関する質問や作業指示を行うことが可能
・Devinにアクセスしなくても、各種ツールをスマフォで使用すれば出先等でもDevinを使用することが可能連携.png

６．Machine snapshot

・Devinが作業している仮想開発環境の状態を丸ごと保存 / 復元できる機能
・完全に記録されているため、実行に失敗した際に即前環境にロールバック可能
・スナップショットにはOS、パッケージ、依存関係、インストール済みツール(SDK、CLI など)、リポジトリの状態、ビルド成果物、中間ファイル、Devin が実行中の作業コンテキストなどが含まれる

まとめと感想

Devinを触ってみてまず感じたのは、「エージェントとして機能するならこういうのが欲しかった」がかなり素直に形になっている点でした。
必要な機能がひとつにまとまっていて、UIの導線も分かりやすい。さらに大規模な生成や処理を前提にした作りなので、最初の立ち上がり難易度が低く、検証を始めるまでの心理的ハードルもあまりありません。まず動かして、成果物を見ながら確認できるという体験は素直にありがたいです。

一方で、使っていくほど現実的に効いてくるのがコスト感です。
ACUを意識すると、「何回も作り直して当てにいく」使い方はあまり現実的ではありません。要件がふわっとした状態で試行錯誤を繰り返すよりも、目的やアウトプットの形、技術的な下地がある程度固まっている状況(=主に開発者側が前提を握れている状況)で使ったほうが、費用対効果を感じやすいタイプだと思います。

加えて、使用するモデルを自由に選べない点も、AIを日常的に深く触っている人ほど気になるかもしれません。開発とAI活用を本気で最適化したい場合、Devinひとつで全部を賄うより、純正のモデルと周辺ツールを組み合わせて自動化したほうがコスト効率が最高率になりやすい、というのが現状の印象です。
ただし、裏側の指示(プロンプト設計など)がある程度最適化された状態で提供されていて、その恩恵をUIから自然に受けられるのは大きな魅力です。「自分で全部組まなくても、一定レベルの型が最初から入っている」という価値は、チームで使うほど効いてきます。

使い方の構造としては、かなり割り切りが明確です。
作業はDevin、意思決定と判断は人間。完全に分業されている感覚があります。Devinは判断のための材料を豊富に出してくれるし、関連情報や手戻りのためのログも含めて、作業に必要なものが基本的にDevinの中に収まる。そういった意味では「判断する側」が動きやすいように環境を整えてくれるツールでもあります。
逆に言うと、ガッツリ手でコーディングする体験はあまり想定されていない印象です。
機能としては用意されているものの、日常的にIDEで書くような快適さは期待しないほうがよさそうです。Devinに任せるところは任せ、こちらはレビューと方向づけに集中する、という前提で割り切ると納得感が出ます。

では、どんな案件や組織に向いているかというと、おすすめは「機械的に判断できる」「大規模or定期的に実行する」タイプの仕事です。
たとえば、リファクタリングが多い開発や、規模は大きいけれど難易度(新規技術や高度なセキュリティ担保)が突出して高くない案件です。もしくはアイデアとスピード勝負でとにかく早くリリースして検証したい場面でも力が出そうです。
運用面では、定期的な脆弱性対応やアップデート追従のようなタスクにも相性が良いと感じました。売上はあるし人は必要だけど、プロジェクトとして大きな成長は見込みにくいという領域で、人的リソースの使い方を変える選択肢になり得ます。
組織の観点では、開発チームを多く抱えるエンタープライズ企業はもちろん、フリーランスのように「一人で回す範囲を増やしたい」立場にもフィットすると思います。

最後に、分かれ道になりそうなのは「AI(エージェント)がどこまで一般化するか」という点かもしれません。
AI前提の開発が当たり前になっていくほど、Devinのような「統合された体験」の価値は上がります。一方で、最適化を突き詰める層は引き続き、モデルやツールを組み合わせた独自の自動化に寄っていくと個人的には考えています。

今回の検証ではDevinはその真ん中で、「AIエージェント活用を前に進めるための実用的な形」を提供しているのではないかと、そんな位置づけに見えました。

開発(DevOps)に関わる情報はこちらから

DevOpsHub