初の AI ベースのソフトウェア エンジニアが現実になります。シリコンバレーの新興企業である Cognition Labs は、問題を解決し、複雑なエンジニアリング タスクを計画および実行できる人工知能である Devin を導入しました。新しい開発者は完全に自律的であり、他のプログラマーと作業チームに参加できます。
コグニションによると、デビンは何千もの意思決定を必要とするタスクを実行でき、各ステップのコンテキストを記憶でき、エラーを修正する方法を学習します。副操縦士とは異なりますその作成者は、コード エディター、シェル、ブラウザーなどの一般的なツールを隔離された環境内に備えています。
Cognition Labs は、Devin の実際のスキルを示す一連のビデオを公開しました。一般的に、この AI は単純なテキスト コマンド (プロンプト) を通じてアクションを実行できます。ゲームやアプリの開発を依頼したり、未知のテクノロジーの使用方法を学んだりすることができます。 Devin は作業チームにも参加し、本番リポジトリに貢献したり、コードのバグの発見を手伝ったりしています。
おそらく最も恐ろしいのは、デビンが他の人工知能モデルを訓練し、改良できることです。 1 つの例では、Github リポジトリと一連のテキスト指示から Llama 7B モデルの微調整を構成するように求められます。プロンプトを送信することで、仮想エンジニアはリポジトリのクローンを作成し、コードを分析してトレーニングを実行します。エラーが見つかった場合、Devin は環境を調査して解決策を見つけます。
デビンの AI は人間のソフトウェア エンジニアに取って代わることはありません (今のところ)
言及しておくべき重要なことは、少なくとも現時点では、 Devin は他のプログラマーの仕事に対する潜在的な脅威ではないということです。 Cognition は、GitHub リポジトリで見つかった実際の問題を解決するためのベンチマークである SWE ベンチを通じて人工知能を評価しました。初期のデータによると、デビンは最初から最後まで問題の 13.86% を正しく解決しました。
割合は低いですが、Devin は Claude 2、GPT-4、SWE-Llama 13 GB および 7B、ChatGPT 3.5 などの言語モデルよりも優れています。
この人工知能の興味深い点は、Upwork 上でジョブを実行できることです。 Devin はプロジェクトの指示を考慮してコードを書いてデバッグするため、一部の初心者プログラマーは追加収入の恩恵を受けることができます。
Devin は開発中であるため、すべてのユーザーが利用できるわけではありません。 Cognition は、プログラマーのスタッフを置き換えることはできないことを認識していますが、実際の環境でテストするための申請を受け付けています。
ブルームバーグによると、コグニション社はプログラミングコンテストで金メダルを獲得したエンジニアで構成されているという。 OpenAI や他の巨大企業とは異なり、チームは小規模であり、全員がリモートで作業しています。デビンとの協力により、2,100 万ドルの投資と一部の業界リーダーの支援が保証されました。
参考資料一覧
- https://www.bloomberg.com/news/newsletters/2024-03-12/cognition-ai-s-devin-assistant-can-build-websites-videos-from-a-prompt
- https://www.cognition-labs.com/ブログ
