Microsoft社、マサチューセッツ工科大学(MIT)、プリンストン大学、ペンシルベニア大学ウォートンスクールの研究者らは先日、GitHub Copilotの利用で開発者の生産性が向上するという研究結果を発表した。研究チームは、4,000人以上の開発者を対象とした3つの別々のランダム化比較試験(RCT)を実施し、Copilotを使用した開発者の生産性は26%向上した。
3つの実験は、マイクロソフト社、Accenture社、そして "フォーチュン100に選出された匿名の電子機器を製造する企業"で行われた。研究者たちは、研究に参加した4,867人の開発者それぞれの1週間あたりのプルリクエスト、コミット、コードビルドの回数を測定した。その結果、Copilotを使用した開発者は、1週間あたりに完了したプルリクエストの数が平均で26.08%増加したことがわかった。また、生産性は開発者の経験によっても異なり、経験の浅い開発者ほどCopilotの恩恵を受けていることがわかった。研究チームは次のように述べている。
私たちの研究は、研究室での実験に関する文献、実際の職場環境でのフィールド実験を通して生成AIの影響を調査する研究、これら両方を補完するものです。これまでのところ、フィールド実験を通して生成AIの効果を検証した研究はまだ多くありません。
実験は、GPT-3.5を基盤としたバージョンのCopilotを使い、2022年と2023年に行われた。マイクロソフト社とAccenture社では、実験の参加者から無作為に選ばれた開発者だけがCopilotを使用できた。一方、匿名企業では、すべての開発者にCopilotのアクセス権が付与されたが、各人のアクセス開始日は無作為に設定された。研究チームは、開発者の生産性測定に加えて、Copilotの採用状況と使用状況も調査した。
研究チームは、全開発者、および開発者の勤続年数やスキルレベル別の結果を通して分析した。その結果、在職期間の短い開発者や若手の開発者ほど、Copilotを採用し、1カ月以上使い続ける傾向が強く、これらの開発者ほど、Copilotが生成した出力コードを採用する傾向が強いことがわかった。また、これらの開発者では、Copilotの使用によりもっとも大きな生産性の向上が見られた。
ウォートンスクールのEthan Mollick教授は、Xのスレッドで実験結果を共有し、次のように述べている。
われわれは今、実際の企業でAIを使ったコーディング、マネジメント、起業、執筆で大きな業績向上を証明するランダム化比較試験を行っています。
Hacker Newsでのこの研究についてのディスカッションでは、この論文結果が自身のCopilot使用経験と一致していると話すユーザーが何人かいた。あるユーザーはこう記している。
私にとってこの研究でもっとも興味深いのは、経験レベル別に分けた場合、在職期間が中央以上の開発者は、統計上、大きな生産性の向上が見られないという点です。Copilotは憂さ晴らしや、脳をすっきりさせてより重要度の高い問題に注力するには良いのですが、若手の開発者が言うような世界を変えるまではいきません。また、新米開発者では気づかないような小さな間違いが起こることが多くあります。そのような時は、自身の作業を止めて、新米開発者がおそらく気づかないような方法で、AIが生成した結果のほとんどを調整する必要があります。
従業員、特にソフトウェア開発者の生産性への生成AIの効果は、始まったばかりの研究分野である。今年の初めに、InfoQでは、Upwork Research Instituteが行った調査を取り上げたが、この調査では対象従業員の大半が、生成AIの使用で実際には生産性が低下したと報告している。InfoQはまた、GitHub Copilotが開発者の生産性を向上させたというeBayの研究も取り上げている。