Audiの研究陣は、自動運転車のためのAudi Autonomous Driving Dataset(A2D2)をリリースした。同データセットには、カメライメージ、LiDARポイントクラウド、車両制御情報に加えて、教師あり学習(supervised learning)用にセグメント化とラベル付けされた40,000以上のフレームが含まれており、商用での利用も可能である。
研究チームはデータセットについての説明と合わせて、arXiv上の論文で公開されている同種のデータセットとの比較を行っている。A2D2は6台のカメラ、5台のLiDARユニットを使ってキャプチャされた情報に加えて、ステアリングやスロットルコントロールの状態、さらに速度や加速度情報も含むビークルバス(vehicle bus)情報で構成されている。セマンティックセグメンテーションによるイメージおよびポイントクラウドラベルを含む41,277のフレームは、すべてのピクセルに"歩行者(pedestrian)"や"トラック(truck)"など38のラベルのひとつが割り当てられている。その中の12,497フレームには、オブジェクトの3D境界ボックスも含まれる。データセットはCC BY-ND 4.0ライセンス下で公開されており、ライセンスの条件に従うことで商用目的での利用も可能である。研究チームは言う。
イノベーションを促進し、研究コミュニティに積極的に参加するという私たちの信念に従って、研究促進のためにA2D2をリリースします。
データ収集プラットフォームとして使用したAudi Q7 e-tronは、屋根の上にラックマウントした6台のカメラと5台のLiDARユニットを備える。3台のカメラが前方、1台が後方、2台が各側面を向くことで、360度をカバーする。3台のLiDARユニットは前方1台と後方2台という構成だ。LiDARのスキャンパターンはカメラのイメージと最大限にオーバーラップするように設定されており、車両情報の広い領域のスキャンと高層ビルの認識を可能にすることで、データベースを"SLAMおよび3Dマップ生成に適したもの"にしている。さらにデータセットには"拡張"ビークルバスデータも格納されている。チームによると、"私たちの知る限りでは、他のマルチモーダルデータセットで同種のデータを提供しているものはありません。" データの収集は、さまざまな都市部や地方において実施されている。教師あり学習に使用するラベル付きデータに加えて、"自己教師あり(self-supervised)アプローチに適した"390,000の、ラベルのないシーケンシャルフレームも含まれている。
Audiの論文ではA2D2を、昨年リリースされたWaymo Open Dataset(WOD)やLyft Level 5(LL5)など、他の公開されている自動運転データセットと比較している。3つのデータセットは同程度の台数のカメラやLiDARで収集されたものだが、LyftとWaymoのデータセットは都市部でのみキャプチャされたものだ。また、Lyftのデータセットには車両データが含まれず、Waymoには車両速度のみが含まれている点は、A2D2の拡張車両情報とは対照的である。
TwitterやRedditでのコメントも、他の一般公開されている多くの自動運転データセットと異なる点として、商用利用を認めるA2D2のライセンスに注目している。
このデータセットの優れた点は、KITTIやWaymoなどと違い、コマーシャルな開発でもこれを使用可能なことです。これは、CC By-ND 4.0下でライセンスされていることによります。
A2D2, WOD, LL5は、コマーシャルおよびアカデミックを出所として増え続けるデータセット一覧の一部である。Udacityのデータセットでは、同サイトの自動運転車プロジェクトのデータセットのイメージに、"ラベルのない車両が数千件、ラベルのない歩行者が数百件、ラベルのない自転車が数十件"含まれていたことが、先日のニュースで報道されている。これを受けてUdacityはリポジトリを更新して、提供しているデータは"教育目的のみを意図したもの"であり、ユーザには“より新しく、より完全なデータセットを調査する"ように警告している。
AudiのA2D2データセットはプロジェクトサイトからダウンロードが可能で、Jupyterノートブックのチュートリアルも含まれている。