BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Amazon SageMaker JumpStartがBria AIのテキスト画像変換モデルでポートフォリオを拡大

Amazon SageMaker JumpStartがBria AIのテキスト画像変換モデルでポートフォリオを拡大

原文リンク(2024-11-06)

Amazon Web Servicesは、Bria AIの最新のテキストから画像への基礎モデルをAmazon SageMaker JumpStart統合し、エンタープライズグレードの生成AI機能を大幅に拡張した。今回の追加には、Bria 2.3Bria 2.2 HDBria 2.3 Fastの3つのバリエーションが含まれ、それぞれがビジュアルコンテンツ生成における特定の企業ニーズに対応するように設計されている。

この動きにより、Bria AIのビジュアルコンテンツは、より多くの開発者や企業に提供されることになる。Briaは、「商用グレードのライセンス・データを使用し、完全な法的補償を伴う高水準の安全性とコンプライアンスを提供する」トレーニングが、AI生成コンテンツに関する企業の重大な懸念に対処すると主張している。

Bria 2.3は、様々なアートスタイルにわたるフォトリアリズムとディテールレンダリングに焦点を当てたコアモデルとして機能する。Bria 2.2 HDは、高解像度出力に特化し、高解像度アプリケーションの要求を満たす「鮮明でクリア」なディテールを約束する。SageMaker g5インスタンスにデプロイされたBria 2.3 Fastは、Bria 2.3およびBria 2.2 HDと比較して、レイテンシおよびスループットの向上を実現する。p4dインスタンスを使用してデプロイすることで、レイテンシをさらに半減させることができる。

Bria 2.3の基本モデルは、/text-to-image/baseエンドポイントを通じてアクセス可能だ。このモデルは、controlnet_cannycontrolnet_depthcontrolnet_recoloringcontrolnet_color_gridの4つのガイダンスメソッドを実装しており、それぞれが出力生成プロセスに対する明確な制御メカニズムを提供する。Bria 2.3 Fastは、/text-to-image/fastエンドポイントを通じてアクセス可能な、パフォーマンスを最適化したバリアントである。このモデルは、より速い応答時間を達成するために、Latent Consistency Model(LCM)知識蒸留技術を採用している。text-to-image/hdエンドポイントからアクセスできるBria 2.2 HDは、高解像度出力生成を実現する。このモデルは、2つの特定の解像度構成をサポートしている。標準アスペクト比用の1920x1080ピクセルと、正方形フォーマット出力用の1536x1536ピクセルである。

Amazon SageMaker JumpStartは、ML実践者がネットワークから隔離されたSageMaker インスタンス上に展開できる、幅広い基盤モデル(FM)を提供する。実務家は、Amazon SageMaker StudioインターフェースまたはSageMaker Python SDKを通じてアクセスできる、モデルのトレーニングおよびデプロイメント用のSageMakerの統合ツールを使用して、これらのモデルをカスタマイズできる。SageMaker JumpStartは、Amazon SageMaker PipelinesDebugger、コンテナログなどの機能を使用して、包括的なモデルパフォーマンス追跡とMLOpsコントロールをサポートし、ML ワークフローの管理と最適化を容易にする。

この統合はSageMaker JumpStartのインフラストラクチャを使用するため、組織はこれらのモデルを仮想プライベートクラウド(VPC)環境内に展開できる。Bria モデルは、SageMaker JumpStartが利用可能な 22 の AWS リージョンにおいて、SageMaker Studioでのデプロイと推論が本日から利用可能である。Bria モデルのデプロイには g5およびp4 インスタンスが必要である。

開発者はJumpStartのナビゲーション ペインからBriaモデルにアクセスができ、そこでライセンス、トレーニングデータの情報、デプロイオプションを含むモデルの詳細を見ることができる。このプラットフォームは、デプロイの前にAWS Marketplaceのサブスクリプションを必要とし、そのプロセスで初期設定とエンドポイント設定の両方を処理する。

デプロイメントワークフローは、複数の起動方法を通じてAWSのインフラと統合されており、SageMakerコンソールはもっとも簡単な方法を提供している。システムは、ml.g5.2xlarge、ml.g5.12xlarge、ml.g5.48xlarge、ml.p4d.24xlarge、ml.p4de.24xlargeの5つのインスタンスタイプをサポートしており、適切なアカウントレベルのサービス制限が必要となる。インスタンスタイプを選択した後、ユーザはエンドポイント設定を作成し、SageMakerがインフラストラクチャのプロビジョニングを管理しながらモデルをデプロイする。

テスト機能は、SageMaker Studioのインターフェースとノートブック環境の両方を通じて利用可能だ。このプラットフォームは、サンプルリクエストペイロードによる推論をサポートしており、スタジオインターフェイスは即座に視覚的なフィードバックを提供する。プログラムによるアクセスでは、開発者はSageMaker Python SDKを利用して配備されたエンドポイントと対話し、既存のワークフローやアプリケーションへの統合を可能にする。

このモデルは、詳細なプロンプトから画像を生成する能力に特に優れていると主張している。「写真、ダイナミック、街中、プロの男性スケートボーダー、サングラス、ティールとオレンジの色合い」、「流れるような巻き髪の若い女性が地下鉄のホームに立っており、高速で走る電車の鮮やかなライトに照らされている、紫とシアンの色」「居心地の良い明るい部屋の中で、木の枝にとまる青と緑の鮮やかなオウムのクローズアップ」「青と紫のネオンカラーとビルを背景にした光速の動き」は、複雑な視覚的コンセプトとスタイルの方向性を強く理解していることを示すイメージを生み出した。

出典:Briaモデルが生成した画像

クラウドアナリストのToni Witt emphasized氏は、「Briaプラットフォームのアウトプットは著作権法を侵害していない」と強調した。アーティスト、リポジトリ、メディア企業からライセンスを受け、トレーニングデータ(画像セット)は、再び出力に現れる可能性のある有害なデータを除外するため、高度に吟味されている」と述べた。

Intel Capitalの投資ディレクター、Aravind Bharadwaj氏は次のように説明する。「モデルのトレーニングのために、あらゆるデータを無差別にウェブからかき集めるのではなく、承認されたデータソースだけを使うとしたらどうだろう?コンテンツ作成者に帰属表示と使用に対する金銭的補償が提供されるとしたらどうだろう?プラットフォームの利用者が、不注意で他人の著作権を侵害する心配がなくなったらどうだろう?これらは、BRIAの創設者たちが自問自答したことであり、BRIAが構築された基本的な原則である。」

シリアルアントレプレナーであり、PhotoroomのアドバイザーでもあるGabrielle Chou氏は、次のように注意を促している。「これらの最近の動きは、AIトレーニングにおける著作物の利用をめぐる法的・倫理的状況の進化を強調している。しかし、GenAIの技術を採用しようとしている企業にとっては、責任を持ってこれらの課題を乗り越えながらイノベーションをリードするエキサイティングな機会を提供している」と述べている。

AWSで利用できることに加え、BriaモデルはHugging FaceとNVIDIAのNIMカタログを通じて利用できる。開発者や組織は、プレイグラウンド環境で無償で探索・実行もでき、コミットメントの前に実験できる。商用のテキスト・画像変換分野におけるBriaの競合も紹介しておく。

作者について

この記事に星をつける

おすすめ度
スタイル

BT