こんにちは、エンジニアの上本です。
先日、GPT-4Vのアップデートの感動が冷めやらぬうちに次は「DALL-E 3」が利用できるようになりました。
※ GPT-4V、DALL-E 3は有料のPlusプランかエンタープライズのユーザに順次提供が開始されます。
DALL-E 3は2023年9月にリリースされた画像生成モデルで、それ単体でも指示文に忠実で高精度な画像を生成する大変優秀なツールです。それがChatGPTに搭載されることで、より便利に使えるようになります。
今回は、実際に触ってみて魅力に感じたことをお伝えします。
指示文の最適化
DALL-E 3で飛躍的に向上した指示分に忠実な画像生成能力ですが、ChatGPTを経由することでより思い描いているものに近い画像が生成されます。
やってほしいことをChatGPTが解釈・最適化して、画像生成するための呪文(プロンプト)に変換、それをDALL-E 3が画像にするイメージです。
これが非常に優秀で、「master piece, best quality , detailed , ((background only))」のような呪文をマスターする必要がなくなりました。
試しに「犬猿の仲を思わせるアニメ調の画像を作って」と指示したところ、日本の慣用句を理解し犬と猿が対立している画像を生成してくれました。
同じDALL-E 3を利用できる「Bing Image Creator」で同じ指示をすると下のようになりました。
犬と猿が描かれていますが、仲がよさそうに感じますね。
対話型の指示
続いては対話型での指示について触れていきます。
これまでの画像生成AIは呪文を書いて→生成、出力結果を見て呪文を調整といったように、画像にどのような影響を与えているのかを考えながら呪文を増減させ試行錯誤していました。
ChatGPTではその煩わしさが解消され、デザイナーにお願いする感覚で調整が可能です。
先程の画像の続きに「白黒のコミック調にして」と指示します。
たったこれだけで、先程のニュアンスを残しつつ指示通りにコミック調になりました。
商用利用可能
何よりうれしいのが商用利用可能な点です。
生成された画像が権利に触れるような場合はアラートを出してくれます。
ちなみに似ているキャラクターであれば生成は可能でした。
あくまで似ているだけです。。
まとめ
いかがだったでしょうか?
画像生成AIは敷居が高いなーっと思っていた方も、グンっと身近に感じられるようになったのではないでしょうか。
まだ提供されているアカウントは限られているようです。「Bing Image Creator」を利用すれば、一足先にDALL-E 3に触れることが出来るのでお試しください!