MidjourneyとChatGPT DALL·E 3を比較してみた
AI
2023年10月23日
先日、ChatGPTに画像生成AIのDALL·E 3が統合されました。そこで今回は以前紹介したMidjourneyとChatGPTに統合されたDALLE·E3を比較していきます。
目次
使用方法について
まずはじめにChatGPTでDALLE·E3を使うには有料プランのChatGPT Plusを契約する必要があります。もし、有料プランを契約しているのならブラウザ経由ですぐに利用することができます。
一方、Midjourneyは現在は有料プランしかありませんので有料プランに加入していただき、Discord経由で画像を生成します。
どちらもサブスクの有料プランに加入する必要はありますが、Webブラウザですぐにはじめられる、ChatGPTのほうが敷居が低いですね。
プロンプトの入力比較
Midjourneyは英語でプロントを入力する必要があります。一方ChatGPTのほうは日本語で会話形式の入力になります。生成された画像の修正もチャット形式で指示すればいいので楽ですね。
↑プロンプト:東京タワーの生成結果
↓生成結果に日本語で「1番目の東京タワーを夜景に修正して」と入力した結果。
実際に生成した画像の比較
ChatGPT DALL·E 3は日本語で会話形式で画像を生成してくれますが、今回はMidjourneyと比較するため以前に「ミッドジャーニーでリアルな画像をChatGPTを使って作る方法」で使用したプロントンを使います。
こちらが出力結果です。
1つ目は以前の記事で生成したMidjourneyの画像です。肌の質感や背景のボケ感などとてもリアルに表現できています。
使用したプロンプトは以下の内容になります。
A 20-something Japanese woman, lost in thought, stands still at the iconic Shibuya crossing. Medium: Hyper-realistic photography. Style: Reminiscent of the cinematic scenes from “Lost in Translation”, capturing the solitude in a crowd. Lighting: Ambient city lights with a hint of sunset in the background. Colours: Urban greys and blacks with splashes of vibrant Tokyo neon. Composition: Nikon Z7 II, using a NIKKOR Z 85mm f/1.8 S lens, Resolution 45.7 megapixels, ISO sensitivity: 320, Shutter speed 1/100 second, focusing on the woman with a shallow depth of field to make her stand out against the bustling backdrop. –ar 16:9 –v 5.1 –style raw –q 2 –s 750
翻訳するとこのようになります。
東京・渋谷の雑踏の中に佇む20代の若い日本人女性。彼女はどっしりと構えており、周囲の群衆の動きとは対照的だ。媒体: フォトリアリスティック写真。スタイル: 森山大道の作品を想起させ、日本の都会のエッセンスを捉えている。照明: 夕暮れ時、看板のネオンが彼女の顔に柔らかな光を投げかけている。色彩: 都会的な落ち着いた色調にネオンのポップさ。構図: キヤノンEOS R5、RF 50mm F1.2L USMレンズ、解像度45メガピクセル、ISO感度:400、シャッタースピード1/125秒。–ar 16:9 –v 5.1 –スタイルRAW –q 2 –s 750
続いて、ChatGPTのDALL·E 3。正直どれも微妙ですね。
1枚目を拡大した画像
Midjourneyと比べリアル感が足りないのと、背景のボケている感じも雑に感じます。
現状、人物描写に関しては圧倒的にMidjourneyに軍配が上がります。