先日、ミッドジャーニー(Midjourney)の最新Versionが搭載されました。
Version 5.1(v 5.1)とVersion 5.1 rawモード(v 5.1 style raw)ですね。
これらは一体どのような特徴があるのでしょうか?
以下で詳しく解説していきます。
Version5.1(v 5.1)の使い方
v 5.1の使い方について解説します。
「/settings」と入力して、上図のような設定画面を表示させます。
現在のところ、ミッドジャーニー(Midjourney)のバージョンは、「Version5.1」がデフォルトに指定されています。
そのため、「MJ version 5.1」が緑色に選択されていることを確認してください。
「MJ version 5.1」が選択されていれば、それ以降の画像は、Version5.1で出力されます。
パラメーターは「--v 5.1」
Version5.1のパラメーターは「--v 5.1」となっています。
他のVersion使用時に、少しだけVersion5.1を使用したいときなどは、「--v 5.1」のパラメーターを入力しましょう。
Version5.1(v 5.1)は芸術性が高い
Version5.1の特徴について解説します。
芸術性が高い
Version5.1は、他のVersionに比べて芸術性が高く設定されています。
芸術性が高いというのは、プロンプトに対して、ミッドジャーニー(Midjourney)側の主張が強いということです。
特に、短いプロンプトに対して、ミッドジャーニー(Midjourney)が独自の見解で、芸術性の高い画像を出力する傾向にあります。
Version5と比較してみましょう。
Version5
Version5で作成しています。
プロンプトは「fire」のみです。
炎が表現されてはいますが、面白みに欠ける画像が多いと感じます。
Version5.1
Version5.1で作成。
プロンプトは同じく「fire」のみです。
どの画像にも人物が登場しており、何かを訴えかけるような迫力があります。
Version5
Version5で作成しています。
プロンプトは「dog and cat」です。
プロンプト通りに犬と猫が登場しています。
写実的な画像となりやすいです。
Version5.1
Version5.1で作成。
プロンプトは同じく「dog and cat」です。
イラスト的な画像も見られます。
物語性を感じる画像が多くなるのが特徴です。
以上のように、Version5.1では、短いプロンプトであっても、ミッドジャーニー(Midjourney)がスタイリッシュな画像に仕上げてくれます。
イラスト的な描写や、芸術性のある絵を出力するのに向いています。
Version5.1(v 5.1)の文章の長さと複雑性について
Version5.1では文章の長さや、複雑性にどのように対応しているか解説します。
長文の場合
長文の場合はどのようになるでしょうか?
以下のような文章を英訳して試します。
Version5
Version5で作成しています。
下のVersion5.1をご覧ください。
Version5.1
Version5.1で作成しています。
長文で細かく状況を指定した場合は、それほど両者の間に絵の変化は感じられません。
複雑なプロンプトについて
続いて、
という、AIにとっては画像にしづらそうな文言で出力してもらいます。
これは、「ロケットで宇宙に旅に出る」ということと、「宇宙人と出会う」という2つのシーンが含まれており、AIが一枚の絵にするのは難しいと予想されます。
英訳すると以下のようになります。
Version5
Version5で作成しています。
「男と女がロケットで宇宙に旅に出て、宇宙人と出会った」というイメージとはほど遠い画像になっています。
男と女しか現れていない画像もありますし、宇宙人しかいない画像もあります。
Version5.1
Version5.1で作成しています。
こちらもイラストとしては面白いですが、「男と女がロケットで宇宙に旅に出て、宇宙人と出会った」というイメージとは少し違います。
以上のように、Version5とVersion5.1ともに、少し複雑な文章を出力するのは苦手であることがわかります。
シーンはひとつだけ
Versionの話から逸脱しますが、画像生成する際のプロンプトに含まれるシーンは、ひとつに絞ると良いと思います。
「男と女がロケットで宇宙に旅に出て、宇宙人と出会った」というのを分解して、
- 「男と女がロケットで宇宙に旅に出る」
- 「男と女が宇宙人と出会った」
という風に、2つに分けて、それぞれを出力すると上手くいきやすいことが分かります。
Version5「男と女がロケットで宇宙に旅に出る」
Version5で作成しています。
「男と女がロケットで宇宙に旅に出る」というプロンプトを英訳して使用しています。
Version5.1「男と女がロケットで宇宙に旅に出る」」
Version5.1で作成しています。
「男と女がロケットで宇宙に旅に出る」というプロンプトを英訳して使用しています。
Version5と5.1ともに、プロンプトの指示通りの画像ですが、Version5.1のほうがやはり芸術的です。
Version5「男と女が宇宙人と出会った」
Version5で作成しています。
「男と女が宇宙人と出会った」というプロンプトを英訳して使用しています。
かなり忠実にプロンプトを再現しています。
Version5.1「男と女が宇宙人と出会った」
Version5.1で作成しています。
「男と女が宇宙人と出会った」というプロンプトを英訳して使用しています。
どの画像も不気味なテイストが加えられています。
1番目と3番目の画像はプロンプトの指示に忠実です。
ということで、ミッドジャーニー(Midjourney)も凄まじい進歩を遂げていますが、複雑なプロンプトを処理するのはまだ難しい所もあります。
どうしても複雑なシチュエーションを描きたい時は、以上のように元のプロンプトを分解して画像を出力し、それぞれをブレンド機能で合成する方法があります。
ブレンド機能を使って2つの画像を合成
分解したプロンプトで作成された2つの画像を使って、上図のように「/blend」を使用して強引に合成してみます。
上図がブレンドの結果です。
ブレンド機能を使用することで、「男と女がロケットで宇宙に旅に出て、宇宙人と出会った」という元のプロンプトの指示を、ある程度反映させることが出来ます。
閑話休題、かなりVersion5.1の話からは逸れてしまいました。
Version5.1(v 5.1)はフチが出現しづらい
Version5.1では、画像の周りを覆うフチが出現しづらい傾向があります。
フチというのは、上の画像の左右にある黒い帯のようなものです。
上の画像は上下に帯が出ています。
こういったフチが、Version5.1では若干出現しづらくなっています。
Version5.1(v 5.1)はサインが出現しづらい
Version5.1では、上図の赤丸内にあるサインのようなテキストが出現しづらくなっています。
上図の画像はVersion5で作成しています。
Version5.1(v 5.1)は歯の表現が秀逸
上の画像はVersion5.1で作成しています。
歯が描写されていますが、特に違和感がありません。
上の画像はVersion5で作成しています。
歯の配置がズレていたり、歯の数が多かったりして、不安定な画像が多いです。
Version5.1になって歯の安定感がかなり向上しています。
Version5.1(v 5.1)はシャープネスが向上
Version5.1になったことにより、シャープネス(明瞭さ)が向上しました。
シャープネスの向上により、細部がぼやけている画像が改善されています。
Version5
Version5で作成しています。
プロンプトは「samurai Photorealistic」です。
Version5.1
Version5.1で作成しています。
プロンプトは同じく「samurai Photorealistic」です。
Version5の侍は若干ぼやけていますが、Version5.1の侍はクッキリと描かれていることが確認できます。
RAWモードの使い方
RAWモードの使い方について解説します。
「/settings」から、上図のような設定画面を表示させます。
「RAW Mode」を選択します。
そうすると、以降はRAWモードで画像が出力されます。
パラーメーターは「--v 6 --style raw」
RAWモードのパラメーターは「--v 6 --style raw」となっています(--v 5.1以降で使用可能)。
ちなみに「--v 6 --style raw」の順番は問いません。
「--style raw --ar 19:6 --seed 1042 --v 6」などのように、パラメーター群の中に「--v 6」と「--style raw」を適当に放り込んでも、RAWモードとして機能します。
RAWモードとは何か?
「RAW(ロウ)」というのは「生(なま)」という意味です。
デジタルカメラのデータに「RAWデータ」というものがあります。
デジタルカメラで写真を撮った際に、光の情報をそのまま記録したものがRAW データとなります。
RAWデータは高品質ですが容量が非常に大きいです。
そのため、カメラで撮影すると「RAWデータ→JPEG」などの順に変換・圧縮されてメモリに保存されるのが一般的です。
つまり、「RAWデータ」はJPEGなどに変換・圧縮される前の「未加工(生)」のデータです。
ミッドジャーニー(Midjourney)においてのRAWモードも「未加工」という意味で使用されていると思います。
プロンプトに対して、ミッドジャーニー(Midjourney)が独自の芸術性を発揮せずに、未加工のような状態で画像を出力します。
要するに、プロンプトに忠実に画像を生成するのが「RAWモード」だと考えられます。
これは、前述したVersion5とよく似た性質を有していることになります。
Version5もRAWモードも共に、プロンプトに忠実で、芸術性は控えめになっており、より写実的・明瞭な画像になりやすいです。
「母との再会」(RAWモード)
プロンプト「Reunion with mother」
「転げ落ちるリンゴ」(RAWモード)
プロンプト「The apple tumbles down.」
「男と女が宇宙人と出会った」(RAWモード)
プロンプト「A man and a woman meet an alien.」
「女性の笑顔」(RAWモード)
プロンプト「Close-up of a woman smiling.」
無数の人々(RAWモード)
プロンプト「Countless people」
以上は全てRAWモードで作成しています。
基本的にはVersion5と同じ性質を持ちますが、若干の芸術性は担保されているように思えます。
写実的で少しだけ映画的な画像を作る際にはRAWモードが適していると思います。
複雑なプロンプトは苦手
RAWモードでも「男と女がロケットで宇宙に旅に出て、宇宙人と出会った」というプロンプトを試してます。
プロンプト「A man and a woman travel to space in a rocket and meet an alien.」
上図のようになり、宇宙人が登場しない等、意図したイメージになりませんでした。
RAWモードも複雑なプロンプトはやはり苦手なので、長文にする際はシーンをひとつに絞ったり、ブレンド機能を活用したりしましょう。
まとめ
- v5.1がデフォルトになった
- v5.1は短いプロンプトでも芸術的に描いてくれる
- v5.1はフチが出現しづらい
- v5.1はサインが出現しづらい
- v5.1は歯の描写が安定
- v5.1はシャープネスが向上
- RAWモードはプロンプトに忠実・芸術性は低く、写実的になりやすい
- v5.1もRAWモードも複雑なプロンプトには弱い
以上、Version5.1とRAWモードについての解説でした。