【待望のV5】ミッドジャーニー(Midjourney)の「--v 5(バージョン5)」を解説します。

 

ジャニクラゲ
ジャニクラゲ
こんにちは、スーパージャニクラゲです。

 

2023年3月16日、ミッドジャーニー(Midjourney)に待望のVersion5が搭載されました。

Version4との違いや、Version5の強みはなんなのかについて、以下で解説していきます。

※本記事は主にVersion5のα版についての解説となります。

※3月31日に、Version 5β版の解説を追加しました。

 

 

Version5 の使い方

まずは「Version5」の使い方についてです。

Version5のパラメーターは「--v 5」になります。

 

メッセージ欄の /imagine promt テキストの末尾に「--v 5」をつけると、その画像はVersion5が適用されて出力されます。

 

/settings でVersion 5 にしておく

しばらく「--v 5」を使うことになるのでしたら、「/settings」と打ちこんでエンターキーを押しましょう。

そして、⑤MJ version 5 のボタンをオンにしておきます。

そうすることで、「--v 5」と毎回打ち込まなくても、自動で「--v 5」を末尾に入れてくれます。

 

 

Version 5 の特徴

Version5の特徴はいくつか挙げられます。

 

手指の描写が改善

画像生成AIのかなり苦手な部位として、「手」が挙げられます。

Versionごとに手の描写の精度を見ていきましょう。

 

Version5の握手

上の画像はVersion5で作成した握手の画像です。

指がお互いに5本ずつあるように見える画像を選びました。

実際には6本の指の画像も多く出力されますが、Version4よりは手の形自体に違和感が少なくなっています。

 

Version4の握手

上の画像がVersion4の握手の画像です。

親指の関節の向きであったり、手の握り込みなどに少し違和感があります。

 

Version3の握手

Version3に至っては握手が出来ませんでした。

 

 

 

短いプロンプトよりも長いプロンプトが有効

ミッドジャーニー(Midjourney)公式アナウンスより、以下のような一文がありました。

短いプロンプトはうまく機能しないかもしれません。何をしたいのか、より長く、より明確な文章を書くようにしてください(例:「ドラマチックな照明で映画のような写真」)。

ということで、Version5では長文を明確に書くほうが効果的であると述べられています。

V5、V4、V3でプロンプトの長短がどういった影響を与えるのか試してみます。

 

長文の場合①

宇宙飛行士と少年は月面に立ち、息を呑むような地球の景色を眺めています。アートスタイルは、テクスチャーとライティングに重点を置き、リアルでディテールにこだわっています。ライティングは、シャープなシャドウと明るいハイライトのコントラストが特徴的です。画家はロバート・マッコールとアルフォンス・ミュシャです。
上の長文を英語に訳すと以下のようになります。
The astronaut and the young boy stood on the surface of the moon, taking in the breathtaking view of the Earth. The art style is realistic and detailed, with a focus on texture and lighting. The lighting is stark and contrasted, with sharp shadows and bright highlights. The artists are Robert McCall and Alphonse Mucha.

これをプロンプトとして使用してそのまま試してみます。

 

Version5

上の画像はVersion5で作成しています。

ある程度、プロンプト通りの効果が再現されていると思います。

 

Version4

上の画像はVersion4で作成しています。

構図的にはVersion4と変わりませんが、「リアルでディテールにこだわっています」という箇所に関しては、Version5の方がよく出来ています。

基本的に、Version5のほうが緻密に画像を描く傾向にあります。

 

Version3

上の画像はVersion3で作成しています。

全体的に窮屈な構図で、細部の書き込みも少ないです。

「シャープなシャドウと明るいハイライトのコントラスト」という箇所の再現性も低い印象です。

 

長文の場合②

メジャーリーガーがバットを手にホームプレートに立ち、満員のスタジアムでホームランを打とうとしています。エネルギッシュでダイナミックなアートスタイルは、試合の動きや興奮を表現することに重点を置いています。照明は、スポットライトがフィールド上のアクションを照らすような、明るく集中力のあるものです。アーティストは、リロイ・ニーマンとノーマン・ロックウェルです。
上の長文を英語に訳すと以下のようになります。
The Major Leaguer stands at home plate, bat in hand, ready to hit a home run in a packed stadium. The art style is energetic and dynamic, with a focus on capturing the movement and excitement of the game. The lighting is bright and focused, with spotlights illuminating the action on the field. The artists are Leroy Neiman and Norman Rockwell.

これをプロンプトとしてそのまま使用して試してみます。

 

Version5

Version5で作成しています。

注文通りのエネルギッシュさとダイナミックさが表現できていると思います。

バッターの動作も指示にある程度沿っています。

 

Version4

Version4で作成しています。

Version5ほどの躍動感はありませんが、概ね指示通りに出来ています。

 

Version3

Version3で作成しています。

何をしているのかさえよく分からない画像です。

Version3が世に出た当時はその性能の高さに大騒ぎとなりましたが、長文への対応力はほとんどありません。

 

短文の場合

宇宙飛行士と少年。映画的。

上の短い文章を英訳します。

An astronaut and a boy. Cinematic.
この文章をそのままプロンプトとして使用して試してみます。
Version5
Version5で作成しています。
かなり写実的な画像になります。
基本的にはVersion5は特に指定が無ければ写実的なイラストになる傾向があります。
そして、「映画的」というワードがありますが、それほど映画的な演出は感じられません。
やはりどのように映画的なのか詳しく書く方が、Version5にとっては効果的なのかもしれません。
Version4
Version4で作成しています。
Version5よりも絵画的であり、そして映画的です。
短いプロンプトでも絵の質を落とさずに完成させています。
Version3
Version3で作成しています。
顔が崩れていたり、パースがおかしかったりしますが、長文よりも絵の体裁は保てています。

 

極端なアスペクト比にも対応

Version4ではアスペクト比は「2:1」「1:2」まででした。

しかし、Version5ではもっと幅広いアスペクト比に対応しています(おそらく「14:1」「1:14」まで)。

横長のアスペクト比

上の画像は、パラメーターを「--ar 14:1」にして、アスペクト比を14:1にしています。

大きさとしては、「4096 × 288」となっています。

Version5では、アスペクト比をかなり極端に設定できます。

 

縦長のアスペクト比

上の画像は、パラメーターを「--ar 1:14」にして、アスペクト比を1:14にしています。

大きさとしては、「288 × 4096」となっています。

Version5では縦長、横長ともに極端な比率に対応していることが分かります。

 

 

--iw「0.5-2.0」に対応

Version4では「--iw」でイメージウェイトを変更できませんでした。
しかし、Version5では、「--iw」でイメージウェイトを「0.5-2.0」の間で変更可能です。
上の画像の生成コマンドは「bird man --ar 16:9 --v 5」で、画像アドレスは「https://s.mj.run/u-o3i_gq_VM」です。
このプロンプトに「--iw」の数値だけを変えてどうなるか試してみましょう。
生成コマンド「https://s.mj.run/u-o3i_gq_VM bird man --ar 16:9 --v 5 --iw○○ 」 ※○○の部分だけ数値を変更していきます。

 

--iw 0.5
--iw 0.5の最低比重で作成しました。
顔がほとんど見えている鳥男がいます。
元画像の再現性は少し低めです。

 

--iw 1
--iw 1 で作成しています。
元画像に近づいてはきていますが、人間の顔が写っているものも紛れています。
--iw 2

--iw 2 で作成しました。

人間の顔が若干見えているものもありますが、概ね元画像の再現に近づいています。

これらのように、Version5では--iw でイメージウェイトを調整することができます。

 

 

 

--tile が使用可能

上の画像の生成コマンドは「flower --tile --ar 1:1  --v 5」です。
Version4では「--tile」は使用できませんでしたが、Version5では「--tile」に対応しています。
パラメーター「--tile」をつけて生成した画像はシームレスタイルに対応した画像として出力されます。
外部サイトでシームレスタイル化をすると、このようにつなぎ目が分かりづらい「パターン」が生成することができます。

アップスケーラー「U」について

Version4までは、グリッド画像の下に表示された「U1-U4」のボタンを押せばアップスケールを行うことができました。
しかし、Version5 では、「U」を押してもアップスケールされることは現時点ではありません(V5α版)。

Version5のグリッドは2048✖️2048

Version5のグリッド画像のサイズは正方形の場合、2048×2048となっています。

Version4のグリッド画像のサイズは正方形の場合、1024×1024だったため、グリッド画像の時点でVersion5の画像サイズは大きいことが分かります。

 

Version5で「U」を押すと1024×1024

Version5のグリッド画像で「U」を押すと即座に画像が表示されます。
グリッド画像が2048×2048だったため、そのサイズと同程度の大きさのものができるかと言えばそうではなく、1024×1024の画像が出力されます。
これは、グリッド画像の時点で既に作られていた画像と同じものが出力されています。
Version4のように、「U」を押すことでより緻密に描き込まれるという訳ではありませんので注意しましょう。

 

--q を高めに設定すると良い

Version5のα版においては、アップスケーラーが機能しないため、グリッド画像の時点でより高品質な画像に仕上げておく必要があります。
品質を左右するパラメーターとしては「--q」があります。
「--q」は「0.25-5」までの範囲を取ることができます。
よって、「--q」は「2-5」の範囲に設定するのが無難だと思います。
--qのデフォルト設定

生成コマンド「fire --v 5」。

--q を変更せずに、デフォルト設定で作った画像です。

--q 2

生成コマンド「fire --v 5 --q 2」。

--q 2 で作成した画像です。

少しクオリティが上がったような気がします。

 

--q 5

生成コマンド「fire --v 5 --q5」。

--q の最大値である「--q 5」で作成しています。

より緻密に描かれている印象です。

 

リミックスモードは不気味になる

Version5のRemixモードは残念ながら出来がよくありません。

 

上の画像コマンドは「bird man --ar 16:9 --v 5」です。

これをリミックスして、「bird man girl --ar 16:9 --v 5」としてみます。

「girl」というプロンプトを後から足しただけです。

 

そうすると上の画像のように、「girl、つまり女性の顔」を強引に貼り付けたような不気味な画像が作られます。

Version5でリミックスモードを使用すると、ほとんどの場合で、取ってつけたような違和感がある画像が作られてしまいますので十分に注意しましょう。

おそらくα版ゆえの未完成な部分だと思いますので、今後のアップデートに期待です。

パラメーターの取り扱いが便利になった

Version5と関係はないのですが、パラメーターを扱う上で便利になっていることがありますのでご紹介します。

 

/settingsでVersionを固定(指示しなくても勝手に「--v 5」等を書いてくれる)していたり、

 

/prefer suffix でアスペクト比を固定(指示しなくても勝手に「--ar 16:9」等を書いてくれる)している場合等に便利です。

 

ちょっとだけの間、バージョンやアスペクト比を変更して画像生成を試す時に、わざわざ固定を解除するのは非常に面倒に感じます。

 

「--ar 4:3 --ar 2:1」、「--v 4 --v 5」などの書き方が許される

実は「--ar 4:3 --ar 2:1 」など、「--ar」が複数あってもエラーになりません。

優先されるのは、前にある「--ar」の値となります。

これは、「--v」の場合も同様です。

 

上の画像のコマンドをご覧ください。

「fire --ar 1:1 --v 4 --ar 16:9 --v 5」となっています。

このコマンドの「--ar 16:9」というのは、/prefer suffix ですでに固定してあるパラメーターです。

「--v 5」は/settings で固定してあるパラメーターです。

つまり、「fire」とだけコマンドを入力すると、「fire --ar 16:9 --v 5」と入力されて、画像が生成されます。

 

しかし、アスペクト比を変更してみたい、V4も試してみたい、と思った時にどうすればいいでしょうか?

それは簡単です。

「fire --ar 1:1 --v 4」と入力すればいいのです。

そうすると、上の画像生成コマンドと同じ「fire --ar 1:1 --v 4 --ar 16:9 --v 5」が入力されます。

同じ種類のパラメーターは前方にあるものが優先されるため、アスペクト比1:1でバージョン4の画像が生成されるという訳です。

何気にすごく便利な機能ですので、試してみるといいと思います。

 

Version5のまとめ

  • 手指の描写が改善傾向
  • 緻密に描き込む
  • 写実的になりやすい
  • 長文が得意
  • --ar 「14:1」「1:14」まで幅広いアスペクト比に対応
  • --iwのイメージウェイトを調整できる
  • 「--tile」を搭載
  • リミックスモードは不完全
  • アップスケーラーが未搭載
  • 「--q」 を高めに設定すると効果的

上記はあくまでV5のα版の内容です。

今後のアップデートで大幅に内容が変わる可能性があります。

随時更新していきます。

 

追記:Version5b登場

作成スピードの向上

3月31日より、Version5bが登場しました。

画像生成に要する時間が半減(2倍速)になったそうです。

上の画像を作成するまでに掛かった時間は54秒でした。

「--v 5a」で同じプロンプトで作成すると、87秒必要でした。

どちらもアップスケールは今まで同様に一瞬で可能です。

 

品質の向上

「--v 5b」では、品質の劣化がほとんど無くなっているようです。

 

よって、「--q」を高める必要がありませんし、上の表のように高めても効果がありません。

解像度は5bも5aも変わりありません。

 

Version 5aに戻すことも可能

パラメーターを「--v 5a」とすることで、前のバージョンであるVersion5α版に変更することも可能です。

「--v 5」はデフォルトではVersion5β版となっています。

 

システムステータスが表示される

Version5bとは関係ありませんが、5b搭載と同時にシステムのステータスを閲覧可能になりました。

ステータスページはこちら→https://status.midjourney.com/

システムの状況等によって、画像生成時間が変化します。

ステータスを確認して、平均待ち時間が短い時に画像生成をすると、ストレスが少なくミッドジャーニー(Midjourney)を利用できそうです。