2023年3月16日、ミッドジャーニー(Midjourney)に待望のVersion5が搭載されました。
Version4との違いや、Version5の強みはなんなのかについて、以下で解説していきます。
※本記事は主にVersion5のα版についての解説となります。
※3月31日に、Version 5β版の解説を追加しました。
Version5 の使い方
まずは「Version5」の使い方についてです。
Version5のパラメーターは「--v 5」になります。
メッセージ欄の /imagine promt テキストの末尾に「--v 5」をつけると、その画像はVersion5が適用されて出力されます。
/settings でVersion 5 にしておく
しばらく「--v 5」を使うことになるのでしたら、「/settings」と打ちこんでエンターキーを押しましょう。
そして、⑤MJ version 5 のボタンをオンにしておきます。
そうすることで、「--v 5」と毎回打ち込まなくても、自動で「--v 5」を末尾に入れてくれます。
Version 5 の特徴
Version5の特徴はいくつか挙げられます。
手指の描写が改善
画像生成AIのかなり苦手な部位として、「手」が挙げられます。
Versionごとに手の描写の精度を見ていきましょう。
Version5の握手
上の画像はVersion5で作成した握手の画像です。
指がお互いに5本ずつあるように見える画像を選びました。
実際には6本の指の画像も多く出力されますが、Version4よりは手の形自体に違和感が少なくなっています。
Version4の握手
上の画像がVersion4の握手の画像です。
親指の関節の向きであったり、手の握り込みなどに少し違和感があります。
Version3の握手
Version3に至っては握手が出来ませんでした。
短いプロンプトよりも長いプロンプトが有効
ミッドジャーニー(Midjourney)公式アナウンスより、以下のような一文がありました。
ということで、Version5では長文を明確に書くほうが効果的であると述べられています。
V5、V4、V3でプロンプトの長短がどういった影響を与えるのか試してみます。
長文の場合①
これをプロンプトとして使用してそのまま試してみます。
Version5
上の画像はVersion5で作成しています。
ある程度、プロンプト通りの効果が再現されていると思います。
Version4
上の画像はVersion4で作成しています。
構図的にはVersion4と変わりませんが、「リアルでディテールにこだわっています」という箇所に関しては、Version5の方がよく出来ています。
基本的に、Version5のほうが緻密に画像を描く傾向にあります。
Version3
上の画像はVersion3で作成しています。
全体的に窮屈な構図で、細部の書き込みも少ないです。
「シャープなシャドウと明るいハイライトのコントラスト」という箇所の再現性も低い印象です。
長文の場合②
これをプロンプトとしてそのまま使用して試してみます。
Version5
Version5で作成しています。
注文通りのエネルギッシュさとダイナミックさが表現できていると思います。
バッターの動作も指示にある程度沿っています。
Version4
Version4で作成しています。
Version5ほどの躍動感はありませんが、概ね指示通りに出来ています。
Version3
Version3で作成しています。
何をしているのかさえよく分からない画像です。
Version3が世に出た当時はその性能の高さに大騒ぎとなりましたが、長文への対応力はほとんどありません。
短文の場合
上の短い文章を英訳します。
Version5
Version4
Version3
極端なアスペクト比にも対応
Version4ではアスペクト比は「2:1」「1:2」まででした。
しかし、Version5ではもっと幅広いアスペクト比に対応しています(おそらく「14:1」「1:14」まで)。
横長のアスペクト比
上の画像は、パラメーターを「--ar 14:1」にして、アスペクト比を14:1にしています。
大きさとしては、「4096 × 288」となっています。
Version5では、アスペクト比をかなり極端に設定できます。
縦長のアスペクト比
上の画像は、パラメーターを「--ar 1:14」にして、アスペクト比を1:14にしています。
大きさとしては、「288 × 4096」となっています。
Version5では縦長、横長ともに極端な比率に対応していることが分かります。
--iw「0.5-2.0」に対応
--iw 0.5
--iw 1
--iw 2
--iw 2 で作成しました。
人間の顔が若干見えているものもありますが、概ね元画像の再現に近づいています。
これらのように、Version5では--iw でイメージウェイトを調整することができます。
--tile が使用可能
アップスケーラー「U」について
Version5のグリッドは2048✖️2048
Version5のグリッド画像のサイズは正方形の場合、2048×2048となっています。
Version4のグリッド画像のサイズは正方形の場合、1024×1024だったため、グリッド画像の時点でVersion5の画像サイズは大きいことが分かります。
Version5で「U」を押すと1024×1024
--q を高めに設定すると良い
--qのデフォルト設定
生成コマンド「fire --v 5」。
--q を変更せずに、デフォルト設定で作った画像です。
--q 2
生成コマンド「fire --v 5 --q 2」。
--q 2 で作成した画像です。
少しクオリティが上がったような気がします。
--q 5
生成コマンド「fire --v 5 --q5」。
--q の最大値である「--q 5」で作成しています。
より緻密に描かれている印象です。
リミックスモードは不気味になる
Version5のRemixモードは残念ながら出来がよくありません。
上の画像コマンドは「bird man --ar 16:9 --v 5」です。
これをリミックスして、「bird man girl --ar 16:9 --v 5」としてみます。
「girl」というプロンプトを後から足しただけです。
そうすると上の画像のように、「girl、つまり女性の顔」を強引に貼り付けたような不気味な画像が作られます。
Version5でリミックスモードを使用すると、ほとんどの場合で、取ってつけたような違和感がある画像が作られてしまいますので十分に注意しましょう。
おそらくα版ゆえの未完成な部分だと思いますので、今後のアップデートに期待です。
パラメーターの取り扱いが便利になった
Version5と関係はないのですが、パラメーターを扱う上で便利になっていることがありますのでご紹介します。
/settingsでVersionを固定(指示しなくても勝手に「--v 5」等を書いてくれる)していたり、
/prefer suffix でアスペクト比を固定(指示しなくても勝手に「--ar 16:9」等を書いてくれる)している場合等に便利です。
ちょっとだけの間、バージョンやアスペクト比を変更して画像生成を試す時に、わざわざ固定を解除するのは非常に面倒に感じます。
「--ar 4:3 --ar 2:1」、「--v 4 --v 5」などの書き方が許される
実は「--ar 4:3 --ar 2:1 」など、「--ar」が複数あってもエラーになりません。
優先されるのは、前にある「--ar」の値となります。
これは、「--v」の場合も同様です。
上の画像のコマンドをご覧ください。
「fire --ar 1:1 --v 4 --ar 16:9 --v 5」となっています。
このコマンドの「--ar 16:9」というのは、/prefer suffix ですでに固定してあるパラメーターです。
「--v 5」は/settings で固定してあるパラメーターです。
つまり、「fire」とだけコマンドを入力すると、「fire --ar 16:9 --v 5」と入力されて、画像が生成されます。
しかし、アスペクト比を変更してみたい、V4も試してみたい、と思った時にどうすればいいでしょうか?
それは簡単です。
「fire --ar 1:1 --v 4」と入力すればいいのです。
そうすると、上の画像生成コマンドと同じ「fire --ar 1:1 --v 4 --ar 16:9 --v 5」が入力されます。
同じ種類のパラメーターは前方にあるものが優先されるため、アスペクト比1:1でバージョン4の画像が生成されるという訳です。
何気にすごく便利な機能ですので、試してみるといいと思います。
Version5のまとめ
- 手指の描写が改善傾向
- 緻密に描き込む
- 写実的になりやすい
- 長文が得意
- --ar 「14:1」「1:14」まで幅広いアスペクト比に対応
- --iwのイメージウェイトを調整できる
- 「--tile」を搭載
- リミックスモードは不完全
- アップスケーラーが未搭載
- 「--q」 を高めに設定すると効果的
上記はあくまでV5のα版の内容です。
今後のアップデートで大幅に内容が変わる可能性があります。
随時更新していきます。
追記:Version5b登場
作成スピードの向上
3月31日より、Version5bが登場しました。
画像生成に要する時間が半減(2倍速)になったそうです。
上の画像を作成するまでに掛かった時間は54秒でした。
「--v 5a」で同じプロンプトで作成すると、87秒必要でした。
どちらもアップスケールは今まで同様に一瞬で可能です。
品質の向上
「--v 5b」では、品質の劣化がほとんど無くなっているようです。
よって、「--q」を高める必要がありませんし、上の表のように高めても効果がありません。
解像度は5bも5aも変わりありません。
Version 5aに戻すことも可能
パラメーターを「--v 5a」とすることで、前のバージョンであるVersion5α版に変更することも可能です。
「--v 5」はデフォルトではVersion5β版となっています。
システムステータスが表示される
Version5bとは関係ありませんが、5b搭載と同時にシステムのステータスを閲覧可能になりました。
ステータスページはこちら→https://status.midjourney.com/
システムの状況等によって、画像生成時間が変化します。
ステータスを確認して、平均待ち時間が短い時に画像生成をすると、ストレスが少なくミッドジャーニー(Midjourney)を利用できそうです。