最近、「アニメをAIでリマスターしてみた」という動画を友人からオススメされました。
確かにキレイになっていたのですが、「AIリマスターって何をやっているんだろう?」「もしもHDリマスター画像を使って学習しているなら、それはHDリマスターでは?」「そもそもHDリマスターもよくわかってないや」という感想や疑問が浮かび、この辺について調べてみました。
※アニメのリマスターについてよくわかっていない人が自分の気のすむところまで調べただけです。
※個人の知識、推測に基づいて書いている部分もあり、正確ではないところもあるかもしれませんが、ご了承ください。
前提知識
リマスターについて述べる前に画像に関する前提知識だけ書いておきます。
また、私 (本ブログ) は「動画は連続した画像の集まりであり、アニメは超高度なパラパラ漫画」という認識で行きます。
(仕事で「言ってしまえば、動画は連続した画像の集合体です。」と言ったら、取引先の人に「何を言っているのか理解できない」的な反応をされたので一応)
そもそも画像とはどんなもの?
実例を示すために、絵心のない私がペイントソフトとマウスを使って30秒程度で書いたリンゴの画像をのせます。

こちらの画像の一部を拡大すると下のようになります。

小学生で初めてペイントソフトを使ったとき、画像を拡大した経験がある人もいるのではないでしょうか?
デジタルの画像を拡大するとこのようにカクカクしており、よくよく見ると色のついた小さな四角で構成されていることがわかります。
この小さな四角をピクセルと呼び、デジタルな世界ではピクセルを使って画像を表示しています。
上のリンゴの画像自体は256×256のピクセルでできています。しかし、同じようなリンゴを100×100ピクセルや50×50ピクセルのものに書いた場合、細かい部分は表現できず、相当カクカクして見えます。
つまり、このピクセル数が多いほど細かい部分もキレイに表現できる「解像度の良い画像」となり、このピクセル数が少ないほど細かい部分の情報がない「解像度の悪い画像」となるのです。
それでは、この画像のピクセル数を増やすとどうなるでしょうか?ピクセル数を縦と横、それぞれ2倍に増やした画像を下に載せます。

絵が下手線の引き方があまりキレイではない、ということを差し引いても、なんか輪郭がジャギジャギしてます。
一部分を拡大するとこのようになっています。

背景と輪郭の黒線の間に灰色のピクセルが見えています。
これは「拡大したときに足りないピクセルをどう埋めるか」という補完によるものです。
ざっくばらんに言ってしまうと、黒と白の間なので、その中間色の灰色でうまく補完するように計算して適用しています。他のピクセル、特に色が急激に変わる部分でも同様に補間を適用しているので、輪郭がジャギジャギしているようにみえるのです。
素人目ですが、画像のキレイさという点では、うまくいっているようには見えません。
この計算式は複数あるのですが、単純に位置が近い色をコピーする方法だとジャギジャギが強調される等、すべての場面に対して完璧に対応できる式はなく、どこかの部分で違和感が生じる可能性が高いです。数万枚や数十万枚の画像から構成されるアニメは処理時間も考慮する必要があります。画像の中で複雑なものが入り混じっている場合、場面によって異なるアルゴリズム (計算式) を使い分けたり、オリジナルのアルゴリズムを用いたり、適用した後に修正を行う等々も必要でしょう。
つまり、そこらへんにあるようなソフトや単純なアルゴリズムを使って、解像度の低い画像のピクセル数を増やしただけ(適当に拡大しただけ)ではキレイな画像になるとは限らず、本例のようにジャギジャギになったりするということです。
HDリマスターは何をしているの?
まずはWikipediaでHDリマスターを調べました。論文等の堅物における参考文献として使うのは良くないですが、趣味の範囲で何となくの概要を知りたいならOKです。
HDリマスターには大別して、映画フィルムなどの原版から新たにHDTV解像度でテレシネ・スキャンを行う方式と、SDTV規格で制作・撮影された映像をHDTV解像度に拡大する方式(アップコンバート)が存在する。市場において「HDリマスター」というと特に前者を指す場合が多く、これによって得られた高精細映像はピュアハイビジョンに区分される。
全然わからん。
字面だけで判断すると、
1. 新たにHDTV解像度でテレシネ・スキャンを行う方式=素晴らしい解像度で新しくスキャンを行う方式
2. SDTV規格で制作・撮影された映像をHDTV解像度に拡大する方式(アップコンバート)=解像度の小さい規格の映像を拡大して解像度を上げる方式
という感じでしょうか?
スキャンの方はどれが実例なのかよくわからなかったのですが (アップコンバート方式と書いてないやつ全部?)、アップコンバート方式はプリキュアの実例が見つかりました。
私はアニメの専門家ではないのでよくわかりませんが、「確かにキレイになっているなあ」という感想です。
2つの方式について、もう少し調べてみましょう。
その前に、本ブログではそれぞれの手法をもう少しわかりやすく呼びやすくしてみましょうか。
1. テレシネ・スキャンを行う方式=高精度スキャン方式
2. SDTV規格で制作・撮影された映像をHDTV解像度に拡大する方式=アップコンバート方式
とします。
高精度スキャン方式
新たにHDTV解像度でテレシネ・スキャンを行う方式と書いてありますが、「テレシネ・スキャン」で一語ではなく、テレシネとスキャンということっぽいです。スキャンという言葉が紛らわしいなあ。文章にしたとき、スキャン(名詞)でスキャン(動詞)。になるので書きにくい...
ややこしいので、それぞれテレシネ手法とスキャン手法と書きます。
さて、それぞれは何なんでしょうか?
https://kirokueiga-hozon.jp/images/hozon/pdf/digitalization.pdf
それぞれの手法が具体的に何をやっているのかはわからなかったのですが、要約すると、
テレシネ手法:従来のデジタル化の方法。HD (1920×1280ピクセル) が限度。コストは安い。
スキャン手法:新しいデジタル化の方法。2K以上が可能。コストはテレシネよりも高い。
のようです。HDリマスターのWikipediaの文章を信じて、私の推測も加えると、
「従来はテレビ性能も低く、フィルムを読み込むのに解像度の悪いテレシネ手法でも十分であった。これが、いわゆる放送当時のアニメ。
しかし、現代ではBlue-RayやDVDの発売に際して、HD化の需要が求められ、高解像度でのテレシネ手法や2K以上が可能なスキャン手法でフィルムの読み込みが行われている。」
といった感じでしょうか?超意訳すると「制作したアニメのフィルムをより高解像度でデジタル化(読み込み)できるようになりました。」ということですかね。
実際には、デジタル化したものの修正とかもあるとは思うので、私が考えている以上の手間がかかっていると思います。
続いて、アップコンバート方式についても見てみましょう。
アップコンバート方式
こちらは、SDTV規格で制作・撮影された映像をHDTV解像度に拡大する方式とありますが、まずSDTV規格がよくわかりません。
相も変わらず、Wikipediaに頼ります。
https://ja.wikipedia.org/wiki/SDTV
SDTV(Standard definition television、標準解像度テレビ)とは現在のデジタルテレビ放送の解像度に対して、主にアナログカラーテレビ放送で使用された解像度に近いものを指す。
リンク先の下の表のところに、
720×480
と解像度の記載があります。よって、「SDTV規格=720×480の解像度 で制作・撮影された映像をHDTV解像度に拡大する方式」のようです。HDTVは調べてないですが、多分、TV用の高解像度みたいな意味でしょう。つまり要約すると「低解像度の映像を改めて高解像度に変換するという方式」です。ただし、前提知識のところで述べたように、単純に解像度を上げただけだと、ジャギジャギが問題になるはずです。
プリキュアの実例をもとに調べてみました。
「ふたりはプリキュア」「ふたりはプリキュア MaxHeart」「ふたりはプリキュア Splash☆Star」豪華Blu-ray BOXが3か⽉連続発売! | 株式会社ハピネットのプレスリリース
本作では株式会社クープの「FORS EX PICTURE」テクノロジーを用いて高品位なアップコンバートを行いました。
このFORS EX PICTUREとは何ぞや?
それは、作業に入る前にその作品の時代背景、当時の作業手順などを考慮し今後の作業方法を決める「全コマ画像診断」です。入念な画像チェックを経て、作品にあった最適なアップコンを施していきます。オリジナルの画像をただアップコンバートするのではなく、SDの画像もHDの画像も熟知している専任マイスターたちが、タイトルごとに細かい設定をし、最適な画質へアップコンバートいたします。
最適な画質へのアップコンバート=各アニメに合わせた適切なアルゴリズム (計算式) を使って、ジャギジャギしていないキレイな画像を出力する
ということのようです。記載はないですが、もしかしたら、アップコンバート後のアニメの修正や確認も入っているのかもしれません。
HDリマスターのまとめ
ここまでで、間違っている点や不足している点はあるかもしれませんが、何となくHDリマスターの全体像が分かったような気がします。
まとめると、
・HDリマスターと呼ばれる手法は主に2つある。
・1つ目はフィルムを放送当時よりも高解像度で読み込む方式。
・2つ目は低解像度の映像を高解像度にする変換する方式。
とのことです。もう少しざっくり言えば、HDリマスターには
・フィルムを放送当時よりも高精度でスキャンする方式(高精度スキャン方式)
・ソフト等を使って放送当時の映像を高画質に変換する方式(アップコンバート方式)
の2つがあるということですね。アニメ業界のことはわかりませんが、フィルム=原画とみなして理解しても良さそうです。
つまり、原画を高精度でスキャンするか、放送当時の映像を良い感じに変換するか、の違いですね。
次に私の本来の目的である「AIリマスターが何をやっているのか」、その中身について調査した結果を述べたいと思います。
長くなってしまったので、後編で。
physx.hatenablog.com
余談(疑問)
雑ですが私のイメージとしては原画、デジタル化(スキャン)した映像の関係はこんな感じ。
高精度スキャン方式では原画が元になっていますが、アップコンバート方式では読み込んだ後の映像を元にするイメージなんですよね。

ですが調べた限りでは、高精度スキャン方式の例が見つからず、どれもアップコンバートと明記しているんですよね。
両方の技術を組み合わせたりしているのかもしれませんが、その辺はどうなんでしょうかね?
また、手間についても気になります。
高精度スキャン方式は原画やフィルムを用意して手作業でやらなきゃいけないように見える(原稿を全部スキャンしなおすみたいなイメージ)ので、だいぶ大変そうです。一方、アップコンバート方式はすでにデジタル化したものを修正するので、PCで作業が完結しそう。高精度スキャン方式よりは楽だったりするのかな?
ここら辺を調べると文章が倍近くなりそうなんでやりませんが、そこらへんがわかる本とかがあれば読んでみたいですね。