ぼくらの自由研究室

CRI・ミドルウェアの動画トランスコーダーに息づく「熟練技術」

ゲーム発の動画技術はかなりスゴイことになっていた!

このロゴをどこかで見たことがある、という人は多いはず

「動画」は現在のインターネットにとって、そして我々の生活にとって欠かせないものです。それは、「動画」という言葉が「デジタル符号化された動画データ」とほとんど同義になりつつあることからも明らかでしょう。

では、皆さんがそうした「動画」を初めて目にしたのは、いつごろだったでしょうか。

30代より上の世代であれば「次世代32bitゲーム機で初めて動画データというものを見た」という人は多い気がします。そう、「セガサターン」や「初代PlayStation」と言った、1990年台中頃を席巻したあのゲーム機たちです。かくいう筆者も、セガサターンを手に入れ、某アニメ原作のゲームを起動したら、いきなり原作アニメそのままのOP映像が再生されて「これが次世代か!!」と衝撃を受けた記憶があります。

「ゲーム内動画」はそれ以降すっかり一般化し、現在でもスマートフォンゲームを始め、数多く採用されているのはご存知の通り。そんなゲーム動画と四半世紀をともに歩んだ「動画のプロ」とでも呼べる会社が「CRI・ミドルウェア」です。

サターンやドリキャスの開発に参加。様々なゲーム内動画エンコードを手がける

CRI・ミドルウェアの代表取締役社長、押見正雄氏

CRI・ミドルウェアの前身であるCSK総合研究所は1983年に設立されました。元々は人工知能を研究していましたが、1990年代、当時グループ会社だったセガが次世代ゲーム機「セガサターン」を開発するにあたり技術協力。CRI・ミドルウェアの社長、押見正雄氏も、「7年間くらいセガでゲーム機のシステムを作っていました」と当時を振り返ります。一時は「バーチャファイター」の開発で知られるセガ・第2ソフトウェア研究開発部(いわゆるAM2研)と合併し、ゲーム開発とゲーム向けのミドルウェア(各種の汎用的処理を行うソフトウェア)開発・提供を行っていました。

さて、セガサターンを始めとする当時の次世代ゲーム機は、メディアがCD-ROMとなったこともあり、動画データを収録してゲーム中で再生することが一般的になりました。実はCSK総合研究所は、ゲーム内動画再生関連のミドルウェアを提供するかたわら、ゲーム内動画自体のエンコードを数多く請け負っていました。

ゲーム内動画は、いわばゲームの第1印象を決定づける部分で、ゲーム製作者としては画質面で妥協はできません。とはいえ、動画データはゲーム本編を収録した残りの空き容量に収めなくてはいけませんから、「限られた容量の中で、最高の画質」が望まれます。そうした要求に日々応える中で、CSK総合研究所には動画に関する独自のノウハウが蓄積されていきました。ちなみにCSK総合研究所は、MPEG-1のハードウェアデコーダーを内蔵していなかったセガサターンのためにMPEG-1ソフトウェアデコーダー「MPEG Sofdec」を開発したりもしていますから、筋金入りです。

2001年には、旧CSK総合研究所のミドルウェア部門を継承する「CRI・ミドルウェア」が設立、もちろん動画関連のノウハウは継承されました。CSK総合研究所の頃から合わせて、動画に関わり続けて四半世紀。ゲームを通じて動画に関するノウハウを蓄積し続けたCRI・ミドルウェアが、今、ゲーム以外の分野に「動画」という武器を携えて進出しようとしています。

動画エンコード職人の熟練技術をソフトウェアに

冒頭でも触れたとおり、動画の重要性が非常に高くなっているのが今という時代。インターネット上で動画を視聴したりアップロードしたりするのが一般的になったことで、インターネット上のトラフィックに占める動画の割合は2016年の時点で75%、2021年までには82%に達すると言われています(米シスコ調べ)。

今後のインターネットにおいては、増え続ける動画トラフィックをどう捌いていくのか、より高画質な動画を、場合によってはリアルタイムでいかに配信していくのか、などの課題があります。その解決のための方法の一つは、動画を圧縮して容量を小さくすることです。

もちろん、ただ圧縮するだけで済めば話は簡単なのですが、重要なのは「圧縮後の画質」です。

動画は近年、2K→4K→8Kと次々に高解像度化が進んでいます。解像度が増せばファイルサイズもグッと増えてしまいますが、だからといって圧縮率を高めて画質が落ちては本末転倒。また、VR向けの360度動画などでは、ディスプレイを眼から至近距離において視聴するため、動画の解像感の粗やブロックノイズが目立ちやすく、高解像度かつ高画質である必要性がさらに高まります。つまり、「画質は妥協できない」という傾向は今後も強まる一方です。

もちろん、動画コーデック自体のポテンシャルも上がっていますが、圧縮率を高めつつ画質を維持するためにはコーデックの実力を引き出すノウハウが必要不可欠になっています。

CRI・ミドルウェアが今、動画ソリューションを提供し始める理由はそこにありました。

同社が提供する「CRI DietCoder」は、H.264対応の動画トランスコーダーソフトウェアです。このトランスコーダーは、ファイルの形式はそのままに、ファイルサイズを削減するタイプの動画変換を行います。無圧縮AVIなどの元素材からMP4などの配信向けファイルに変換する「エンコード」と区別した言い方ですが、動画の超高解像度化が進行する昨今、超巨大なファイルサイズになりがちな元素材を残すことも稀なため、エンコード済みのファイルをそのまま利用できるトランスコードの需要が増しています。

さて、「CRI DietCoder」ですが、ゲーム業界で大量の動画をエンコードしまくる中で蓄積されたノウハウの延長線上にあります。

ディスクの空き容量は限られている、でも可能な限り高画質な動画をユーザーに届けたい。そんなゲームメーカーの願いを叶えるために日夜動画エンコーディングに勤しむ中で、「ファイルサイズを規定値に抑えつつ、可能な限り高画質にエンコードする」ノウハウが社内に蓄積されていったわけですが、裏を返せば、

「画質を維持しつつファイルサイズを縮めることが可能なのではないかと、ある時気づきました」(押見氏)

その発想が、「CRI DietCoder」誕生のきっかけとなりました。

CRI・ミドルウェアのWebサイトより

動画のエンコードというのは、もともと職人技めいた部分があります。動画コーデックの多種多様なパラメーターを試行錯誤しながら操り、動画コンテンツに合わせた設定を煮詰めていく。実写とアニメでは求められるパラメーターが違いますし、極端な話、同じ動画内でもシーンごとに求められるパラメーターが違うわけです。そんな、かつて「職人」の経験と勘で行われていた作業を、誰でも扱えるツールに落とし込んだのが、CRI DietCoderです。

そうした考え方は、新機能である「動画オプティマイザー」にも色濃くあらわれています。動画オプティマイザーとは、時間軸方向でビットレートを削減しやすい箇所を発見、部分的に圧縮を行うという技術。通常の動画圧縮の場合、例えば全体のビットレートを「2Mbps」と指定すると動画全域で律儀に2Mbpsを維持しようとしますが、動画オプティマイザーでは部分的に2Mbpsを下回る圧縮を行い、全体のファイルサイズを削減します。

オプティマイザーの概念図

「これもゲーム動画の時の経験です。たいていの動画は、圧縮しやすいシーン、しづらいシーンというのが混在しています。そんな時、弊社のエンコード職人は、オリジナルのデータを一旦バラバラにしてそれぞれ異なる設定でエンコードし、最後にまた結合していた、というわけです」(押見氏)

そんなCRI DietCoderですが、実際にデモを拝見したところ、10Mbpsの元動画を1Mbpsに圧縮しても、ぱっと見ではわからないレベルに仕上がります。「ある程度の長さの動画の場合、画質を維持したままファイルサイズを半分くらいにはできます。それも動画全体のトータルの話で、圧縮しやすいシーンならば10分の1くらいにはなります」(押見氏)。

まさしく強力無比な「CRI DietCoder」。ゲーム業界初の技術ではありますが、様々な分野に応用可能だといいます。

動画の先にあった巨大市場

CRI・ミドルウェア 研究開発本部のグループリーダー、リードエンジニアの平瀬氏

例えば動画配信サービスであれば、配信される動画を圧縮することで配信業者側のインフラコストを削減できるほか、動画を受信する側のユーザーも消費パケットを減らせるというメリットを享受できます。

また、動画の活用はコンシューマー向けのサービスにとどまりません。B2B市場として特に大きいのが監視カメラの分野です。24時間365日稼働し続ける監視カメラは、録画データをストレージに溜め込むにしろインターネット経由で送信するにしろ、ファイルサイズが膨大になりがちです。また、工事現場など高品質な回線が確保しにくい場所ではLTEなどモバイル通信でデータを送信することもあるため、可能な限り小さいファイルサイズに圧縮できることが望ましくなります。こうした需要は工場や医療現場でも高まっており、実際、CRI・ミドルウェアは日立ハイテクノロジーズと提携した監視カメラのソリューションや、ファインデックスと提携した医療動画管理ソリューションを提供しています。

ただ、闇雲にサイズを圧縮すればいいかというとそうではなく、ある程度の画質が必要とされます。なぜなら、最近はAIなどでそうした動画の人物などの画像を認識、分析するニーズがあるからです。しかも、どうやらコンピューターが認識しやすいように動画を圧縮する方法、というのもあるようです。

「通常ですと、動画のビットレートを下げると認識率は下がっていきます。しかし、ビットレートを下げても、設定を工夫すれば認識率は下がりません」(平瀬氏)

下記の図でわかるのは、トランスコーダーのパラメータ設定を調節することで、たとえ低ビットレートでも「機械が認識しやすい」動画に圧縮できるということです。

「このように、トランスコーダーの設定を徹底的に調教することができる。それが我々の強みです」(押見氏)

動画内の特定の対象をAIで認識できる割合をグラフ化したもの。低ビットレートでも、設定を工夫することで認識率が高まることがわかる

こうした強みは、テレビ局など大量の動画アーカイブを扱う場所でも活きてきます。テレビ局には過去に放映された番組の膨大なアーカイブが残されていますが、それらの多くは未だにテープなどアナログメディアの中にある、というケースが少なくありません。そのままではストレージコストがバカになりませんし、災害などで失われるリスクも想定されるので、そうしたアーカイブをデジタルデータとしてバックアップするというニーズが存在します。

一方で、どうせデジタルデータにするのなら、ついでにアーカイブを認識・分析できるようにし、様々な用途に活用していこうとする動きもあります。例えば出演者を顔認識したり、テロップを文字認識したりなどして映像データにタグ付けしていくと、そうした映像データが必要になった際にもすぐに取り出すことができます。

こうした用途に使用する場合も、先ほどの監視カメラの例と同様、トランスコーダーでファイルサイズを最小限にしつつ機械が認識しやすくする動画にできることは多大なメリットとなります。実際の運用としては、例えばアーカイブをデジタルデータとしてバックアップするのと同時並行で、低サイズの動画をトランスコーディングで生成。認識・分析に使用するとともに、動画データを手軽に呼び出すためのインデックスデータとしても利用できるようにすると一石二鳥です。ちなみに、CRI・ミドルウェアではこうした動画の管理/閲覧ソリューションも提供しているとのことです。

撮影した先からラズパイでリアルタイムトランスコーディングできちゃう時代

以上のように、様々な方面に活用が見込まれる「CRI DietCoder」ですが、トランスコードに必要なマシンスペックが気になるところ。なにせ動画の変換処理というのは、PCにとっては今も昔も最大級に重い処理です。

「プロセッサーのスペックとしては、リアルタイムに4Kトランスコードを行おうとすると、最新の4コア以上のCPUが必要になってきます。ただ、低スペックなCPUでもビデオアクセラレーション機能を搭載しており、それを使用することでリアルタイム処理を行うことができます。ちなみに、CRI DietCoderはハードウェア支援を用いてもアウトプットの画質は変わりません」(平瀬氏)

なるほど、4Kがほぼリアルタイムでトランスコードできるならば、フルHDの動画などはかなり余裕を持ってリアルタイム処理できそうです。

「弊社としてはトランスコードのソフトウェアだけでなく、ハードウェアも含めてのトータルソリューションを提供しています。なので、こんなものもあります」

そう言って平瀬氏が取り出したのが、小型で透明な箱。

「これはRaspberry Piを用いた、カメラ一体型の処理ユニットです。GPUとして搭載されたBroadcom製チップはビデオアクセラレーション機能に対応しているので、撮影したフルHDの動画をリアルタイムでトランスコード可能です。汎用品なので、故障時もパーツの調達が容易です」(平瀬氏)

Raspberry Piを活用したカメラ一体型のトランスコードユニット。これ一台で撮影、変換、送信までOK

動画の可能性は思ったよりもスゴい

CRI・ミドルウェアが擁する動画トランスコード技術について紹介してきましたが、実際のところ、CRIの動画ソリューションは多岐に渡ります。例えば、Webブラウザ上で再生するためのWeb動画ソリューション「LiveAct Pro」はデモだけでも一見の価値あり。普段YouTubeの埋め込み動画しか使っていない身からすると、「Web動画でこんなことができるなんて!」という新鮮な驚きがあります。このあたり、「複数動画を重ね合わせて再生する」などといった、ゲーム向けならではの無茶な動画技術を開発してきた会社ならではでしょう。

ちなみにVR動画関連の技術も持つ同社。注視箇所などによって動画をリアルタイムに分岐させる、といったことも可能。Playstation VR用のVR動画プレーヤーにも同社の技術が使用されているとのこと

桑野雄