JP-2026076533-A - 遠隔撮影システム及び遠隔撮影方法

JP2026076533AJP 2026076533 AJP2026076533 AJP 2026076533AJP-2026076533-A

Abstract

【課題】視聴者の視聴通信環境に影響されない動画配信の撮影サービスであって、どのようなシャッタータイミングであってもミスショットを含むことが無く且つ高品質な静止画（写真）を提供することを目的とする。【解決手段】撮影及び編集した高品質な動画像データを基に静止画を出力するため、いわゆるスクリーンショットのような粗い画像がシャッター出力とならない。また、所定のフレームレートに基づき構成される複数の静止画の中からミスショットとして扱われるものを除去して構築したシャッター用静止画があらかじめ準備しておく、シャッター操作時点に対応して書き出される静止画には目つぶり等の画像が含まれることはない。したがって、プロカメラマンのような撮影技術を有していない素人の視聴者であっても、ミスショットのない静止画（写真）を得ることができると共に、被写体画像の著作権等を管理する側が許容する静止画のみを視聴者に提供できる。【選択図】図１

Inventors

壹岐隼人
安井鯨太

Assignees

株式会社CAP

Dates

Publication Date: 20260512
Application Date: 20241024

Claims (9)

撮影手段により取得した撮影動画像を基に作成した視聴用動画を、通信ネットワークを介して複数のユーザの画像表示端末に配信して撮影疑似体験を提供する遠隔撮影システムであって、 (a)前記撮影動画像に任意のエフェクト処理が施されている場合、当該エフェクト処理を外した動画像を生成し、 (b)前記動画像を所定のフレームレートに基づく複数の静止画に分解して出力し、 (c)前記複数の静止画の中から一部の静止画を除去した静止画を基に再構成静止画を生成する、ことによりシャッター出力用静止画を生成しておき、前記視聴用動画の視聴中に、前記複数のユーザが前記画像表示端末上でシャッター操作に相当するフィンガーアクションをしたと判断した場合、シャッター操作のタイミングに対応する静止画を前記シャッター出力用静止画の中から特定し、前記特定された静止画を前記ユーザの画像表示端末に表示する、ことを特徴とする遠隔撮影システム。
前記(c)を通じて、前記再構成静止画は、目つぶりと判断した静止画又は前記ユーザへの提供が認められない静止画が除去されている、請求項１に記載の遠隔撮影システム。
前記撮影動画像にエフェクト処理が施されていても当該エフェクト処理を外さずに前記撮影動画像をそのまま前記動画像として生成する、又は前記再構成静止画にレタッチ処理を施す、の少なくとも何れかを含む、請求項１に記載の遠隔撮影システム。
複数の前記撮影手段を備え、各撮影手段に対応する視聴用動画が前記複数のユーザの各々の画像表示端末上で同時に表示された中から、所望の撮影手段からの視聴用動画を選択できると共に、前記視聴用動画の配信中における前記複数のユーザの各々の指定により前記視聴用動画の表示可能領域がユーザ毎に動的に切り替わる、請求項１に記載の遠隔撮影システム。
前記視聴用動画に対して他のユーザがシャッター操作している状況をリアルタイムに認識できるインジケータが、前記画像表示端末に表示される、請求項４に記載の遠隔撮影システム。
前記シャッター操作に相当するフィンガーアクションの回数を基に、前記複数のユーザの嗜好を分析することを含む、請求項１に記載の遠隔撮影システム。
任意の背景を表示するデジタル仮想空間内に前記撮影手段により取得した撮影動画像を合成させて前記画像表示端末に配信する、請求項１に記載の遠隔撮影システム。
前記ユーザの画像表示端末に表示される静止画は、当該ユーザを特定する情報を含む、請求項１に記載の遠隔撮影システム。
撮影手段により取得された撮影動画像を基に作成した視聴用動画を、通信ネットワークを介して複数のユーザの画像表示端末に配信する情報処理装置が実行する遠隔撮影方法であって、 (a)前記撮影動画像に任意のエフェクト処理が施されている場合、当該エフェクト処理を外した動画像を生成する処理と、 (b)前記動画像を所定のフレームレートに基づく複数の静止画に分解して出力する処理と、 (c)前記複数の静止画の中から一部の静止画を除去した静止画を基に再構成静止画を生成する処理と、によりシャッター出力用静止画が生成され、前記視聴用動画の視聴中に、前記複数のユーザが前記画像表示端末上でシャッター操作に相当するフィンガーアクションをしたと判断した場合、シャッター操作のタイミングに対応する静止画を前記シャッター出力用静止画の中から特定する処理と、前記特定された静止画を前記ユーザの画像表示端末に表示する処理と、が実行される遠隔撮影方法。

Description

本発明は、遠隔撮影システム及び遠隔撮影方法に関する。近年、カメラで撮影された動画像をネットワーク経由で受信して視聴しながら、所望のタイミングでシャッター押下に相当する指示を送ることで、あたかも被写体を目の前にして撮影しているような体験を得られるアプリケーションが出現してきた。視聴者が撮影場所に実際に行かなくても撮影行為を疑似体験でき、視聴者は自分で被写体を撮影しているかのような臨場感を得ることができる。しかも、遠隔操作なので物理的にどんなに遠方の場所であっても撮影可能であり、撮影現場での人数制限により撮影不可となってしまうこともない。したがって、遠隔撮影のニーズは今後ますます大きくなることが予想される。類似の構想に基づく先行文献として、例えば下記の特許文献がある（特許文献１参照）。特許文献１に記載の撮影会システムは、撮影現場において被写体を実際に撮影する撮影代行者（人間或いは装置）に対してズームアップ等の撮影条件を送ると、代理撮影者は当該撮影指示に基づき撮影条件を調整するように構成されている。また、ライブ会場等で撮影した動画像をサーバ経由で視聴者端末に向けて一斉に動画配信し、お気に入りのシーンに対して視聴者端末上でシャッター操作に相当するフィンガーアクションを実行する遠隔撮影システムが提案されている（特許文献２参照）。特開２００３－２０９７４１号公報特許７２８８６４１号公報遠隔撮影システムの一実施形態における全体構成を示した図である。シャッター出力用静止画の生成過程を示したフローチャートである。図３（Ａ）は、視聴用動画と、除去すべきカットが指定されたコマ画像との関係を示し、図３（Ｂ）は、シャッタータイミングと、取得する静止画との関係を示した図である。視聴端末に表示されるマルチアングル画面の一例を示した図である。同一の動画像を基に異なる表示領域を切替えることを説明するための図である。シャッターインジケータの一例を示す図である。以下に図面を参照しながら、本発明に係る遠隔撮影システムの一実施形態について説明する。図１は、遠隔撮影システム１００の全体構成を示す。遠隔撮影システム１００は、撮影イベント運営会社１とプラットフォーム運営会社２と複数のユーザ３との相互関係で構成され、インターネットなどの通信ネットワーク４を介して各種のデータを送受信するよう構成されている。なお、本実施形態においては、撮影会場での撮影を例にして説明するが、撮影会場（スタジオやライブ会場などを含む）という室内空間でなければならないというものではなく、室外の任意の場所（例えば、ロケ地など）での撮影であってもよい。撮影イベント運営会社１は、撮影会の開催日時、撮影場所、撮影会場で被写体になるモデルやアーティストなどを企画し、ホームページやＳＮＳなどを通じて遠隔撮影会が開催されることを告知する。撮影イベント運営会社１と事前に契約したプラットフォーム運営会社２は、遠隔撮影システム１００のプラットフォームを提供する事業体であり、企画された撮影会を実現する上で必要な技術的サポートの全般を担う。プラットフォーム運営会社２は、撮影イベント運営会社１にプラットフォームをＯＥＭで提供するため、撮影会が撮影イベント運営会社１により実施されるものとしてユーザ３に認識される。なお、図１に示す遠隔撮影システム１００は、撮影イベント運営会社１とプラットフォーム運営会社２を別主体として扱うが、撮影イベント運営会社１及びプラットフォーム運営会社２が同一主体として遠隔撮影システム１００を構成することでも本発明の作用効果において何ら変わりはない。また、ユーザへのイベント開催案内は、撮影イベント運営会社１に代わってプラットフォーム運営会社２が行うことでもよい。撮影イベント運営会社１は、通信ネットワーク４を介してユーザから遠隔撮影会の参加申し込みを受け付ける。撮影イベント運営会社１は、撮影した動画像及び付随する音声（以下、「撮影動画像」という。）を編集して作成した視聴用動画を情報処理装置（例えば、サーバやテレビの編集機などを含む。以下では「サーバ」として記載する。）に格納する。サーバからアップロードされた視聴用動画が、通信ネットワーク４を介してユーザ３へ提供される。本実施形態では、プラットフォーム運営会社２がサーバを保有・管理しているが、撮影イベント運営会社１内のサーバであってもよいし、さらにクラウド上にある仮想サーバであってもよい。以下、サーバは「クラウドサーバ」とも言う。撮影会場では被写体を撮影するための１以上の撮影装置６（以下、「カメラ６」という。）の設置や動画像の撮影及び録音の準備が行われる。撮影会場では、人間がカメラ６を保持して撮影してもよいし、サーバからの指令信号で人手を介さずにカメラ６を自動制御するよう司ってもよい。また、本実施形態では、複数のカメラ６（例えば、１８０度や３６０度など被写体の周囲にわたり複数のカメラを設置することを含む。）で被写体を撮影する場合の例を示すが、１台のカメラ６による撮影であってもよい。プロモーションビデオやミュージックビデオは動画編集されるが、本願発明におけるサーバに保管された撮影動画像も動画／静止画エディターを用いて動画及び静止画の編集処理を行う。撮影動画像を適宜編集したものが視聴用動画としてユーザ３へ提供される。編集方法は種々あるが、代表的なものとしては複数のカメラ６で様々なアングルから撮った映像を同時に再生しながらシーンを切り替えることで次々に場面転換するマルチカム編集や、ノイズ除去や、任意の映像を重ね合わせるオーバーレイや、テキスト挿入などがある。その他にも手ぶれ補正や特殊な視覚・音響効果の付加など任意の編集処理を含む。なお、本実施形態では撮影動画像に対して編集を施して生成したものを視聴用画像とするが、撮影動画像をそのまま視聴用画像として視聴者に配信する場合もあり得る。撮影会に参加するユーザである参加者３は、視聴端末３－１～３－Ｎ（以下、「視聴端末３Ｎ」とあらわす。）を有し、通信ネットワーク４経由で視聴用画像を視聴するものとする。視聴用画像の配信を受ける際には、視聴端末３Ｎを通信ネットワーク４に接続しておく。視聴用画像の配信が開始すると、参加登録した参加者３は各自の視聴端末３Ｎで視聴しながら、視聴端末３Ｎのアプリ画面上にはシャッター操作に相当するアイコン７が表示されているので任意のタイミングでアイコン７を押下していわゆるシャッター操作を行う。シャッター操作により参加者３はお気に入りのシーンの静止画（「コマ画像」と称されることもある。）を獲得することになるが、本願発明はこの静止画の書き出し方法に特徴があるので説明する。まず、視聴用動画とは異なる、シャッター出力用静止画を視聴前にあらかじめ準備しておく必要がある。図２は、シャッター出力用静止画の生成過程を示したフローチャートである。図２に示すとおり、サーバに格納されている視聴用動画を読みだす（ステップＳ２０）。上述したように視聴用動画は様々な動画編集がされているので、画像や音声に施されているエフェクトを外した動画像を生成する（ステップＳ２１）。エフェクトとは、映像合成、色表現、及びエコー処理を含むものだが、具体的には例えば、雷や雨といった環境的な効果を追加したり、完成した画像にボカシやデコボコした効果を与えたり、スクラッチやホーンなど特殊な音が使われていたり等、何らかの効果を追加することである。ステップＳ２１では、これらのうち、視覚的な効果に関連するエフェクトを外す処理を行う（ただし、音に関連するエフェクトを外す処理を排除するわけではない）。なお、従来の一般的な遠隔撮影システムの場合、視聴端末３Ｎの液晶画面がＦＨＤ（1920×1080ピクセル）対応であれば、あえて高画質の静止画像（コマ画像）を切り出して提供するということは行なっていない。これに対し、本実施形態の遠隔撮影システム１００は、８Ｋの（7680×4320ピクセル）或いは４Ｋ（3840×2160ピクセル）等の超高解像度・高精細映像の画質をベースに撮影をしており、視聴端末３Ｎの液晶画面がＦＨＤ画質であっても、８Ｋや４Ｋ等といった高精細な静止画像を参加者３に提供するために、高画質の視聴用動画からエフェクトを外した高画質動画を生成しておく。次に、ステップＳ２１で生成した動画像から、所定のフレームレートに基づく複数の静止画を出力する（ステップＳ２２）。つまり、動画像を複数のコマ画像に分解する。配信動画が４Ｋ画像で、３０fps（１秒間が３０枚の画像で構成されるフレームレート）である４Ｋ３０fpsの場合、視聴用動画配信の開始時刻から１/３０＝0.0333秒を加算した経過時間により各コマ画像を識別することができる。なお、他の実施形態ではエフェクトを外さず（即ち、ステップ２１を行うことなく）、ステップ２０からステップ２２にダイレクトに進むようにしてもよい。次に、ステップＳ２２で作成した複数のコマ画像の中から一部の静止画を除去する（ステップＳ２３）。除去する一部の静止画とは、目つぶりやふさわしくないポージング等が含まれたものである。また、アーティスト等の著作権等を管理する側が許容しないＮＧカット画像も除去しておく。以下では、これらをまとめてＮＧカットと言う。図３（Ａ）は、編集済みの視聴用動画と、除去すべきと判断されたＮＧカットが指定された複数のコマ画像の関係を示している。図３（Ａ）は、エフェクトが外された１秒間３０枚の視聴用動画から書き出される静止画を例にしており、４，５，１１，１２，１３，２１，２２，２７の各コマが目つぶり等を理由にＮＧカットとして指定されている。サーバには、このようなＮＧカットが省かれた複数のコマ画像から構成された再構成静止画を格納しておく（ステップＳ２４）。なお、ＮＧカットに相当する一部の静止画を実際に除去せず、どのコマがＮＧカットであるかを識別できるようフラグやテーブル等を用いたソフトウェア処理によってＮＧカットを疑似的に省くというやり方で再構成静止画に相当させるようにしてもよい。本実施形態の場合、どのコマ画像をＮＧカットに指定するかを人手で決定しているが、顔認識ソフトや視線追跡ソフトなどの画像認識アプリケーションやＡＩアプリケーションを用いて、ＮＧカットの選別を自動で行うようにしてもよい。次に、ステップＳ２４で作成した再構成静止画にレタッチ処理を施して（ステップＳ２５）、シャッター出力用静止画を構築しサーバに格納しておく（ステップＳ２６）。レタッチ処理とは、例えば、被写体の肌を色調整したり、肌の状態をきめ細かくしたり、目を大きくするなどの顔又は体の部位の修正、さらには背景色又は衣装の色を変化させる画像処理を含む。また、特定の部分だけ明るくする、不要なものを消す、集合写真に欠席者を合成するなどの再構成静止画に含まれていない対象物の追加及び削除のための処理を含んでもよく、レタッチの種類や内容に特段の制約はない。なお、必ずレタッチ処理をしなければならないというものではなく、必要に応じて行えばよい。このようにしてシャッター出力用静止画を準備しておいた後、視聴用動画を参加者３へ配信する。視聴用動画の配信開始時刻は通信ネットワーク４に繋がるサーバで一元管理され、各参加者３のシャッター操作時刻は配信動画の開始時刻との関係で管理される。つまり、配信動画の開始時刻からの経過時間がシャッター操作時刻をあらわす。視聴用動画を複数の参加者に同時に配信する場合、サーバは各参加者に共通の１つの開始時刻を管理することになるが、参加者ごとに開始時刻をずらして配信する場合にはサーバは各参加者に対応する開始時刻を管理するものとする。撮影会に参加する参加者３が各自の視聴端末３Ｎで受信する動画に対してシャッター操作をした時刻は、リアルタイムでサーバへ送信されてサーバ側で記録される。当該時刻はU