JP-2026514660-A - デジタル文書に対する音声署名の生成、適用、および検証

JP2026514660AJP 2026514660 AJP2026514660 AJP 2026514660AJP-2026514660-A

Abstract

本開示は、署名の可聴承認を受信することに基づいて、デジタル文書に音声署名を生成および適用するためのシステム、非一時的コンピュータ可読媒体、および方法に関する。特に、１つ以上の実施形態では、開示されるシステムは、文書内の署名可能フィールドに対してプロンプトを含むフィールドプロンプト音声ファイルを生成する。さらに、１つ以上の実施形態では、開示されるシステムは、フィールドプロンプト音声ファイルに応答して可聴承認を受信する。一部の実施形態では、可聴承認に基づいて、開示されるシステムは、音声署名を生成し、デジタル文書の署名可能フィールドに音声署名を適用する。

Inventors

クロスタ，ダニエルエス．
シュウビン，アレクサンダー

Assignees

ドロップボックス，インコーポレイテッド

Dates

Publication Date: 20260513
Application Date: 20240227
Priority Date: 20230418

Claims (20)

署名可能フィールドを含むデジタル文書からフィールドプロンプト音声ファイルを生成することと、クライアントデバイスによる可聴提示のための前記フィールドプロンプト音声ファイルを提供することと、前記クライアントデバイスから前記フィールドプロンプト音声ファイルに対する音声応答を受信することであって、前記音声応答は、前記デジタル文書内の前記署名可能フィールドに署名するための可聴承認を含む、受信することと、前記音声応答から、前記デジタル文書内の前記署名可能フィールドの署名を承認する認証済み音声クリップを含む音声署名を生成することと、前記音声署名を前記デジタル文書に適用することによって署名済みデジタル文書を生成することと、を含む、方法。
前記フィールドプロンプト音声ファイルを生成することは、前記デジタル文書を光学式文字認識エンジンに提供してテキストを生成することと、前記テキストを音声エンジンに提供して前記フィールドプロンプト音声ファイルを生成することと、を含む、請求項１に記載の方法。
複数選択式の質問またはテキストフィールドのうちの１つを含む前記デジタル文書内の追加フィールドを識別することと、前記追加フィールドに対応する音声発話情報を与えるためのプロンプトを含む追加フィールドプロンプト音声ファイルを提供することと、前記音声発話情報をテキストに変換することと、をさらに含み、前記署名済みデジタル文書を生成することは、さらに、前記テキストに基づいて前記追加フィールドを入力することを含む、請求項１に記載の方法。
前記署名を承認する前記認証済み音声クリップを前記署名済みデジタル文書に埋め込むこと、をさらに含む、請求項１に記載の方法。
前記音声署名に関連付けられたユーザアカウントに対応する生体認証データを識別することと、前記生体認証データを利用して前記音声応答を認証することと、をさらに含む、請求項１に記載の方法。
前記署名済みデジタル文書を生成することに応答して、署名済みデジタル文書を追加のクライアントデバイスに提供することと、前記追加のクライアントデバイスから非音声デジタル署名を受信することと、前記署名済みデジタル文書に前記非音声デジタル署名を適用することと、をさらに含む、請求項１に記載の方法。
前記署名済みデジタル文書を生成することは、前記音声署名が音声によって受信されたというインディケーションを生成し、前記署名済みデジタル文書に適用することをさらに含む、請求項１に記載の方法。
少なくとも１つのプロセッサによって実行された場合、コンピュータシステムを、署名可能フィールドを含むデジタル文書からフィールドプロンプト音声ファイルを生成し、前記フィールドプロンプト音声ファイルは、前記デジタル文書の前記署名可能フィールドへの音声応答を促す音声を含み、クライアントデバイスによって可聴提示用フィールドプロンプト音声ファイルを提供し、前記クライアントデバイスから前記フィールドプロンプト音声ファイルに対する音声応答を受信し、前記音声応答は、前記デジタル文書内の前記署名可能フィールドに署名するための可聴承認を含み、前記音声応答から、前記デジタル文書内の前記署名可能フィールドの署名を承認する認証済み音声クリップを含む音声署名を生成し、前記音声署名を前記デジタル文書に適用することによって署名済みデジタル文書を生成する、ように動作させる命令を記憶する非一時的コンピュータ可読媒体。
前記少なくとも１つのプロセッサによって実行された場合、前記コンピュータシステムを、前記デジタル文書を光学式文字認識エンジンに提供してテキストを生成し、前記テキストを音声エンジンに提供して前記フィールドプロンプト音声ファイルを生成する、ように動作させる命令をさらに含む、請求項８に記載の非一時的コンピュータ可読媒体。
前記少なくとも１つのプロセッサによって実行された場合、前記コンピュータシステムを、複数選択式の質問またはテキストフィールドのうちの１つを含む前記デジタル文書内の追加フィールドを識別し、前記追加フィールドに対応する音声発話情報を与えるためのプロンプトを含む追加フィールドプロンプト音声ファイルを提供し、前記音声発話情報をテキストに変換する、ように動作させる命令をさらに含み、前記署名済みデジタル文書を生成することは、さらに、前記テキストに基づいて前記追加フィールドを入力することを含む、請求項８に記載の非一時的コンピュータ可読媒体。
前記少なくとも１つのプロセッサによって実行された場合、前記コンピュータシステムを、前記署名を承認する前記認証済み音声クリップを前記署名済みデジタル文書に埋め込むように、動作させる命令をさらに含む、請求項８に記載の非一時的コンピュータ可読媒体。
前記少なくとも１つのプロセッサによって実行された場合、前記コンピュータシステムを、前記音声署名に関連付けられたユーザアカウントに対応する生体認証データを識別し、前記生体認証データを利用して前記音声応答を認証する、ように動作させる命令をさらに含む、請求項８に記載の非一時的コンピュータ可読媒体。
前記少なくとも１つのプロセッサによって実行された場合、前記コンピュータシステムを、前記署名済みデジタル文書の生成に応答して、前記署名済みデジタル文書を追加のクライアントデバイスに提供し、前記追加のクライアントデバイスから非音声デジタル署名を受信し、前記署名済みデジタル文書に前記非音声デジタル署名を適用する、ように動作させる命令をさらに含む、請求項８に記載の非一時的コンピュータ可読媒体。
前記署名済みデジタル文書を生成することは、前記音声署名が音声によって受信されたというインディケーションを生成し、前記署名済みデジタル文書に適用することをさらに含む、請求項８に記載の非一時的コンピュータ可読媒体。
少なくとも１つのプロセッサと、命令を格納する少なくとも１つの非一時的コンピュータ読取り可能な記憶媒体とを含むシステムであって、前記命令は前記少なくとも１つのプロセッサによって実行された場合、前記システムを、署名可能フィールドを含むデジタル文書からフィールドプロンプト音声ファイルを生成し、クライアントデバイスによって可聴提示用フィールドプロンプト音声ファイルを提供し、前記クライアントデバイスから前記フィールドプロンプト音声ファイルに対する音声応答を受信し、前記音声応答は、前記デジタル文書内の前記署名可能フィールドに署名するための可聴承認を含み、前記音声応答が前記可聴承認を含むという判定に基づいて、前記デジタル文書内の前記署名可能フィールドの署名を承認する認証済み音声クリップを含む音声署名を生成し、前記音声署名を前記デジタル文書に適用することによって署名済みデジタル文書を生成する、ように動作させる、システム。
前記少なくとも１つのプロセッサによって実行された場合、前記システムを、前記デジタル文書を光学式文字認識エンジンに提供してテキストを生成し、前記テキストを音声エンジンに提供して前記フィールドプロンプト音声ファイルを生成する、ように動作させる命令をさらに含む、請求項１５に記載のシステム。
前記少なくとも１つのプロセッサによって実行された場合、前記システムを、複数選択式の質問またはテキストフィールドのうちの１つを含む前記デジタル文書内の追加フィールドを識別し、前記追加フィールドに対応する音声発話情報を与えるためのプロンプトを含む追加フィールドプロンプト音声ファイルを提供し、前記音声発話情報をテキストに変換する、ように動作させる命令をさらに含み、前記署名済みデジタル文書を生成することは、さらに、前記テキストに基づいて前記追加フィールドを入力することを含む、請求項１５に記載のシステム。
前記少なくとも１つのプロセッサによって実行された場合、前記システムを、前記音声署名に関連付けられたユーザアカウントに対応する生体認証データを識別し、前記生体認証データを利用して前記音声応答を認証する、ように動作させる命令をさらに含む、請求項１５に記載のシステム。
前記少なくとも１つのプロセッサによって実行された場合、前記システムを、前記署名済みデジタル文書の生成に応答して、前記署名済みデジタル文書を追加のクライアントデバイスに提供し、前記追加のクライアントデバイスから非音声デジタル署名を受信し、前記署名済みデジタル文書に前記非音声デジタル署名を適用する、ように動作させる命令をさらに含む、請求項１５に記載のシステム。
前記署名済みデジタル文書を生成することは、前記音声署名が音声によって受信されたというインディケーションを生成し、前記署名済みデジタル文書に適用することをさらに含む、請求項１５に記載のシステム。

Description

（関連出願の相互参照）本出願は、２０２３年４月１８日に出願された米国特許出願第１８／３０２，４６４号の優先権および利益を主張し、その全体が参照により本明細書に組み込まれる。（背景技術）近年、電子文書のためのハードウェアおよびソフトウェアプラットフォームの著しい改善がみられる。したがって、電子署名システムの普及は大幅に増加している。多くの既存の電子署名システムは、印刷およびスキャンを行わずに電子文書内の電子署名を利用するための様々な方法を提供している。例えば、既存の電子署名システムの中には、ユーザが物理的又はデジタルキーボードを用いて署名をタイプすることによって電子署名を採用しなければならないものもある。さらに、一部の既存の電子署名システムは、ユーザが、マウスまたはタッチスクリーンなどの入力デバイスを使用して、枠内の領域に署名のフリーハンドバージョンを描画することを必要とする。既存のシステムは、タイプ入力またはタッチ入力を使用して電子署名を記録することができるが、そのようなシステムは、動作の精度および柔軟性に関して多くの問題を有する。例えば、既存のシステムは、署名情報を不正確にキャプチャする。具体的には、既存のシステムは、枠内の領域において署名入力を受け取ることができ、枠内の領域の外で受け取られた任意の入力を「クリップ（切り捨て）」することができる。したがって、多くの既存のシステムは、署名のすべてをキャプチャすることができず、不完全な結果の電子署名を生成する。この結果を回避するために、ユーザは、署名をゆっくり慎重に提供する必要があり、これはまた、署名の外観を変更し、デジタル署名の不正確なバージョンにつながる可能性がある。さらに、多くのユーザが、マウス、キーボード、トラックパッド、またはタッチスクリーンなどの一般的なデジタル入力デバイスを使用して署名を入力するための身体的な器用さまたは視覚的能力を欠いているので、既存のシステムはまた柔軟性を欠いている。例えば、手または腕に障害のあるユーザ、入力デバイスに精通していない個人、または大きな手または指を有する個人は、一般に、特に枠内の領域において、電子署名を入力するための既存のシステムの選択肢に困難を有する。別の例では、視覚障害を有するユーザは、既存のシステムが、どこで、どのように署名するか、または文書がユーザが同意することを要求することさえも、署名デバイスに対して指示を生成または提供することができないので、デジタル署名を提供することができないことが多い。さらに、健常なユーザは、既存のシステムが要求する方法でコンピューティングデバイスを使用することが、不便であるか、場合によっては安全ではない状況にしばじば自分があることに気が付くかもしれない。デジタル署名を生成する際の既存のシステムの堅固で柔軟性のないアプローチは、これらの状況において署名を生成することができない。これらに加えて、既存のデジタル署名システムに関して、さらなる問題および課題が存在する。本開示の実施形態は、デジタル文書内の署名可能フィールドに対して音声プロンプトを生成し、音声応答を受信および解釈することによって、デジタル文書の音声署名を生成する、システム、非一時的コンピュータ可読媒体、および方法を用いて、当技術分野における前述のまたは他の問題のうちの１つ以上を解決し、および／または、利点を提供する。より具体的には、１つ以上の実施形態では、開示されるシステムは、デジタル文書内の署名可能フィールドに基づいて、デジタル文書のためのフィールドプロンプト音声ファイルを生成する。したがって、一部の実施形態では、開示されるシステムは、フィールドプロンプト音声ファイルをクライアントデバイスに提供し、クライアントデバイスを介して署名可能フィールドの可聴承認を含む音声応答を受信する。したがって、１つ以上の実施形態では、開示されるシステムは、音声署名を生成するために音声応答を利用する。一部の実施形態では、開示されるシステムは、デジタル文書に音声署名を適用して、署名済みデジタル文書を生成する。本開示の１つ以上の実施形態のさらなる特徴および利点は、以下の説明において概説され、一部は、その説明から明らかになるか、またはそのような例示的な実施形態の実施によって理解され得る。詳細な説明は、以下に簡単に説明するように、添付の図面を使用することによって、追加の特異性および詳細を有する１つ以上の実施形態を提供する。図１は、１つ以上の実施形態に従った、音声署名管理システムが動作することができる環境の図を示す。図２は、１つ以上の実施形態に従った、デジタル文書に対応する音声をクライアントデバイスに提供するためのプロセスを示す。図３は、１つ以上の実施形態に従った、音声署名を生成し、デジタル文書に適用するためのプロセスを示す。図４は、１つ以上の実施形態に従った、ユーザコマンドに基づいてデジタル文書の音声署名を提供するワークフローを修正するプロセスを示す。図５は、１つ以上の実施形態に従った、様々なタイプのデジタル署名をデジタル文書に適用するためのプロセスを示す。図６は、１つ以上の実施形態に従った、音声署名を含む例示的な署名済みデジタル文書を提示する、例示的なグラフィカルユーザインターフェースを示す。図７は、１つ以上の実施形態に従った、音声署名管理システムの概略図を示す。図８は、１つ以上の実施形態に従った、音声署名を生成および適用するための一連の行為のフローチャートを示す。図９は、本開示の１つ以上の実施形態を実装するための例示的なコンピューティングデバイスのブロック図を示す。本開示は、文書内の署名可能フィールドに対する音声プロンプトを生成し、それらのプロンプトに対する音声発話での応答を解釈することによって、音声署名を生成および適用する音声署名管理システムの１つ以上の実施形態を説明する。例えば、１つ以上の実施形態では、音声署名管理システムは、音声署名を要請するためにクライアントデバイスに再生するフィールドプロンプト音声ファイルを含む文書音声ファイルを生成する。さらに、１つ以上の実施形態では、音声署名管理システムは、様々なフィールドプロンプト音声ファイルへの音声応答を受信する。したがって、一部の実施形態では、音声署名管理システムは、音声応答を解釈および／または検証して、音声応答から可聴承認を識別する。音声応答における可聴承認に基づいて、１つ以上の実施形態では、音声署名管理システムは、音声署名を生成し、それをデジタル文書内の対応する音声フィールドに適用する。前述したように、１つ以上の実施形態では、音声署名管理システムは、デジタル文書（例えば、署名フィールドを含むデジタル文書に対応する音声ファイル）用のフィールドプロンプト音声ファイルを生成する。より具体的には、一部の実施形態では、音声署名管理システムは、デジタル文書を光学文字認識エンジンに提供し、デジタル文書からテキストを生成する。さらに、１つ以上の実施形態では、音声署名管理システムは、デジタル文書内の署名可能フィールドを認識し、それらの署名可能フィールドに対応するテキストプロンプトを生成する。したがって、一部の実施形態では、音声署名管理システムは、テキスト音声変換エンジンを利用して、署名のためにクライアントデバイスに提供するために、デジタル文書に対応するフィールドプロンプト音声ファイルを生成する。文書音声ファイルをクライアントデバイスに提供すると、１つ以上の実施形態では、クライアントデバイスは、少なくとも１つのフィールドプロンプト音声ファイルを含む文書音声ファイルを再生する。さらに、クライアントデバイスは、フィールドプロンプト音声ファイルに対するの音声応答を検出し、その音声応答を音声署名管理システムに提供することができる。一部の実施形態において、音声署名管理システムは、音声応答から発話の内容を検出することによって、音声応答を解釈することができる。例えば、音声署名管理システムは、音声応答から音声発話情報を抽出し、デジタル文書に適用することができる。さらに、一部の実施形態では、音声署名管理システムは、音声応答が署名可能フィールドに署名するための承認を含むかどうかを決定する。音声応答が署名可能フィールドに署名する承認を含むとの決定に応答して、１つ以上の実施形態では、音声署名管理システムは、音声署名を生成する。さらに、１つ以上の実施形態では、音声署名管理システムは、音声署名のためのハッシュを計算するサードパーティに音声署名を提供する。さらに、一部の実施形態では、サードパーティシステムは、音声署名を検証し、音声署名を音声署名管理システムに返す。１つ以上の代替実施形態では、音声署名管理システムは、音声署名をハッシュ化し、検証することができる。さらに、一部の実施形態では、音声署名管理システムは、生体認証データを利用して音声署名を検証する。例えば、１つ以上の実施形態では、音声署名管理システムは、クライアントデバイスに関連付けられたユーザアカウントに対応する生体認証データを識別する。さらに、一部の実施形態では、音声署名管理システムは、生体認証データに基づいて、署名可能フィールドへの署名に対する可聴承認を含む音声ファイルを認証する。さらに、一部の実施形態では、音声署名管理システムは、音声署名をデジタル文書に適用することによって、署名済みのデジタル文書を生成する。一部の実施形態では、音声署名管理システムは、署名データをデジタル文書に埋め込む。例えば、音声署名管理システムは、音声署名の音声承認を含む音声ファイルをデジタル文書に埋め込むことができる。さらに、１つ以上の実施形態では、音声署名管理システムは、署名の視覚的表示および／または署名に対応する説明を用いてデジタル文書を修正する。さらに、１つ以上の実施形態では、音声署名管理システムは、様々なユーザインタラクションに基づいて、デジタル文書に対応する音声ファイルの提示を変更する。例えば、一部の実施形態では、音声署名管理システムは、ユーザ要求に基づいてデジタル文書の要約を生成する。さらに、またはその代替として、音声署名管理システムは、クライアントデバイスに対応するユーザアカウントが既に類似の文書に署名していることを決定することに基づいて、要約を提供することができる。さらに、一部の実施形態では、音声署名管理システムは、音声コマンドを利用して、音声ファイルの再生を変更したり、デジタル文書または署名ステータスを確認したりすることができる。さらに、１つ以上の実施形態では、音声署名管理システムは、異なるタイプのデジタル署名を生成し、デジタル文書に適用することができる。例えば、音声署名を含む署名済みデジタル文書を生成すると、音声署名管理システムは、署名済みデジタル文書を追加のクライアントデバイスに提供することができる。音声署名管理システムは、追加のクライアントデバイスから、タッチスクリーンベースのデジタル署名を承認するユーザ入力の指示を受信することができる。音声署名管理システムは、音声署名と非音声デジタル署名の両方を含む署名済みデジタル文書を生成することができる。従って、音声署名管理システムは、さまざまな署名システムを統合して、柔軟性を向上させることができる。また、上述のように、１つ以上の実施形態では、音声署名管理システムは、デジタル文書内の署名以外の入力可能フィールドに関する情報を受信する。例えば、デジタル文書は、入力可能なテキストフィールド、ドロップダウンメニュー、複数の選択肢の質問、及び他の情報フィールドを含むことができる。１つ以上の実施形態では、音声署名管理システムは、これらの追加フィールドに対する音声プロンプトを有するデジタル文書の音声ファイルを生成する。したがって、音声署名管理システムは、クライアントデバイスから、これらのプロンプト