KR-20260061251-A - 증강 현실 브로드캐스트 통합을 위한 시스템 및 방법

KR20260061251AKR 20260061251 AKR20260061251 AKR 20260061251AKR-20260061251-A

Abstract

증강 현실(AR) 효과들로 라이브 비디오 피드들을 증강시키기 위한 방법 및 시스템. 복수의 비디오 프레임들을 포함하는 라이브 비디오 피드가 수신되고, 비디오 프레임들의 포맷이 결정된다. 비디오 프레임들은 AR 소프트웨어 개발 키트(SDK)와 호환가능한 포맷으로 변환된다. AR SDK로부터의 하나 이상의 AR 효과가 변환된 프레임들에 적용된다. 이것은 프레임들 내의 객체들의 묘사들을 검출하는 것 및 검출된 객체들에 효과들을 적용하는 것을 포함할 수 있다. 효과들은 검출된 객체 타입들에 기초하여 선택될 수 있다. 그 다음, 프레임들은 원래의 포맷으로 다시 재변환된다. 프레임 레이트가 비디오 피드와 AR SDK 사이에서 상이한 경우, AR 효과들을 적용하기 전 및 후에 프레임 레이트 변환이 수행된다. AR 효과들을 포함하는 증강된 비디오 프레임들은, 브로드캐스트 또는 디스플레이를 위한 것과 같이, 출력으로서 제공된다.

Inventors

찰턴, 에보니 제임스
구젠, 멕스웰
잭슨, 마이카 디.
로, 벤자민
페시안, 아라시
캐빈스, 크리스토퍼

Assignees

스냅 인코포레이티드

Dates

Publication Date: 20260506
Application Date: 20240906
Priority Date: 20240212

Claims (20)

방법으로서, 복수의 비디오 프레임들을 포함하는 라이브 브로드캐스트 비디오 피드를 수신하는 단계; 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계; 상기 복수의 비디오 프레임들의 각각의 프레임을 상기 제1 비디오 포맷으로부터 증강 현실(AR) 소프트웨어 개발 키트(SDK)에 대응하는 제2 비디오 포맷으로 변환하는 단계; 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 상기 AR SDK의 하나 이상의 AR 효과를 적용하는 단계; 상기 복수의 비디오 프레임들의 각각의 프레임을 상기 제1 비디오 포맷으로 재변환하는 단계; 및 상기 하나 이상의 AR 효과를 포함하는 상기 복수의 비디오 프레임들을 브로드캐스트 비디오 출력 인터페이스에 제공하는 단계 를 포함하는, 방법.
제1항에 있어서, 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계는 상기 라이브 브로드캐스트 비디오 피드의 속성에 기초하는, 방법.
제1항에 있어서, 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계는 상기 제1 비디오 포맷을 식별하는 입력에 기초하는, 방법.
제1항에 있어서, 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 하나 이상의 AR 효과를 적용하는 단계는: 상기 복수의 비디오 프레임들 내의 객체의 묘사를 검출하는 단계; 및 상기 복수의 비디오 프레임들 내의 상기 객체의 상기 묘사에 상기 하나 이상의 AR 효과를 적용하는 단계 를 포함하는, 방법.
제4항에 있어서, 상기 객체의 묘사를 검출하는 단계는: 상기 하나 이상의 AR 효과를 선택하는 입력을 수신하는 단계 - 상기 하나 이상의 AR 효과는 객체 타입에 대응함 -; 및 선택된 하나 이상의 AR 효과의 상기 객체 타입에 기초하여 상기 복수의 비디오 프레임들 내에서 상기 객체의 상기 묘사를 검출하는 단계 를 포함하는, 방법.
제1항에 있어서, 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 하나 이상의 AR 효과를 적용하는 단계는: 복수의 AR 효과들 중에서 상기 하나 이상의 AR 효과를 선택하는 입력을 수신하는 단계 를 포함하는, 방법.
제1항에 있어서, 상기 라이브 브로드캐스트 비디오 피드 입력은 제1 프레임 레이트를 포함하고, 상기 AR SDK는 제2 프레임 레이트에서 동작하며, 상기 라이브 브로드캐스트 비디오 피드의 상기 복수의 프레임들을 상기 제1 프레임 레이트로부터 상기 제2 프레임 레이트로 변환하는 단계; 상기 라이브 브로드캐스트 피드의 변환된 복수의 프레임들 각각에 상기 AR SDK의 상기 하나 이상의 AR 효과를 적용하는 단계; 및 상기 하나 이상의 AR 효과를 포함하는 상기 변환된 복수의 프레임들을 상기 라이브 브로드캐스트 피드와 연관된 상기 제1 프레임 레이트로 상향변환하는 단계 를 더 포함하는, 방법.
시스템으로서, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하는 명령어들을 포함한 메모리 를 포함하고, 상기 동작들은: 복수의 비디오 프레임들을 포함하는 라이브 브로드캐스트 비디오 피드를 수신하는 단계; 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계; 상기 복수의 비디오 프레임들의 각각의 프레임을 상기 제1 비디오 포맷으로부터 증강 현실(AR) 소프트웨어 개발 키트(SDK)에 대응하는 제2 비디오 포맷으로 변환하는 단계; 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 상기 AR SDK의 하나 이상의 AR 효과를 적용하는 단계; 상기 복수의 비디오 프레임들의 각각의 프레임을 상기 제1 비디오 포맷으로 재변환하는 단계; 및 상기 하나 이상의 AR 효과를 포함하는 상기 복수의 비디오 프레임들을 브로드캐스트 비디오 출력 인터페이스에 제공하는 단계 를 포함하는, 시스템.
제8항에 있어서, 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계는 상기 라이브 브로드캐스트 비디오 피드의 속성에 기초하는, 시스템.
제8항에 있어서, 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계는 상기 제1 비디오 포맷을 식별하는 입력에 기초하는, 시스템.
제8항에 있어서, 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 하나 이상의 AR 효과를 적용하는 단계는: 상기 복수의 비디오 프레임들 내의 객체의 묘사를 검출하는 단계; 및 상기 복수의 비디오 프레임들 내의 상기 객체의 상기 묘사에 상기 하나 이상의 AR 효과를 적용하는 단계 를 포함하는, 시스템.
제11항에 있어서, 상기 객체의 묘사를 검출하는 단계는: 상기 하나 이상의 AR 효과를 선택하는 입력을 수신하는 단계 - 상기 하나 이상의 AR 효과는 객체 타입에 대응함 -; 및 선택된 하나 이상의 AR 효과의 상기 객체 타입에 기초하여 상기 복수의 비디오 프레임들 내에서 상기 객체의 상기 묘사를 검출하는 단계 를 포함하는, 시스템.
제8항에 있어서, 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 상기 하나 이상의 AR 효과를 적용하는 단계는: 복수의 AR 효과들 중에서 하나 이상의 AR 효과를 선택하는 입력을 수신하는 단계 를 포함하는, 시스템.
제8항에 있어서, 상기 라이브 브로드캐스트 비디오 피드 입력은 제1 프레임 레이트를 포함하고, 상기 AR SDK는 제2 프레임 레이트에서 동작하며, 상기 라이브 브로드캐스트 비디오 피드의 상기 복수의 프레임들을 상기 제1 프레임 레이트로부터 상기 제2 프레임 레이트로 변환하는 단계; 상기 라이브 브로드캐스트 피드의 변환된 복수의 프레임들 각각에 상기 AR SDK의 상기 하나 이상의 AR 효과를 적용하는 단계; 및 상기 하나 이상의 AR 효과를 포함하는 상기 변환된 복수의 프레임들을 상기 라이브 브로드캐스트 피드와 연관된 상기 제1 프레임 레이트로 상향변환하는 단계 를 더 포함하는 시스템.
머신의 하나 이상의 프로세서에 의해 실행될 때, 상기 머신으로 하여금 동작들을 수행하게 하는 명령어들을 포함한 머신 판독가능 저장 매체로서, 상기 동작들은: 복수의 비디오 프레임들을 포함하는 라이브 브로드캐스트 비디오 피드를 수신하는 단계; 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계; 상기 복수의 비디오 프레임들의 각각의 프레임을 상기 제1 비디오 포맷으로부터 증강 현실(AR) 소프트웨어 개발 키트(SDK)에 대응하는 제2 비디오 포맷으로 변환하는 단계; 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 상기 AR SDK의 하나 이상의 AR 효과를 적용하는 단계; 상기 복수의 비디오 프레임들의 각각의 프레임을 상기 제1 비디오 포맷으로 재변환하는 단계; 및 상기 하나 이상의 AR 효과를 포함하는 상기 복수의 비디오 프레임들을 브로드캐스트 비디오 출력 인터페이스에 제공하는 단계 를 포함하는, 머신 판독가능 저장 매체.
제15항에 있어서, 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계는 상기 라이브 브로드캐스트 비디오 피드의 속성에 기초하는, 머신 판독가능 저장 매체.
제16항에 있어서, 상기 복수의 비디오 프레임들의 제1 비디오 포맷을 결정하는 단계는 상기 제1 비디오 포맷을 식별하는 입력에 기초하는, 머신 판독가능 저장 매체.
제15항에 있어서, 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 하나 이상의 AR 효과를 적용하는 단계는: 상기 복수의 비디오 프레임들 내의 객체의 묘사를 검출하는 단계; 및 상기 복수의 비디오 프레임들 내의 상기 객체의 상기 묘사에 상기 하나 이상의 AR 효과를 적용하는 단계 를 포함하는, 머신 판독가능 저장 매체.
제18항에 있어서, 상기 객체의 묘사를 검출하는 단계는: 상기 하나 이상의 AR 효과를 선택하는 입력을 수신하는 단계 - 상기 하나 이상의 AR 효과는 객체 타입에 대응함 -; 및 선택된 하나 이상의 AR 효과의 상기 객체 타입에 기초하여 상기 복수의 비디오 프레임들 내에서 상기 객체의 상기 묘사를 검출하는 단계 를 포함하는, 머신 판독가능 저장 매체.
제15항에 있어서, 상기 복수의 비디오 프레임들의 변환된 프레임들 각각에 하나 이상의 AR 효과를 적용하는 단계는: 복수의 AR 효과들 중에서 상기 하나 이상의 AR 효과를 선택하는 입력을 수신하는 단계 를 포함하는, 머신 판독가능 저장 매체.

Description

증강 현실 브로드캐스트 통합을 위한 시스템 및 방법 우선권 주장 본 특허 출원은 2024년 2월 12일자로 출원된 미국 특허 출원 제18/439,491호에 대한 우선권을 주장하며, 해당 미국 출원은 2023년 9월 6일자로 출원되고 발명의 명칭이 "증강 현실 브로드캐스트 통합을 위한 시스템 및 방법(SYSTEM AND METHOD FOR AUGMENTED REALITY BROADCAST INTEGRATION)"인 미국 특허 가출원 제63/580,841호의 이익을 주장하고, 이들은 그 전체가 본 명세서에 참조로 포함된다. 증강 현실(AR) 기술은 스마트폰들 및 모바일 디바이스들의 광범위한 채택으로 더 보편화되었다. 많은 소프트웨어 애플리케이션들은 이제 디바이스의 카메라에 의해 캡처된 바와 같은 사용자의 실시간 환경에 그래픽 오버레이들 및 효과들을 적용함으로써 AR 경험들을 제공한다. AR 애플리케이션들이 모바일 플랫폼들 상에서 일반화되었지만, 라이브 브로드캐스트 비디오 피드들로의 통합은 추가적인 도전과제들을 제기한다. AR 효과들은 전형적으로 모바일 디바이스들에 적합한 더 낮은 해상도들 및 프레임 레이트들에서 실행되도록 설계된다. 그러나, 브로드캐스트 표준들은 약 60 fps의 높은 프레임 레이트들에서 1080p 또는 4K의 훨씬 더 높은 해상도들을 요구한다. 라이브 비디오 스트림들에 AR 효과들을 적용하는 것은 특수화된 비디오 처리 능력들을 요구한다. 비디오 피드는 AR 소프트웨어 개발 키트들(SDK들)에 의해 사용가능한 포맷으로 변환되어야 한다. AR 효과들을 적용한 후에, 비디오는 브로드캐스트 표준들로 다시 변환될 필요가 있다. 고성능 및 낮은 레이턴시는 라이브 비디오에 중요하다. 기존의 AR 솔루션들은 브로드캐스트 워크플로우들을 위해 설계되지 않았다. 사용자 인터페이스들은 전문 운영자들보다는 모바일 사용 사례들에 대해 맞춤화되는 경향이 있다. 이는 AR 효과들을 라이브 이벤트들 및 제작들에 매끄럽게 통합하는 것을 어렵게 한다. 따라서, AR 효과들을 확장성을 갖고(at scale) 라이브 브로드캐스트들에 적용할 수 있는 시스템이 필요하다. 시스템은 AR SDK를 위한 비디오 포맷 변환 및 최적화를 다루어야 한다. 이는 또한 브로드캐스트 운영자들이 라이브 이벤트 동안 실시간으로 AR 효과들을 미리보기하고 제어하기 위한 커스텀 인터페이스들을 요구한다. 반드시 축척에 맞게 그려진 것은 아닌 도면들에서, 유사한 번호들은 상이한 도면들에서 유사한 컴포넌트들을 설명할 수 있다. 임의의 특정 요소 또는 동작의 논의를 용이하게 식별하기 위해, 참조 번호에서의 최상위 숫자 또는 숫자들은 그 요소가 처음 도입되는 도면 번호를 지칭한다. 일부 실시예들은 다음과 같은 첨부 도면들의 도면들에서 제한이 아닌 예로서 예시된다. 도 1은 일부 예들에 따른, 본 개시내용이 배치될 수 있는 네트워킹된 환경의 도식적 표현이다. 도 2는 일부 예들에 따른, 클라이언트 측 및 서버 측 기능성 둘 다를 갖는 메시징 시스템의 도식적 표현이다. 도 3은 일 실시예에 따른, 메시지에 대한 응답에 포함시킬 하나 이상의 사용자 그룹을 제안하기 위한 방법을 묘사하는 흐름도이다. 도 4는 일 실시예에 따른 주제의 양태를 예시한다. 도 5는 일 실시예에 따른 주제의 양태를 예시한다. 도 6은 일 실시예에 따른 주제의 양태를 예시한다. 도 7은 일부 예들에 따른, 머신으로 하여금 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행하게 하기 위한 명령어들의 세트가 내부에서 실행될 수 있는 컴퓨터 시스템 형태의 머신에 대한 도식적 표현이다. 도 8은 예들이 구현될 수 있는 소프트웨어 아키텍처를 도시하는 블록도이다. 도 9는 일부 예들에 따른, 처리 환경의 도식적 표현이다. 증강 현실(AR) 기술은 스마트폰들이 유비쿼터스가 되고 실시간 컴퓨터 비전 및 그래픽들을 통합할 수 있게 됨에 따라 최근 몇 년 간 모바일 애플리케이션들 및 디바이스들에서 급격한 채택이 이루어졌다. 그러나, 라이브 브로드캐스트 비디오 워크플로우들에서의 채택은 현재까지 더 제한되었다. 매력적인 AR 효과들을 라이브 피드들에 통합하는 것은 실시간 처리 제약들, 포맷 비호환성들, 및 브로드캐스트 운영자들에 대한 커스터마이징의 결여를 포함하는 다수의 도전과제들을 제기한다. 대부분의 현재의 방법들은 라이브 이벤트들에 대한 실제 사용을 방지하는 오프라인 후처리에 의존한다. 일부 기존의 네트워킹된 솔루션들은 엔드-투-엔드 레이턴시 요건들을 충족시키지 못하거나 브로드캐스터의 특정 요구들에 대한 맞춤화가 부족하다. 본 개시내용은 실시간으로 생성되는 상호작용형 AR 오버레이들을 사용하여 브로드캐스트들을 증강하기 위해 특수화된 시스템 아키텍처를 통해 이러한 문제들을 해결한다. 특정 예시적인 실시예들에 따르면, 본 개시내용은 AR 효과들을 사용하여 라이브 브로드캐스트 비디오 피드들을 증강시키기 위한 다수의 상호연결된 모듈들을 갖는 시스템을 설명한다. 이는 라이브 비디오 피드 도메인과 AR SDK 도메인 사이의 포맷 변환을 담당하는 비디오 변환 모듈, 컴퓨터 비전 기술들 및 AR 소프트웨어 개발 키트를 사용하여 효과들을 적용하는 AR 효과 모듈, 및 비디오를 브로드캐스트 표준들로 재변환하고 증강된 피드를 출력하는 브로드캐스트 통합 모듈을 포함한다. 시스템은 범용 하드웨어, 전용 비디오 처리 하드웨어, 또는 이들의 조합 상에서 실행되는 소프트웨어를 통해 구현될 수 있다. 개시된 기술들은 라이브 비디오 피드와 AR SDK 도메인들 사이의 포맷 변환을 핸들링하기 위한 시스템을 제공한다. 객체 검출은 장면 콘텐츠에 기초하여 AR 효과들이 선택적으로 적용되는 것을 추가로 허용한다. 시스템은 라이브 브로드캐스트 시나리오들에 맞춤화된 직관적인 사용자 인터페이스를 통해 제어가능하다. 기술들은 실시간으로 커스터마이징된 상호작용형 AR 오버레이들로 라이브 이벤트들, 브로드캐스트들, 및 제작들을 향상시킬 수 있다. 특정 예시적인 실시예들에 따르면, 본 개시내용은 계산적으로 효율적인 방식으로 모바일 SDK로부터의 AR 효과들을 사용하여 라이브 브로드캐스트 비디오 피드들을 증강시키기 위한 시스템 및 방법을 설명한다. 시스템은 브로드캐스트 표준들을 충족시키는 라이브 브로드캐스트 비디오 피드를 수신한다. 예를 들어, 비디오 피드는 비디오 카메라들, 제작 스위처들, 서버들, 또는 다른 라이브 비디오 처리 시스템들과 같은 소스들로부터 수신될 수 있다. 예시적인 포맷들은 브로드캐스트 품질 표준들과 매칭하기 위해 1080p 또는 4K의 해상도들 및 60 fps의 프레임 레이트들을 포함한다. 시스템은 해상도, 프레임 레이트, 및 컬러 공간과 같은 입력 비디오 피드의 파라미터들을 결정하고, 피드를 AR SDK와 호환가능한 포맷으로 변환한다. 예를 들어, 시스템은 다음과 같을 수 있다: ● 해상도를 4K에서 1080p로 다운스케일 ● 프레임 레이트를 60 fps로부터 30 fps로 변환 ● 컬러 공간을 YCbCr로부터 sRGB로 변환 따라서, 시스템은 변환된 프레임들에 하나 이상의 AR 효과를 적용한다. 이것은 얼굴들과 같은 객체들을 검출하고 객체들 상에 가상 그래픽들 또는 효과들을 오버레이하는 것을 포함할 수 있다. 예를 들어, 시스템은 변환된 프레임들에 하나 이상의 AR 효과를 적용한다. 시스템은 얼굴 인식과 같은 기술들을 사용하여 얼굴들과 같은 객체들을 검출할 수 있다. 그것은 물리적 표면들 및 환경들에 매핑된 가상 오버레이들로 검출된 객체들을 증강시킨다. 예를 들어, 시스템은 다음을 오버레이할 수 있다: ● 검출된 얼굴 상의 가상 안경, 마스크, 모자 ● 검출된 신체 상의 애니메이션화된 3D 모델 ● 검출된 건축 표면 상의 그래픽 텍스처 AR 효과 선택 인터페이스는 라이브 비디오 피드에 적용할 효과들을 미리보기하고 선택하기 위해 클라이언트 디바이스에 제시될 수 있다. 시스템이 프레임들에 AR 효과들을 적용한 후에, 시스템은 프레임들을 다시 원래의 브로드캐스트 비디오 포맷으로 재변환한다. 일부 실시예들에서, 시스템은 변환 프로세스들을 적절하게 구성하기 위해 해상도, 프레임 레이트, 및 컬러 공간/픽셀 포맷과 같은 라이브 비디오 피드의 키 파라미터들을 결정한다. 예를 들어, 시스템은 헤더들 및 신호 특성들을 분석함으로써, 들어오는 1080i 59.94 Hz Y'CbCr 피드 또는 720p 60 Hz RGB 피드를 자동 검출할 수 있다. 시스템은 또한 예상되는 비디오 포맷들의 수동 사용자 구성에 기초하여 파라미터들을 검출할 수 있다. SD, HD, 및 UHD 4K에서 인터레이스형 및 프로그레시브 스캔 신호들과 같은 광범위한 공통 브로드캐스트 포맷들을 자동으로 지원함으로써, 시스템은 다양한 브로드캐스트 장비와 유연하게 인터페이스할 수 있다. 시스템은 라이브 비디오를 AR SDK와 호환가능한 도메인으로 변환하기 위해, 검출된 포맷에 기초하여 그 변환 프로세스를 적응시킨다. 예를 들어, 피드가 1080p 60 fps YCbCr인 경우, 모듈은 AR 효과 모듈을 위해 720p 30 fps RGB로 다운스케일링할 것이다. 일부 실시예들에서, 시스템은 국제적으로 표준화된 직렬 디지털 인터페이스(SDI) 연결들을 통해 다양한 브로드캐스트 비디오 피드 소스들과 인터페이스하여, 전문 카메라들, 스위처들, 및 인프라스트럭처와의 상호동작을 허용한다. 시스템은 또한 HDMI, DVI, 및 IP-기반 NDI 피드들과 같은 다른 공통 인터페이스들을 받아들일 수 있다. 이러한 유연성은 AR 증강 시스템이 브로드캐스트 제작 워크플로우 내의 다양한 포인트들에서 통합되는 것을 허용한다. 시스템은 1차 카메라들, 스위처 프로그램 출력들, 비디오 서버들, 또는 다른 비디오 라우팅 하드웨어로부터 피드들을 받아들일 수 있다. 시스템은 구성을 단순화하기 위해 입력 파라미터들을 자동 협상한다. 이것은 시스템이 수동 구성 없이 상이한 타입들의 라이브 브로드캐스트 장비 및 워크플로우들과 인터페이싱하는 것을 허용한다. 비디오 변환 모듈은 입력 비디오 특성들에 기초하여 AR SDK 도메인으로의 변환 및 그로부터의 변환을 자동으로 핸들링한다. 일부 실시예들에서, 시스템은 클라이언트 디바이스로