KR-20260061817-A - APPARATUS AND METHOD FOR GENERATING FACIAL MOVEMENT INFORMATION USING MULTIPLE FRAME DATA FROM VIDEO

KR20260061817AKR 20260061817 AKR20260061817 AKR 20260061817AKR-20260061817-A

Abstract

본 명세서는 얼굴 움직임 정보 생성 장치 및 방법을 개시한다. 본 명세서에 따른 얼굴 움직임 정보 생성 장치는, 하드웨어 프로세서; 및 상기 프로세서에 연결되고, 얼굴 움직임 정보 생성 방법을 수행하도록 구성된 적어도 하나 이상의 컴퓨터 프로그램을 저장하는 메모리;를 포함하며, 상기 얼굴 움직임 정보 생성 방법은, 대상자를 촬영한 비디오에 포함된 복수의 프레임 데이터를 인공지능 모델에 입력하여 각 프레임에서 대상자의 얼굴에 대한 복수 개의 랜드마크 정보를 획득하는 단계; 각 프레임에 해당하는 랜드마크 정보를 이용하여 적어도 하나의 무표정 프레임 및 적어도 하나의 표정 프레임을 추출하는 단계; 및 상기 적어도 하나의 무표정 프레임과 상기 적어도 하나의 표정 프레임에서 서로 대응하는 랜드마크 정보를 이용하여 얼굴 움직임과 관련된 정보를 생성하는 단계;를 포함할 수 있다.

Inventors

김재승
권순철
윤희준
이승현

Assignees

광운대학교 산학협력단

Dates

Publication Date: 20260506
Application Date: 20241028

Claims (20)

하드웨어 프로세서; 및 상기 프로세서에 연결되고, 얼굴 움직임 정보 생성 방법을 수행하도록 구성된 적어도 하나 이상의 컴퓨터 프로그램을 저장하는 메모리;를 포함하는 얼굴 움직임 정보 생성 장치로서, 상기 얼굴 움직임 정보 생성 방법은, (a) 대상자를 촬영한 비디오에 포함된 복수의 프레임 데이터를 인공지능 모델에 입력하며, 각각의 프레임 데이터에 포함된 대상자의 얼굴에 대해서 미리 설정된 점들인 복수 개의 랜드마크 정보를 획득하는 단계; (b) 각 프레임에 해당하는 랜드마크 정보를 이용하여 상기 복수 개의 프레임 중 제1 기준에 해당하는 적어도 하나의 무표정 프레임 및 제2 기준에 해당하는 적어도 하나의 표정 프레임을 추출하는 단계; 및 (c) 상기 적어도 하나의 무표정 프레임과 상기 적어도 하나의 표정 프레임에서 서로 대응하는 랜드마크 정보를 이용하여 얼굴 움직임과 관련된 정보를 생성하는 단계;를 포함하는, 얼굴 움직임 정보 생성 장치.
청구항 1에 있어서, 상기 얼굴 움직임 정보 생성 방법은, 상기 (b) 단계 이후에, 상기 무표정 프레임이 복수 개일 때 복수 개의 무표정 프레임에서 하나의 대표 무표정 프레임을 추출하며, 상기 표정 프레임이 복수 개일 때 복수 개의 표정 프레임에서 하나의 대표 표정 프레임을 추출하는 대표 프레임 추출 단계;를 더 포함하는, 얼굴 움직임 정보 생성 장치.
청구항 2에 있어서, 상기 (b) 단계는, 각각의 프레임에서 대상자의 동공과 대상자의 눈썹 사이의 거리인 동공-눈썹 거리를 계산하며, 상기 동공-눈썹 거리가 미리 설정된 거리값 이하인 프레임을 무표정 프레임으로 추출하며, 상기 동공-눈썹 거리가 미리 설정된 거리값 이상인 프레임을 표정 프레임으로 추출하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 3에 있어서, 상기 (b) 단계는, 각각의 프레임에서 대상자의 얼굴 좌측에서의 좌측 동공-눈썹 거리를 계산하고, 대상자의 얼굴 우측에서의 우측 동공-눈썹 거리를 계산하는 것을 포함하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 4에 있어서, 상기 (b) 단계는, 아래의 수식으로 양측 동공-눈썹 거리를 산출하며, 상기 양측 동공-눈썹 거리가 미리 설정된 거리값 이하인 프레임을 무표정 프레임으로 추출하며, 상기 양측 동공-눈썹 거리가 미리 설정된 거리값 이상인 프레임을 표정 프레임으로 추출하는 단계인, 얼굴 움직임 정보 생성 장치. - : 양측 동공-눈썹 거리 - : 좌측 동공-눈썹 거리 - : 우측 동공-눈썹 거리
청구항 5에 있어서, 상기 대표 프레임 추출 단계는, 상기 양측 동공-눈썹 거리가 가장 가까운 프레임을 대표 무표정 프레임으로 추출하며, 상기 양측 동공-눈썹 거리가 가장 먼 프레임을 대표 표정 프레임으로 추출하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 2에 있어서, 상기 (b) 단계는, 각각의 프레임에서 대상자의 안구의 위치에 대응하는 복수 개의 랜드마크로 형성되는 안구 영역의 면적이 미리 설정된 면적값 이상인 프레임을 무표정 프레임으로 추출하며, 상기 안구 영역의 면적이 미리 설정된 면적값 이하인 프레임을 표정 프레임으로 추출하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 7에 있어서, 상기 대표 프레임 추출 단계는, 상기 안구 영역의 면적이 가장 큰 프레임을 대표 무표정 프레임으로 추출하며, 상기 안구 영역의 면적이 가장 작은 프레임을 대표 표정 프레임으로 추출하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 2에 있어서, 상기 (b) 단계는, 각각의 프레임에서 대상자의 입의 위치에 대응하는 복수 개의 랜드마크로 형성되는 입 영역의 면적이 미리 설정된 면적값 이하인 프레임을 무표정 프레임으로 추출하며, 상기 입 영역의 면적이 미리 설정된 면적값 이상인 프레임을 표정 프레임으로 추출하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 9에 있어서, 상기 대표 프레임 추출 단계는, 상기 입 영역의 면적이 가장 작은 프레임을 대표 무표정 프레임으로 추출하며, 상기 입 영역의 면적이 가장 큰 프레임을 대표 표정 프레임으로 추출하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 1에 있어서, 상기 얼굴 움직임 정보 생성 방법은, 상기 (a) 단계 이후에, 미리 생성된 참조 얼굴 랜드마크의 집합을 기준으로 각각의 프레임에서 생성된 랜드마크의 집합인 프레임 랜드마크 집합을 변환하는 제1 프레임 랜드마크 변환 단계;를 더 포함하는, 얼굴 움직임 정보 생성 장치.
청구항 11에 있어서, 상기 제1 프레임 랜드마크 변환 단계는, 상기 참조 얼굴 랜드마크의 집합을 기준으로 스케일 매칭, 회전 변환 및 평행 이동 중 적어도 하나를 수행하여 변환된 프레임 랜드마크 집합을 생성하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 12에 있어서, 상기 제1 프레임 랜드마크 변환 단계는, 상기 프레임 랜드마크 집합과 참조 얼굴 랜드마크의 집합에서 서로 대응하는 랜드마크의 좌표 정보를 이용하여 복수 개의 스케일 인수를 계산하고, 각각의 스케일 인수에 따른 복수 개의 변환 행렬을 산출하며, 복수 개의 변환 행렬 중 어느 하나인 제1 최종 변환 행렬을 이용하여 상기 변환된 프레임 랜드마크 집합을 생성하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 13에 있어서, 상기 제1 최종 변환 행렬은, 상기 변환된 프레임 랜드마크 집합과 참조 얼굴 랜드마크의 집합에서 서로 대응하는 랜드마크 사이의 거리에 대한 통계값이 최소가 되도록 상기 프레임 랜드마크 집합을 변환하는, 얼굴 움직임 정보 생성 장치.
청구항 1에 있어서, 상기 (c) 단계는, 상기 무표정 프레임에서 생성된 각각의 무표정 프레임 랜드마크가 상기 표정 프레임에서 생성된 복수 개의 표정 프레임 랜드마크 중 서로 대응하는 표정 프레임 랜드마크의 위치로 이동하는 이동 정보를 생성하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 15에 있어서, 상기 (c) 단계는, 미리 설정된 기준축의 우측에 위치한 복수 개의 우측 무표정 프레임 랜드마크가 서로 대응하는 우측 표정 프레임 랜드마크의 위치로 이동하는 복수 개의 우측 이동 정보를 생성하고, 상기 기준축의 좌측에 위치한 복수 개의 좌측 무표정 프레임 랜드마크가 서로 대응하는 좌측 표정 프레임 랜드마크의 위치로 이동하는 복수 개의 좌측 이동 정보를 산출하여 얼굴 움직임의 대칭 정보를 더 생성하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 16에 있어서, 상기 (c) 단계는, 상기 복수 개의 우측 이동 정보와 이에 대응하는 복수 개의 좌측 이동 정보에서 수평 방향에 대한 변위의 합을 산출하고, 수직 방향에 대한 변위의 차를 산출하여 얼굴 움직임의 대칭 정보를 생성하는 단계인, 얼굴 움직임 정보 생성 장치.
청구항 17에 있어서, 상기 (c) 단계는, 아래의 수식으로 계산되는 얼굴 대칭 점수를 더 생성하는 단계인, 얼굴 움직임 정보 생성 장치. - : 수평 방향에 대한 변위의 총합 - : 수직 방향에 대한 변위 차의 총합 - : 수평 방향에 대한 총 이동량 - : 수직 방향에 대한 총 이동량
청구항 1에 있어서, 상기 얼굴 움직임 정보 생성 방법은, 상기 (b) 단계 이후에, 상기 무표정 프레임에서 생성된 무표정 프레임 랜드마크의 집합과 상기 표정 프레임에서 생성된 표정 프레임 랜드마크의 집합 중 어느 하나의 집합을 기준으로 다른 하나의 집합을 변환하는 제2 랜드마크 변환 단계;를 더 포함하는, 얼굴 움직임 정보 생성 장치.
청구항 19에 있어서, 상기 제2 랜드마크 변환 단계는, 상기 무표정 프레임 랜드마크의 집합을 기준으로 스케일 매칭, 회전 변환 및 평행 이동 중 적어도 하나를 수행하여 변환된 표정 프레임 랜드마크의 집합을 생성하거나, 상기 표정 프레임 랜드마크의 집합을 기준으로 스케일 매칭, 회전 변환 및 평행 이동 중 적어도 하나를 수행하여 변환된 무표정 프레임 랜드마크의 집합을 생성하는 단계인, 얼굴 움직임 정보 생성 장치.

Description

비디오의 프레임 데이터를 이용한 얼굴 움직임 정보 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING FACIAL MOVEMENT INFORMATION USING MULTIPLE FRAME DATA FROM VIDEO} 본 발명은 얼굴 움직임 정보 생성 장치 및 방법에 관한 것이며, 보다 자세하게는 대상자를 촬영한 비디오의 프레임 데이터를 이용한 얼굴 움직임 정보 생성 장치 및 방법에 관한 것이다. 이 부분에 기술된 내용은 단순히 본 명세서에 기재된 실시예에 대한 배경 정보를 제공할 뿐 반드시 종래 기술을 구성하는 것은 아니다. 안면 마비는 안면 신경 장애로 인해 얼굴 근육의 대칭성이 감소하는 것을 말한다. 안면 마비의 증상은 가벼운 쇠약에서 심각한 마비까지 다양하며, 이마 주름, 입꼬리 처짐, 눈의 건조함, 눈물 과다, 귀 통증, 식사 곤란, 미각 장애 등이 포함될 수 있다. 약 3분의 2의 환자가 3개월 이내에 완전히 회복되지만, 상당수의 환자는 얼굴 비대칭 및 비자발적 운동(동키네시스)과 같은 지속적인 증상을 계속 경험한다. 적절한 조기 치료를 시행하지 못하면 불안과 우울증과 같은 심리적 문제를 포함한 합병증이 발생할 위험이 있다. 따라서, 안면 마비의 진행 수준을 정확하게 진단하고 결정하는 것은 매우 중요하다. 전통적인 안면 근육 훈련 방법은 주로 환자가 거울 피드백 훈련을 받는 것을 포함한다. 거울 피드백 훈련에서 안면 마비 환자는 눈썹을 치켜올리고, 찡그린 얼굴을 하고, 눈을 감고, 이를 보이고, 거울을 보면서 입을 삐죽 내밀기와 같은 얼굴 움직임을 반복적으로 수행한다. 이 훈련 과정은 단조롭고, 지루하며, 반복적인 동작을 수행하여 환자의 수행 동기를 저하시킬 수 있다. 또한, 환자마다 안면 마비의 정도가 상이하며, 이러한 차이를 효과적으로 정량화할 수 없다. 이로 인하여, 피드백 훈련은 개인화된 훈련 계획을 개발하기 어렵고, 최적의 재활 결과를 얻지 못할 수 있다. 임상에서 일반적으로 사용되는 평가 척도로는 House-Brackmann Facial Nerve Grading System(HBGS), Facial Nerve Grading System 2.0(FNGS 2.0), Nottingham System 등이 있다. 그러나, 이러한 평가 방법 대부분은 의료진의 주관적인 판단이 개입된다. 최근에는 얼굴에 광학 마커를 부착하거나 광학 스캐닝을 통한 3D 스캐닝, 근전도 신호 분석과 같이 객관적인 평가 방법이 연구되고 있다. 그러나, 이러한 방법은 추가 장비와 통제된 환경이 필요하며, 이는 환자에게 불편함을 줄 수 있다. 또한, 진단 장비를 사용하는 것은 주로 환자의 얼굴 움직임을 모니터링 하는 목적으로 사용되며, 안면 마비의 정도에 대한 정량적인 평가는 의료진의 주관적인 판단에 의존하고 있다. 이러한 주관적인 평가는 임상 실무에 보편적으로 적용하기에는 한계가 있다. 따라서, 환자에게 불편함을 주지 않으면서, 안면 마비의 정도에 대한 객관적인 평가 정보를 생성할 수 있는 기술이 필요로 된다. 도 1은 본 명세서의 일 실시예에 따른 얼굴 움직임 정보 생성 방법의 흐름도이다. 도 2는 본 명세서의 다른 실시예에 따른 얼굴 움직임 정보 생성 방법의 흐름도이다. 도 3은 본 명세서의 일 실시예에 따른 무표정 프레임 및 표정 프레임을 추출하는 기준에 대한 예시를 도시한 도면이다. 도 4는 각 프레임에서 계산된 양측 동공-눈썹 거리, 안구 영역의 면적 및 입 영역의 면적을 나타낸 그래프의 예시이다. 도 5는 비디오에서 무표정 프레임과 표정 프레임을 추출한 예시를 도시한다. 도 6은 본 명세서의 또 다른 실시예에 따른 얼굴 움직임 정보 생성 방법의 흐름도이다. 도 7은 참조 얼굴 랜드마크를 기준으로 프레임 랜드마크 집합을 변환하는 예시를 도시한다. 도 8은 무표정 프레임과 표정 프레임에서 생성된 랜드마크 집합의 예시를 도시한 도면이다. 도 9는 무표정 프레임 랜드마크 집합에서 표정 프레임 랜드마크 집합으로 변할 때 서로 대응하는 랜드마크의 변화에 대한 예시를 도시한 도면이다. 도 10은 무표정 프레임 랜드마크 집합에서 표정 프레임 랜드마크 집합으로 변할 때 임의의 랜드마크의 이동을 벡터로 나타낸 도면이다. 도 11은 본 명세서의 일 실시예에 따른 얼굴 움직임과 관련된 정보를 생성하기 위한 복수 개의 랜드마크를 선택한 예시를 도시한다. 도 12는 본 명세서의 또 다른 실시예에 따른 얼굴 움직임 정보 생성 방법의 흐름도이다. 도 13은 무표정 프레임 랜드마크 집합을 기준으로 표정 프레임 랜드마크 집합을 변환화는 예시를 도시한 도면이다. 본 명세서에 개시된 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 명세서가 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 명세서의 개시가 완전하도록 하고, 본 명세서가 속하는 기술 분야의 통상의 기술자(이하 '당업자')에게 본 명세서의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 명세서의 권리 범위는 청구항의 범주에 의해 정의될 뿐이다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 명세서의 권리 범위를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 명세서가 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 본 명세서의 일 실시예에 따른 얼굴 움직임 정보 생성 장치는 하드웨어 프로세서 및 메모리를 포함할 수 있다. 상기 메모리는 상기 프로세서에 연결되고, 얼굴 움직임 정보 생성 방법을 수행하도록 구성된 적어도 하나 이상의 컴퓨터 프로그램을 저장할 수 있다. 상기 프로세서는 상기 메모리에 저장된 적어도 하나의 컴퓨터 프로그램을 실행하며, 대상자를 촬영한 비디오에서 대상자의 얼굴 움직임에 대한 정보를 생성할 수 있다. 대상자는 안면 마비 환자에 해당할 수 있다. 도 1은 본 명세서의 일 실시예에 따른 얼굴 움직임 정보 생성 방법의 흐름도이다. 도 1을 참조하면, 단계 S10에서, 상기 프로세서는 대상자를 촬영한 비디오에 포함된 복수의 프레임 데이터를 인공지능 모델에 입력하며, 각각의 프레임 데이터에 포함된 대상자의 얼굴에 대해서 미리 설정된 점들인 복수 개의 랜드마크 정보를 획득할 수 있다. 인공지능 모델로는 구글에서 제공하는 인공지능 모델인 Mediapipe Face Mesh 모델("Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs", arXiv:1907.06724v1)이 이용될 수 있다. Mediapipe Face Mesh 모델은 얼굴이 촬영된 프레임 데이터에서 미리 정해진 468개의 3D 얼굴 랜드마크(Landmarks)를 생성하는 모델이며, 각각의 랜드마크에 대한 3차원 좌표를 생성할 수 있다. 본 명세서에서는 Mediapipe Face Mesh 모델을 이용하였으나, 이는 일 예에 해당하고, 얼굴이 촬영된 이미지에서 랜드마크를 추출하는 다양한 신경망 모델이 이용될 수 있다. 상기 비디오에는 대상자가 무표정한 얼굴 상태를 포함하여 다양한 표정을 짓는 얼굴 상태가 촬영된 프레임 데이터가 포함될 수 있다. 바람직하게는, 상기 비디오에는 대상자가 무표정한 얼굴 상태에서 시작하여 특정한 표정을 짓는 얼굴 상태가 촬영된 프레임 데이터가 포함될 수 있다. 무표정한 얼굴 상태 및 특정한 표정을 짓는 얼굴 상태에 대해서는 이하에서 자세하게 설명하겠다. 단계 S11에서, 상기 프로세서는 각 프레임에 해당하는 랜드마크 정보를 이용하여 상기 복수 개의 프레임 중 제1 기준에 해당하는 적어도 하나의 무표정 프레임 및 제2 기준에 해당하는 적어도 하나의 표정 프레임을 추출할 수 있다. 각 프레임에서 추출된 복수 개의 랜드마크는 서로 다른 인덱스(Index) 번호가 할당될 수 있다. 특정 인덱스 번호를 갖는 랜드마크는 대상자의 얼굴의 특정 지점에 대응할 수 있다. 일 예로, 1번 인덱스 번호를 갖는 랜드마크는 대상자의 코 끝에 대응하는 랜드마크일 수 있다. 61번 인덱스 번호를 갖는 랜드마크는 대상자의 좌측 입 꼬리에 대응하는 랜드마크일 수 있으며, 291번 인덱스 번호를 갖는 랜드마크는 대상자의 우측 입 꼬리에 대응하는 랜드마크일 수 있다. 상기 인덱스 번호는 Mediapipe Face Mesh 모델에서 얼굴 랜드마크가 생성될 때 각 랜드마크에 부여될 수 있다. 사용자는 특정 인덱스 번호에 대해서 얼굴의 각 부위를 매칭할 수 있다. 사용자(의료진)는 프레임 데이터에서 생성된 랜드마크 정보에서 특정한 표정을 분석하기 위한 복수 개의 랜드마크 그룹을 설정할 수 있다. 일 예로, 대상자의 눈썹을 올리는 표정을 분석하기 위해서 대상자의 눈썹에 대응하는 복수 개의 눈썹 랜드마크 및 동공에 대응하는 동공 랜드마크를 하나의 그룹으로 설정할 수 있다. 이는 일 예에 해당하며, 사용자는 분석하고자 하는 대상자의 표정에 따라