KR-20260060920-A - Image similarity measurement method and system

KR20260060920AKR 20260060920 AKR20260060920 AKR 20260060920AKR-20260060920-A

Abstract

본 발명은 고 인쇄물에서 문자를 추출할 때 이용되는 인공지능 모델의 학습 시에 손실함수로 이용될 수 있는, 영상 유사도 측정 방법 및 장치를 공개한다. 본 발명은 원본 영상 및 대조 영상 각각에 대해서 외곽선을 추출하여 원본 외곽선 영상 및 대조 외곽선 영상을 생성하고, 원본 외곽선 영상에 대한 가우시안 스무딩 영상(원본 외곽선 가우시안 영상) 및 대조 외곽선 영상에 대한 가우시안 스무딩 영상(대조 외곽선 가우시안 영상)을 생성하며, 원본 외곽선 가우시안 영상 중 원본 외곽선 영상 및 대조 외곽선 영상에 대응되는 영역의 픽셀값들의 평균값과, 대조 외곽선 가우시안 영상 중 원본 외곽선 영상 및 대조 외곽선 영상에 대응되는 영역의 픽셀값들의 평균값을 이용하여, 원본 영상과 대조 영상 간의 유사도를 측정함으로써, 외곽선의 픽셀들을 일일이 대응시켜 거리를 계산하는 종래 방식에 비하여 연산 시간을 감축하면서도 정확한 원본 영상과 대조 영상 간의 유사도 측정이 가능하다. 또한, 본 발명의 영상 유사도 측정 방법이 딥러닝 프로세스의 손실함수에 적용되면, 금속활자로 인쇄한 고 인쇄물의 Ground Truth 영상의 외곽선이 울퉁불퉁한 경우에도, 가우시안 스무딩된 Ground Truth 영상을 이용하게 되므로, 이를 손실함수로 이용하여 학습된 인공지능 모델은, 고 인쇄물로부터 외곽선이 부드러운 글자를 예측 영상으로 출력하므로 글자 분할(segmentation) 성능이 향상된다.

Inventors

최강선
이우석

Assignees

한국기술교육대학교 산학협력단

Dates

Publication Date: 20260506
Application Date: 20241025

Claims (9)

프로세서 및 메모리를 포함하는 컴퓨터에서 수행되는 영상 유사도 측정 방법으로서, (a) 상기 프로세서가 원본 영상과 대조 영상을 입력받고, 상기 원본 영상과 상기 대조 영상 각각의 외곽선을 추출하여 원본 외곽선 영상 및 대조 외곽선 영상을 생성하는 단계; (b) 상기 프로세서가 상기 원본 외곽선 영상에 대한 가우시안 스무딩 영상(원본 외곽선 가우시안 영상) 및 상기 대조 외곽선 영상에 대한 가우시안 스무딩 영상(대조 외곽선 가우시안 영상)을 생성하되, 상기 생성된 가우시안 스무딩 영상들은 각 픽셀마다 좌푯값과 픽셀값을 포함하는 단계; 및 (c) 상기 프로세서가 상기 원본 외곽선 가우시안 영상 중 상기 원본 외곽선 영상 및 상기 대조 외곽선 영상에 대응되는 영역의 픽셀값과, 상기 대조 외곽선 가우시안 영상 중 상기 원본 외곽선 영상 및 상기 대조 외곽선 영상에 대응되는 영역의 픽셀값을 이용하여, 상기 원본 영상과 상기 대조 영상 간의 유사도를 측정하는 단계;를 포함하는 것을 특징으로 하는 영상 유사도 측정 방법.
제 1 항에 있어서, 상기 (c) 단계는 (c1) 상기 프로세서가, 상기 원본 외곽선 가우시안 영상에서 상기 원본 외곽선 영상에 대응되는 영역의 픽셀들의 제 1 픽셀 평균값을 계산하고, 상기 원본 외곽선 가우시안 영상에서 상기 대조 외곽선 영상에 대응되는 영역의 픽셀들의 제 2 픽셀 평균값을 계산하며, 상기 대조 외곽선 가우시안 영상에서 상기 원본 외곽선 영상에 대응되는 영역의 픽셀들의 제 3 픽셀 평균값을 계산하고, 상기 대조 외곽선 가우시안 영상에서 상기 대조 외곽선 영상에 대응되는 영역의 픽셀들의 제 4 픽셀 평균값을 계산하는 단계; 및 (c2) 상기 프로세서가 상기 제 1 픽셀 평균값과 상기 제 2 픽셀 평균값 간의 차이를 계산하고, 상기 제 4 픽셀 평균값과 상기 제 3 픽셀 평균값 간의 차이를 계산하여 상기 원본 영상과, 상기 대조 영상 간의 유사도 측정 결과를 출력하는 단계;를 포함하는 것을 특징으로 하는 영상 유사도 측정 방법.
제 2 항에 있어서, 상기 프로세서는 상기 (c1) 단계에서 가우시안 영상 중 외곽선 영상에 대응되는 영역의 픽셀값을 모두 합산하고, 외곽선 영상을 구성하는 픽셀들의 갯수 총합으로 나누어 상기 제 1 내지 제 4 픽셀 평균값을 계산하는 것을 특징으로 하는 영상 유사도 측정 방법.
제 2 항에 있어서, 상기 프로세서는 상기 (c2) 단계에서 상기 제 1 픽셀 평균값에서 상기 제 2 픽셀 평균값을 감산한 결과와, 상기 제 4 픽셀 평균값에서 상기 제 3 픽셀 평균값을 감산한 결과를 합산하여, 상기 원본 영상과 상기 대조 영상 간의 유사도 측정 결과를 생성하여 출력하는 것을 특징으로 하는 영상 유사도 측정 방법.
제 1 항에 있어서, 상기 (b) 단계에서, 상기 가우시안 스무딩 영상은 상기 원본 외곽선 영상 또는 상기 대조 외곽선 영상의 외곽선에 대응되는 픽셀이 최대 픽셀값을 갖고, 외곽선에서 멀어질수록 픽셀값이 감소하는 것을 특징으로 하는 영상 유사도 측정 방법.
비일시적 저장매체에 저장되고, 프로세서를 포함하는 컴퓨터에서 실행되어, 상기 제 1 항 내지 제 5 항 중 어느 한 항의 영상 유사도 측정 방법을 수행하는 컴퓨터 프로그램.
프로세서 및 소정의 명령어들을 저장하는 메모리를 포함하는 영상 유사도 측정 장치로서, 상기 메모리에 저장된 명령어들을 실행한 상기 프로세서는 (a) 원본 영상과 대조 영상을 입력받고, 상기 원본 영상과 상기 대조 영상 각각의 외곽선을 추출하여 원본 외곽선 영상 및 대조 외곽선 영상을 생성하는 단계; (b) 상기 원본 외곽선 영상에 대한 가우시안 스무딩 영상(원본 외곽선 가우시안 영상) 및 상기 대조 외곽선 영상에 대한 가우시안 스무딩 영상(대조 외곽선 가우시안 영상)을 생성하되, 상기 생성된 가우시안 스무딩 영상들은 각 픽셀마다 좌표값과 픽셀값을 포함하는 단계; 및 (c) 상기 원본 외곽선 가우시안 영상 중 상기 원본 외곽선 영상 및 상기 대조 외곽선 영상에 대응되는 영역의 픽셀값과, 상기 대조 외곽선 가우시안 영상 중 상기 원본 외곽선 영상 및 상기 대조 외곽선 영상에 대응되는 영역의 픽셀값을 이용하여, 상기 원본 영상과 상기 대조 영상 간의 유사도를 측정하는 단계;를 수행하는 것을 특징으로 하는 영상 유사도 측정 장치.
제 7 항에 있어서, 상기 (c) 단계는 (c1) 상기 프로세서가, 상기 원본 외곽선 가우시안 영상에서 상기 원본 외곽선 영상에 대응되는 영역의 픽셀들의 제 1 픽셀 평균값을 계산하고, 상기 원본 외곽선 가우시안 영상에서 상기 대조 외곽선 영상에 대응되는 영역의 픽셀들의 제 2 픽셀 평균값을 계산하며, 상기 대조 외곽선 가우시안 영상에서 상기 원본 외곽선 영상에 대응되는 영역의 픽셀들의 제 3 픽셀 평균값을 계산하고, 상기 대조 외곽선 가우시안 영상에서 상기 대조 외곽선 영상에 대응되는 영역의 픽셀들의 제 4 픽셀 평균값을 계산하는 단계; 및 (c2) 상기 프로세서가 상기 제 1 픽셀 평균값과 상기 제 2 픽셀 평균값 간의 차이를 계산하고, 상기 제 4 픽셀 평균값과 상기 제 3 픽셀 평균값 간의 차이를 계산하여 상기 원본 영상과, 상기 대조 영상 간의 유사도 측정 결과를 출력하는 단계;를 포함하는 것을 특징으로 하는 영상 유사도 측정 장치.
제 8 항에 있어서, 상기 프로세서는 상기 (c1) 단계에서 가우시안 영상 중 외곽선 영상에 대응되는 영역의 픽셀값을 모두 합산하고, 외곽선 영상을 구성하는 픽셀들의 갯수 총합으로 나누어 상기 제 1 내지 제 4 픽셀 평균값을 계산하는 것을 특징으로 하는 영상 유사도 측정 장치.

Description

영상 유사도 측정 방법 및 장치{Image similarity measurement method and system} 본 발명은 영상 유사도 측정 방법 및 장치에 관한 것으로서, 보다 구체적으로는 금속활자로 인쇄한 고 인쇄물의 문자 추출 인공지능 모델의 학습 프로세스에서 손실함수로서 적용될 수 있는 영상 유사도 측정 방법 및 장치에 관한 것이다. 역사적 관점에서, 고 인쇄물의 분석은 중요하다. 단순히 역사적 사실만을 알 수 있는 게 아니라, 사회적, 문화적 측면에 대한 정보를 알 수 있다. 최근 고 인쇄물을 분석하는 연구들이 활발해지고 있다. 그러나 고 인쇄물은 오랜 세월이 지나면서 정보의 손실이 발생하는 경우가 많다. 특히, 여러 시대를 거치며 많은 사건을 기록하고 있는 문서들은 여러 장소에서 보관 중인데, 보관 상태가 좋지 않은 경우가 많고, 이로 인해 문자가 훼손되어 연구에 큰 어려움이 있다. 이러한 문제들을 해결하기 위해, 문자 추출과 분석을 위한 여러 머신 러닝과 컴퓨터 비전 알고리즘들이 제안되었다. 하지만, 문자 분석을 위한 연구가 수년 전부터 진행되었음에도 불구하고, 완전히 신뢰할 만한 문자 분석 장치는 여전히 부족하다. 도 1은 16세기에 금속활자로 인쇄된 "근사록 권 6"을 고해상도로 스캔한 예시를 보여준다. 큰 종이에 두 페이지가 인쇄되어 있고, 그 종이를 반으로 접어 한 장을 만든다. 도 1은 광곽(외곽 선)(1), 계선(2), 판심(3), 장서인(4) 등 고 인쇄물의 독특한 특징을 보여준다. 계선(2)은 금속활자를 세로로 분리하기 위해 사용하는 긴 판이다. 판심(3)은 인판의 중앙에 위치하여 팩의 제목과 페이지 정보를 나타낸다. 책의 내용과 무관한 이런 부분들은 문자 추출 과정에서 삭제되어야 한다. 또한, 이 문서들은 고대의 문법을 사용하여, 현대인들이 이해하기 어려운 방식으로 작성되어 있다. 디지털 영상 처리 기술은 이러한 문자의 가독성을 향상시킬 수 있다. 또한, 영상에 표시된 문자를 텍스트 파일로 추출하는 작업에 도움을 줄 수 있다. 최근 연구되는 이러한 디지털 영상 처리 기술의 핵심은 인공지능 모델이 예측한 문자의 외곽선과 실제 문자의 외곽선 사이의 거리를 계산하는 것이다. 또한, 문자 경계 주변의 잡음을 줄이기 위해 잡음 제거를 위한 손실함수를 제안하여 오류를 최소화하면서 정밀한 문자 추출을 보장하는 것이다. 도 2는 양호하지 않은 품질로 인쇄된 문자의 예시를 도시한 도면이다. 도 2의 (a)는 양호하지 않은 품질로 인쇄된 고 인쇄물의 스캔본을 도시하고, (b)는 낮은 품질의 영상에서 기존의 손실함수로 문자를 추출한 결과를 도시하며, (c)는 본 발명의 영상 유사도 측정 방법이 손실함수로써 이용되어 낮은 품질의 영상에서 문자를 추출한 결과를 도시한다. 도 2의 (a)에 도시된 바와 같은, 금속활자로 인쇄된 고 인쇄물에서 문자를 추출하는 과정에서 어려운 점 중 하나는 인쇄 품질이 균일하지 않은 문제이다. 구텐베르크의 유럽식 프레스 기법과 달리 한국식 인쇄 방식은 종이를 나무 막대기나 솜뭉치를 손으로 누르며 인쇄를 했는데, 종이와 활자에 가해지는 압력이 고르지 않아 문자가 선명하지 않은 경우가 많았다. 또한, 인쇄에 사용한 먹이 금속활자의 표면에 고르게 묻지 않아, 인쇄된 문자에 반점이 생기고, 먹이 번지거나 튀어 점이 생긴다. 도 2의 (a) 상단의 확대된 영상은 인쇄된 문자 내에 생기는 반점을 보여준다. 인쇄할 때 손으로 종이를 누르기 때문에, 문자가 번지는 경우가 생기거나, 도 2의 (a)의 하단처럼 한지를 만드는 과정에서 완전히 갈리지 않은 긴 섬유질 조각을 따라 먹이 번지기도 한다. 이러한, 문제점들을 해소하기 위한 기술들로는 아래와 같은 종래 기술들을 소개하면 아래와 같다. 먼저, 영상 분할(Image segmentation) 분야에서 분할 결과인 (prediction)(대조 영상 또는 예측 영상)과 (Ground Truth)(원본 영상)의 차이를 정량화하기 위해 다양한 손실함수들이 개발되었다. (1) Cross Entropy(CE)는 두 확률분포 사이의 유사도를 측정하는 척도인 Kullback-Leibler divergence를 이용해 개발되었다[Zhang, Z.; Sabuncu, M. Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels. ArXiv 2018, abs/1805.07836.]. CE loss는 이 방법을 손실함수로 사용하고 주로 분류(classification) 작업에서 객체의 종류를 구분하는 데 사용된다. 이 기술은 아래의 수학식 1과 같이 과 의 확률분포를 비교한다. (2) Dice loss는 과 의 영역 간 중첩된 부분이 증가할수록 낮은 loss 값을 출력한다[Sudre, C.; Li, W.; Vercauteren, T.; Ourselin, S.; Cardoso, M. Generalised Dice overlap as a deep learning loss function for highly unbalanced segmentations. In Proceedings of the International Workshop on Deep Learning in Medical Image Analysis, 2017, pp. 240-248.]. 아래의 수학식 2는 Dice loss를 이용해 두 영역의 유사도를 측정하는 방법인 Dice score(DCS)를 나타내는데, DSC는 과 의 영역 간 중첩된 부분이 커질수록 높은 값을 출력한다. 아래의 수학식 3은 DCS에 기반한 손실함수를 나타낸다. (3) Mathieu et al.은 비지도 학습(unsupervised machine learning)을 위해 영상의 그래디언트(gradient)를 활용한 gradient difference(GD) loss를 제안했다[Mathieu, M.; Couprie, C.; LeCun, Y. Deep multi-scale video prediction beyond mean square error. CoRR 2015, abs/1511.05440.]. Total variation loss와 달리, GD loss는 노이즈 제거를 위해 과 의 그래디언트 차이를 이용한다. GD loss는 다음의 수학식 4와 같이 정의한다: 위 식에서 는 1보다 큰 하이퍼파라미터(hyperparameter)이고, 는 영상 내부의 임의의 픽셀을 표현한 것이다. (4) Boundary gradient-consistency (BGC) loss는 글자 외곽선 부분의 그래디언트를 일관성 있게 만들기 위해 고안된 손실함수이다[Lee, W.S.; Choi, K.S. Improvement of a Segmentation Network for Character Stroke Extraction from Metal Movable Type Printed Documents. Journal of the Institute of Electronics Engineers of Korea 2023, 60, 31-38.]. BGC loss는 금속활자로 인쇄된 글자의 외곽선을 부드럽게 하기 위해 개발되었다. 이를 위해 BGC loss는 중심(anchor) 픽셀의 그래디언트 방향과, 중심 픽셀과 인접한 픽셀의 그래디언트의 크기(magnitude)를 비교하여 글자 외곽선의 그래디언트에 큰 변화(울퉁불퉁한 부분)를 방지한다. BGC loss는 다음과 같이 정의된다: 위 식에서 는 대조(prediction) 영상 의 외곽선에 해당하는 픽셀들의 집합이다. 는 중심 픽셀에 인접한 픽셀들 중 gradient의 크기가 가장 큰 픽셀의 좌표로, 다음의 수학식 6과 같이 정의된다: 위 식에서 는 중심 픽셀 에 인접한 픽셀들의 위치이고, 는 임의의 좌표 에서 그래디언트의 크기이다. (5) Hausdorff distance는 점으로 이루어진 두 집합의 거리가 얼마나 떨어져 있는지 측정하는 방법으로, 이 방법으로 두 객체 간의 유사도를 측정할 수 있다[16]. Hausdorff distance(H) loss는 Hausdorff distance를 그대로 사용하는 손실함수로 다음의 수학식 7과 같이 정의된다: 상기 수학식 7에서 는 집합에서의 최소 거리로, 다음의 수학식 8과 같이 정의된다: 이 방법은 GT의 모든 외곽 픽셀에 대해 각각 가장 가까운 대조 영상(예측 영상)(prediction)의 픽셀을 찾은 다음, 최단 거리들 중 최대 거리를 찾는 방법이다. 그다음, 대조 영상(예측 영상)(prediction)의 외곽선에 대해 같은 연산을 반복한다. 마지막으로 두 최댓값 중 더 큰 값을 손실값으로 사용한다. 최단 거리의 집합 내에 이상치(outlier)가 포함된 경우, 이상치로 인해 다른 중요한 거리 정보를 고려하지 못할 수 있다. Hausdorff distance를 계산할 때 이상치가 결과에 미치는 영향을 완화하기 위한 해결책으로 average Hausdorff distance가 제안되었다. 그러나 이 방법은 brute-force 방식을 사용하여 Euclidean distance를 계산하기 때문에 계산하는 데 많은 시간이 요구된다. 앞서 설명한 손실함수들을 요약하면, Dice와 CE 손실함수들은 영상의 모든 픽셀이 계산에 사용된다는 점에서 영역 기반 손실함수(region-based loss)라고 할 수 있다. 그리고 GD, BGC, Hausdorff 손실함수들은 후술하는 도 4와 같이 글자의 외곽선에 해당하는 픽셀에만 초점을 맞추고 외곽선 사이의 차이를 측정하기 때문에 경계 기반 손실함수(boundary-based loss)라고 한다. GD loss가 자연 영상에 사용되는 경우, 그래디언트의 값이 0이 아니므로 모든 픽셀의 정보를 활용할 수 있다. 하지만, 도 2와 같은 이진 영상을 사용하면 객체의 외곽선을 따라 0이 아닌 값이 출력되고 나머지 부분은 0이 출력된다. 따라서 본 발명에서는 GD loss를 경계 기반 손실함수로 간주한다. 도 1은 금속활자로 인쇄된 근사록 권6을 스캔한 영상의 일 예를 도시한 도면이다. 도 2는 양호하지 않은 품질로 인쇄된 문자의 예시를 도시한 도면이다. 도 3은 본 발명의 바람직한 실시 예에 따른 영상 유사도 측정 장치