Search

KR-102959902-B1 - Apparatus for Generating Advertisement-related Keyword for E-Magazine Integration Service

KR102959902B1KR 102959902 B1KR102959902 B1KR 102959902B1KR-102959902-B1

Abstract

전자잡지 통합 서비스용 광고 연관 키워드 생성장치를 개시한다. 본 실시예는 PDF 또는 이미지 파일 형태의 전자잡지의 각각 페이지로부터 텍스트를 추출한 후 전처리하고 페이지의 열 기준으로 텍스트 블록을 그룹핑하고, 그룹핑된 텍스트 블록들을 정렬한 후 연결된 전체 페이지의 텍스트를 전자잡지의 목차 정보와 결합해서 효율적으로 기사의 키워드를 생성할 때, 기사별로 매칭된 기사 키워드와 페이지별로 매칭된 연관 키워드의 유사도 비교를 통해 기사와 관련없는 광고 키워드 또는 광고 페이지를 지정하도록 하는 전자잡지 통합 서비스용 광고 연관 키워드 생성장치를 제공한다.

Inventors

  • 김상훈
  • 이기연
  • 김태주

Assignees

  • 주식회사 플랜티넷
  • 주식회사 플랜티엠

Dates

Publication Date
20260506
Application Date
20240604

Claims (10)

  1. 복수의 전자잡지 제공장치로부터 복수의 전자잡지 컨텐츠를 수신하여 취합하는 취합부; 상기 전자잡지 컨텐츠마다 전처리한 전처리 데이터를 생성하는 전처리부; 상기 전처리 데이터로부터 부가정보를 추출하는 부가정보 추출부; 상기 전처리 데이터로부터 상기 부가정보를 기반으로 텍스트를 추출하는 텍스트 추출부; 상기 텍스트를 기반으로 태그를 정의하고 상기 태그를 기반으로 태그 목록을 생성하는 태그 목록 생성부; 상기 태그들 간의 연관도를 테이블로 생성하는 태그 연관도 테이블을 생성하는 태그 연관도 테이블 생성부; 상기 텍스트, 상기 태그 목록을 생성형 AI로 입력하여 상기 태그 목록에서 연관 키워드를 생성하는 연관 키워드 생성부; 및 상기 연관 키워드를 기반으로 상기 전자잡지 컨텐츠의 기사와 연관성이 낮은 텍스트를 광고 키워드 또는 광고 페이지로 지정하는 광고 키워드 지정부; 를 포함하는 것을 특징으로 하는 키워드 생성장치.
  2. 삭제
  3. 제1항에 있어서, 상기 광고 키워드 지정부는 상기 광고 키워드를 포함한 페러그래프 또는 상기 광고 페이지를 상기 텍스트로부터 제외시키는 것을 특징으로 하는 키워드 생성장치.
  4. 제1항에 있어서, 상기 태그 연관도 테이블 및 상기 연관 키워드를 기반으로 기사 키워드를 생성하는 기사 키워드 생성부; 를 추가로 포함하는 것을 특징으로 하는 키워드 생성장치.
  5. 제4항에 있어서, 상기 광고 키워드 지정부는 기사별로 매칭된 상기 기사 키워드와 페이지별로 매칭된 상기 연관 키워드를 비교하여 상기 기사 키워드보다 연관도가 기준치보다 낮은 상기 연관 키워드를 상기 광고 키워드로 지정하는 것을 특징으로 하는 키워드 생성장치.
  6. 제4항에 있어서, 상기 광고 키워드 지정부는 페이지별로 추출된 상기 텍스트로부터 상기 기사 키워드와의 유사성이 기준치 보다 낮은 페이지를 상기 광고 페이지로 지정하는 것을 특징으로 하는 키워드 생성장치.
  7. 제1항에 있어서, 상기 부가정보 추출부는, 복수의 컨텐츠 잡지 컨텐츠마다 페이지의 넓이(Width), 페이지의 높이(Height), 블록(Block), 라인(Line), 문자열 크기를 포함하는 상기 부가정보를 추출하는 것을 특징으로 하는 키워드 생성장치.
  8. 제7항에 있어서, 상기 전처리부는, 상기 페이지의 높이, 상기 블록의 높이 최소값, 상기 문자열 크기를 기반으로 노이즈를 판정하여 상기 전처리 데이터를 생성하는 것을 특징으로 하는 키워드 생성장치.
  9. 제7항에 있어서, 상기 텍스트 추출부는, 상기 블록들을 하나 이상의 열로 배치한 후 가로 중첩 여부를 판정한 결과를 기반으로 상기 열을 병합하거나 열 목록에 삽입하는 것을 특징으로 하는 키워드 생성장치.
  10. 제9항에 있어서, 상기 텍스트 추출부는, 상기 열로 배치된 상기 블록들의 세로 중첩 여부를 판정한 결과를 기반으로 연결하는 것을 특징으로 하는 키워드 생성장치.

Description

전자잡지 통합 서비스용 광고 연관 키워드 생성장치{Apparatus for Generating Advertisement-related Keyword for E-Magazine Integration Service} 본 발명의 일 실시예는 전자잡지 통합 서비스용 광고 연관 키워드 생성장치에 관한 것이다. 이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다. 일반적으로 전자잡지 내의 개별 기사 내용으로부터 키워드를 생성할 때, 생성형 AI를 이용해서 키워드를 생성하게 된다. 하지만, 전자잡지 통합 서비스에 제공되는 전자 잡지의 형식이 잡지마다 다르고, 기사 관련 텍스트 정보 없이, 이미지 또는 PDF 형식으로 제공되는 경우도 많기 때문에, 이로 인해 키워드들의 데이터베이스 구축이 어렵다는 문제가 있다. 전술한 문제를 해결하기 위해, 광학문자인식(Optical Character Recognition, OCR) 기술을 이용해서 PDF 또는 이미지 파일들의 텍스트를 추출해서 기사를 구성해야 한다. 단순히, OCR을 이용하여 텍스트를 인식하는 경우 인식된 텍스트 결과물에 의미 없거나 불필요한 정보가 많이 포함될 수 있다. 특히 광고 페이지들이 많아서 전자잡지 통합 서비스용 기사 키워드 생성이 제대로 하기 어렵거나, 효율성이 떨어져서 시간과 비용이 증가하는 문제가 발생한다. 따라서, 각 전자잡지 페이지의 OCR 결과로부터 페이지 텍스트를 추출한 후, 이를 잡지의 목차 정보와 결합해서 효율적으로 기사의 키워드를 생성하는 기술을 필요로 한다. 도 1은 본 실시예에 따른 전자잡지 통합 서비스용 기사 연관 키워드 생성 시스템을 나타낸 도면이다. 도 2는 본 실시예에 따른 키워드 생성장치를 개략적으로 나타낸 블럭 구성도이다. 도 3은 본 실시예에 따른 텍스트 추출부를 개략적으로 나타낸 블럭 구성도이다. 도 4는 본 실시예에 따른 전자잡지의 페이지를 나타낸 도면이다. 도 5는 본 실시예에 따른 전자 잡지의 목차 데이터를 나타낸 도면이다. 도 6은 본 실시예에 따른 일반적인 목차 데이터를 나타낸 도면이다. 도 7은 본 실시예에 따른 태그 목록을 나타낸 도면이다. 도 8은 본 실시예에 따른 태그 연관도 테이블을 나타낸 도면이다. 도 9는 본 실시예에 따른 두 개 태그 항목의 연관도 정의를 나타낸 도면이다. 도 10은 본 실시예에 따른 태그-기사개수 쌍 목록을 나타낸 도면이다. 도 11은 본 실시예에 따른 태그 항목들의 연관도 초기화를 나타낸 도면이다. 도 12는 본 실시예에 따른 태그-기사개수 쌍 목록 수정을 나타낸 도면이다. 도 13은 본 실시예에 따른 태그 연관도 테이블 수정을 나타낸 도면이다. 도 14는 본 실시예에 따른 기사 키워드 생성 시 태그 연관도 테이블을 나타낸 도면이다. 도 15는 본 실시예에 따른 기사 키워드 생성 시 목차 데이터를 나타낸 도면이다. 도 16은 본 실시예에 따른 기사 키워드 생성 시 페이지 텍스트와 연관 키워드를 나타낸 도면이다. 도 17은 본 실시예에 따른 기사 키워드 생성 시 기사 텍스트, 기사 키워드 목록을 나타낸 도면이다. 이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 도 1은 본 실시예에 따른 전자잡지 통합 서비스용 기사 연관 키워드 생성 시스템을 나타낸 도면이다. 본 실시예에 따른 전자잡지 통합 서비스용 기사 연관 키워드 생성 시스템은 복수의 전자잡지 제공장치(110), 키워드 생성장치(120), 단말기(130)를 포함한다. 전자잡지 통합 서비스용 기사 연관 키워드 생성 시스템에 포함된 구성요소는 반드시 이에 한정되는 것은 아니다. 복수의 전자잡지 제공장치(110)는 디지털 형태의 잡지를 제공하는 장치로서 다양한 기능과 편의성을 제공한다. 복수의 전자잡지 제공장치(110)는 전자잡지 컨텐츠를 스마트폰, 태블릿, 전자책 리더 등의 모바일 기기에서 읽을 수 있도록 제공하며, 인터넷 연결을 통해 다양한 전자잡지를 구독하고 읽을 수 있도록 키워드 생성장치(120)로 전송한다. 복수의 전자잡지 제공장치(110)는 키워드 생성장치(120)로 각각의 전자잡지 컨텐츠를 디지털 형태로 제공되기 때문에, 언제 어디서나 쉽게 접근할 수 있도록 하며, 저장과 검색이 용이하도록 한다. 복수의 전자잡지 제공장치(110)는 전자잡지 컨텐츠를 키워드 생성장치(120)로 전송하여 전자잡지에 대한 다양한 기능을 제공하여 사용자의 편의성을 높이며, 페이지 넘김, 글꼴 크기 조절, 목차 제공, 검색 기능이 가능하도록 한다. 키워드 생성장치(120)는 하드웨어적으로 통상적인 웹서버(Web Server), 왑서버(WAP Server) 또는 네트워크 서버와 동일한 하드웨어 모듈을 포함한다. 키워드 생성장치(120)는 일반적으로 인터넷과 같은 개방형 컴퓨터 네트워크를 경유하여 불특정 다수 클라이언트 또는 다른 서버와 통신한다. 키워드 생성장치(120)는 클라이언트 또는 다른 웹서버의 작업수행 요청에 대응하는 작업 결과를 도출하여 제공하는 컴퓨터 시스템, 컴퓨터 소프트웨어(웹서버 프로그램)를 의미한다. 키워드 생성장치(120)는 전술한 웹서버 프로그램 이외에, 웹서버상에서 동작하는 일련의 응용 프로그램(Application Program) 또는 장치 내부에 구축되어 있는 각종 데이터베이스를 포함한다. 본 실시예에 따른 키워드 생성장치(120)는 온라인 상에서 사용자에게 다양한 잡지들을 볼 수 있도록 하는 전자잡지 통합 서비스를 제공할 때, 저작권 등의 이유로 인해, 뷰어 상에서 잡지 원본 이미지를 표시하는 방식으로 서비스를 제공한다. 키워드 생성장치(120)는 전자잡지 통합 서비스를 제공 시 전자잡지의 목차를 표시해서 사용자가 목차를 기반으로 해당 잡지의 기사들을 편리하고 빠르게 선택할 수 있도록 한다. 키워드 생성장치(120)는 다양한 전자잡지들로부터 원하는 키워드에 해당하는 기사들을 한 번에 검색해서 볼 수 있도록 한다. 키워드 생성장치(120)는 전자잡지 통합 서비스는 서비스하는 모든 잡지 별로 목차를 구성해야 하고, 잡지의 개별 기사 내용으로부터, 적절한 키워드들을 생성해서 관련 키워드들이 포함된 기사 데이터베이스를 구축한다. 본 실시예에 따른 키워드 생성장치(120)는 전자잡지 통합 서비스용 기사의 주제를 추출한다. 키워드 생성장치(120)는 전자잡지 통합 서비스용 기사 중 텍스트를 추출한 후 추론해서 기사의 키워드를 생성한다. 키워드 생성장치(120)는 전자잡지 통합 서비스용 기사를 OCR로 텍스트를 인식한 후 화면 상의 좌표를 보고 기사를 그룹핑한다. 키워드 생성장치(120)는 전자 잡지 통합 서비스를 제공하기 위한 복수의 출판사로부터 수신한 다양한 형식의 전자 잡지를 통합하여 배포한다. 키워드 생성장치(120)는 복수의 출판사로부터 수신한 다양한 형식의 전자 잡지를 사용자가 원하는 키워드를 가지고 검색할 수 있도록 한다. 키워드 생성장치(120)는 복수의 출판사로부터 수신한 다양한 형식의 전자 잡지를 뷰어처럼 출력하면서, 전자 잡지별 목차를 출력한다. 키워드 생성장치(120)는 복수의 출판사로부터 수신한 다양한 형식의 전자 잡지 내의 텍스트를 인식하여 사용자가 원하는 키워드를 갖는 기사를 검색할 수 있도록 한다. 키워드 생성장치(120)는 전자잡지 통합 서비스용 기사에 대한 키워드를 생성하여 DB를 구축한다. 키워드 생성장치(120)는 다양한 수준의 품질을 갖는 전자 잡지들로부터 키워드 생성한 후 DB를 구축한다. 키워드 생성장치(120)는 다양한 수준의 품질을 갖는 전자 잡지에 대해 OCR 처리를 수행해서 텍스트를 인식한다. 키워드 생성장치(120)는 인식한 텍스트를 기반으로 기사 구성하고, 구성된 기사들로부터 키워드를 추출해서 DB를 구축한다. 키워드 생성장치(120)는 다양한 수준의 품질을 갖는 전자 잡지 내에 텍스트가 미존재하더라도 목차가 존재하므로 목차를 기반으로 키워드를 생성할 수 있다. 키워드 생성장치(120)는 전자 잡지의 기사를 단락 또는 블록으로 인식한다. 키워드 생성장치(120)는 전자 잡지 내의 문서에서 글자 단위 또는 라인 단위로 위치 정보를 부여한다. 키워드 생성장치(120)는 전자 잡지의 로우 데이터로부터 라인을 구성하고, 라인을 다시 하나의 블록으로 묶어서 메타 데이터를 생성할 수 있다. 키워드 생성장치(120)는 인식된 텍스트 블록의 종류를 설정한다. 키워드 생성장치(120)는 전자 잡지에 특정 페이지를 OCR 처리한 후 1차 전처리를 수행하여 텍스트 블록들을 형성하고, 텍스트 블록 라인을 핵심 데이터로 생성한다. 키워드 생성장치(120)는 텍스트 블록 라인마다 영역 정보(상하좌우), 언어 정보(한글, 영어)를 인식한다. 키워드 생성장치(120)는 텍스트 블록 내의 세로 방향의 글자가 인식되면 일반적인 기사 내용과 관련이 없는 것으로 인식하여 노이즈로 간주한다. 키워드 생성장치(120)는 텍스트 블록 내의 세로 방향의 글자의 높이가 기 설정된 기준치보다 작으면 의미없는 데이터로 간주하고 제거한다. 키워드 생성장치(120)는 텍스트 블록의 문장의 크기가 지정된 값보다 크면 노이즈로 간주하고 제거한다. 키워드 생성장치(120)는 텍스트 블록의 가로 방향 인접도를 확인한다. 키워드 생성장치(120)는 텍스트 블록의 겹치는 부분이 전체 크기의 기 설정된 범위를 초과하면 가로 방향으로 겹침으로 판정을 해서 하나의 칼럼으로 묶는다. 키워드 생성장치(120)는 칼럼을 높이랑 상관없이 열로 묶는다. 키워드 생성장치(120)는 열이 다른 열이 더 있었으면 모든 열의 블록들하고 다 하나씩 제외시킨다. 키워드 생성장치(120)는 처리 대상 그룹들 라인들이 리스트업한 후 하나씩 제외시킬 수 있다. 키워드 생성장치(120)는 맨 처음 하나에 포함되는 칼럼을 하나씩 꺼내서 로직에 따라 기존 열에 넣거나 신규 열로 생성한다. 키워드 생성장치(120)는 기존 열하고 중첩되는 내용 있으면 기존 열에다 해당 컬럼을 넣는다. 키워드 생성장치(120)는 기존 열하고 중첩되는 내용이 없으면 새로운 열을 생성한다. 키워드 생성장치(120)는 열들로 모든 블록들을 배치한 후 열들은 일단 오름차순으로 정리한다. 키워드 생성장치(120)는 열들을 세로 방향으로 봤을 때 열 안의 블록들은 오른쪽 순으로 정리하면 순서대로 정렬된다. 키워