토큰 유사도 기반의 벡터-양자화 확산 모델을 활용한 고품질 이미지 생성 방법 및 이를 위한 장치
본 발명의 일 실시 예에 따른 토큰 유사도 기반의 벡터-양자화 확산 모델을 활용한 고품질 이미지 생성 방법은 (a) 제N(N은 임의의 양의 정수) 학습 데이터를 입력하여 이미지 생성 모델을 학습시키는 단계, (b) 의미론적 이미지를 생성하고자 하는 입력 데이터를 상기 학습시킨 이미지 생성 모델에 입력하는 단계 및 (c) 상기 입력한 입력 데이터에 따라 상기 이미지 생성 모델이 생성한 하나 이상의 의미론적 이미지를 출력하는 단계를 포함하고, 상기 입력 데이터는, 입력 조건 데이터인 조건 이미지 틀(Layout)을 포함하며, 상기 조건 이미지 틀은, 생성하고자 하는 의미론적 이미지가 포함하는 하나 이상의 대상인 클래스(Class)가 대상별로 각각의 카테고리로 분류되며, 상기 클래스가 차지하고 있는 픽셀 영역에 상기 분류된 카테고리 별로 상이한 숫자가 부여된 이미지 틀이다.
상세 설명
기술분야
본 발명은 토큰 유사도 기반의 벡터-양자화 확산 모델을 활용한 고품질 이미지 생성 방법 및 이를 위한 장치에 관한 것이다. 보다 자세하게는 확산 과정(Diffusion Process)에서 이미지 토큰 간의 유사도를 고려하는 이산형 확산 모델(Discrete Diffusion Model)을 통해 사실적인 고품질 이미지를 생성하는 방법 및 이를 위한 장치에 관한 것이다.
해결하려는 과제
본 발명이 해결하고자 하는 기술적 과제는 이미지 생성 모델의 일부 구성으로 확산 모델을 적용하되, 학습의 안정성 확보를 위한 종래의 문제점을 극복하여 고품질 이미지를 다양하게 생성할 수 있는 토큰 유사도 기반의 벡터-양자화 확산 모델을 활용한 고품질 이미지 생성 방법 및 이를 위한 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 확산 모델의 학습 과정에서 불필요한 노이즈를 줄임으로써 효과적인 학습을 도모할 수 있는 토큰 유사도 기반의 벡터-양자화 확산 모델을 활용한 고품질 이미지 생성 방법 및 이를 위한 장치를 제공하는 것이다
발명의 효과
상기와 같은 본 발명에 따르면, 정방향 확산 프로세스인 전이 행렬을 각각의 벡터가 코드북이 포함하는 K개의 코드 벡터 중 어느 하나로 변환될 확률을 유사도를 개별적으로 산정하여 차등적인 확률로 정의하는바, 학습의 안정성 확보를 위한 종래의 문제점을 극복하고 불필요한 노이즈를 주지 않게 되므로 확산 모델의 효과적인 학습이 학습이 이루어지게 함과 동시에 다양한 고품질 이미지 생성 성능까지 향상될 수 있다는 효과가 있다.