AI 서비스의 모든 것 2편: 이미지 생성 AI

2021.04.14

|

5915


*잠깐, 이 글을 소개해드리는 위시켓은 2019년 시밀러웹 방문자 수 기준, 국내 1위 IT아웃소싱 플랫폼입니다.
현재 8만 이상의 개발업체, 개발 프리랜서들이 활동하고 있으며, 무료로 프로젝트 등록이 가능합니다. 프로젝트 등록 한 번으로 여러 개발업체의 견적, 포트폴리오, 예상기간을 한 번에 비교해보세요:)

이 사람은 존재하지 않습니다. (feat. GAN)

This Person Does Not Exist
위의 링크는 새로고침을 할 때마다 새로운 사람의 얼굴이 뜹니다. 그런데, 이들은 모두 존재하지 않는 사람입니다. 사진이 모두 고화질이고, 이질감이 전혀 없어 가짜로 보이지 않습니다. 이것이 바로 이미지 생성 AI (GAN) 기술의 현주소입니다.

출처: https://thispersondoesnotexist.com/

정말 쉽고 간단하게 GAN을 소개합니다 (feat. 문과생에 의한, 문과생을 위한)

(Generative Adverserial Network; 생성적 대립 신경망)

AI 서비스에 대한 이해를 돕기 위해 AI 기술을 간단하게 알려드립니다. 이미지 생성 AI인 GAN의 개념을 알아본 후, 실제 서비스 사례로 넘어가겠습니다.
GAN을 한글로 번역하면 “생성적 대립 신경망”입니다. 이름의 뜻을 하나하나 짚어볼까요?

1) “생성적” 대립 신경망
먼저, GAN은 이미지를 “생성”하는 AI입니다. GAN은 수많은 이미지의 공통점을 학습하고 비슷한 이미지를 생성합니다.

GAN의 원리

이미지는 수치화된 데이터입니다. 이미지는 수많은 픽셀로 이루어져 있고, 픽셀은 RGB 색상 값을 지닙니다. 즉, 이미지는 “픽셀 X 색상” 값의 분포로 표현할 수 있습니다. AI는 이미지의 분포를 학습해 기존 이미지와 비슷한 새로운 이미지를 만들 수 있습니다.
사람의 얼굴을 학습한다고 해볼까요? 사람의 얼굴에도 평균적인 분포가 있습니다. 평균적인 눈의 길이와 코의 위치와 같은 것 말이죠. 이렇게 얼굴의 통계적인 분포도를 학습한 AI는 실존하지 않지만 있을 법한 사람을 생성할 수 있습니다.

2) 생성적 “대립” 신경망
그렇다면 “대립”은 어디서 나왔냐고요? 바로 두 개의 시스템이 서로 엎치락뒤치락 경쟁하며 알고리즘을 발전시키고 있기 때문입니다.

GAN의 생성자와 판별자

1) 생성자: 생성자는 야심 찬 미술학도입니다. 처음엔 말도 안 되는 그림을 그립니다. 그리고 언제나 판별자에게 평가받습니다. 레벨이 낮을 땐 매번 까이지만 판별자를 속일 때까지 배움을 게을리하지 않습니다.

2) 판별자: 판별자는 권위적인 선생님입니다. 생성자가 만든 이미지가 진짜인지 가짜인지 가립니다. 처음엔 생성자가 만든 이미지의 질이 낮아 혼내기 좋았는데, 나날이 그림 실력이 일취월장하니 알아보기 힘드네요.

처음에 생성자는 노이즈 같은 이미지를 만듭니다. 당연히 판별자는 진짜 이미지와 비교한 후 생성자가 만든 이미지가 가짜라고 판별합니다. 하지만 학습이 진행될수록 생성자는 발전합니다. 판별자도 함께 발전하지만 생성자가 판별자를 뛰어넘는 순간이 옵니다. 판별자가 생성된 이미지와 진짜 이미지를 구분할 수 없을 때 생성자가 비로소 “진짜 같은 이미지”를 만든 것입니다. 학생이 교수를 뛰어넘은 순간입니다. GAN을 한마디로 정리하면 “청출어람”이 아닐까요.
NVIDIA의 ProGAN 알고리즘은 4*4의 낮은 해상도의 이미지부터 생성하기 시작해, 1024*1024의 높은 해상도의 이미지를 점차 생성해냅니다. 해상도가 높아지고 시간이 흐를수록 진짜 있을 법한 얼굴이 보입니다.

해상도를 높여가는 ProGAN의 생성 과정

GAN의 원리를 통해 AI가 이미지를 “생성”하는 방법을 알 수 있었습니다. 그럼 이제 다양한 이미지 생성 AI 서비스를 알아볼까요?

AI 서비스의 모든 것 2편: 

이미지 생성 AI

이미지 생성 AI을 세 가지 유형으로 나누어 소개합니다.
1. 이미지 생성 AI (Generation), 2. 이미지 변형 AI (Translation), 3. 스타일 전환 AI (Conversion)

이미지 생성 AI

1. 이미지 생성 AI (Generation)

새로운 이미지를 만들어내는 AI입니다.

a. AI 아이돌과 모델

일본 AI 기업, “Data Grid“의 “Gene Idol”은 AI 아이돌 프로젝트입니다. 아래 영상을 보면 일본 특유의 아이돌같이 생긴 여자들이 스쳐 지나갑니다. 실제로 있을법한 일본 아이돌의 생김새입니다.
LG전자도 최근 AI 가상 모델 “김래아”를 개발하고 광고 모델로 활용하고 있습니다. AI로 만든 가상의 연예인조차 한국 여성과 일본 여성의 스타일이 확연히 구분되는 것이 흥미롭습니다.

Gene Idol, AI 아이돌 프로젝트(https://youtu.be/fJ3Rn2E_HmA)

LG전자 AI 가상 모델 김래아

b. 일본 애니메이션 캐릭터 자동 생성

Data Grid에는 “애니메이션 캐릭터 생성 프로젝트”도 있습니다. AI가 캐릭터의 생성을 도와 만화를 그리는 데 소요되는 비용을 줄여줍니다. 일본 애니메이션 캐릭터의 특징이 뚜렷하기 때문에 캐릭터의 스타일을 학습하고 무한히 생성하는 것이 가능한 것으로 보입니다.

Data Grid

Artbreeder로 직접 만든 일본 애니메이션 캐릭터입니다. “Parents”에 마음에 드는 캐릭터를 정해두고, “Genes”에서 눈알 색과 같은 세부 스타일을 조정합니다. 저는 볼터치와 스마일 강도를 높였습니다. 그랬더니 “Parents”에 있는 캐릭터를 닮은 초록색 머리의 웃는 캐릭터가 만들어집니다. 캐릭터 생성은 Artbreeder 링크에서 직접 해보실 수 있습니다.

Artbreeder

c. AI 발표 영상 (Synthesia AI)

원하는 발표자를 선택하고, 발표할 내용을 입력하면 발표 영상이 만들어집니다. 실제로 영상을 만들어 보니 영상은 사진만큼 자연스럽지 않습니다. 말할 때 입 부분과 눈이 부자연스럽습니다. 그러나 돈을 들이지 않고 발표 영상을 만들 수 있다는 것이 이 서비스의 장점입니다.

https://www.synthesia.io/#how-it-works

2. 이미지 변형 AI (translation)

다른 이미지를 참고해 기존 이미지를 변형하는 AI입니다.

a. NVIDIA의 StyleGAN

기존 GAN에서 한 단계 더 발전한 StyleGAN은 사용자가 변수, 즉 스타일을 조정할 수 있습니다.
아래 사진을 예를 들면, 빨간색 네모 안의 사람들이 source A (세로축)과 source B(가로축)을 섞어 만든 사람들입니다. 1~3 번행까지는 source B 사람들의 스타일을 많이 따르고, 4~5번 행은 중간, 마지막 행은 조금 따릅니다. 결과적으로 1~3행은 source B 사람들의 포즈, 머리카락, 얼굴 모양, 안경 유무까지 따르고 4~5번 행은 얼굴의 생김새만 따르며, 마지막 행은 색깔만 겨우 따르는 수준입니다.

NVIDIA – StyleGAN

b. 동물 얼굴 번역 (NVIDIA GANimal)

NVIDIA의 StyleGAN을 사용해서 내 애완동물을 다른 동물로 번역해볼 수 있습니다. 저의 애완 고양이 양양이를 모델로 데려왔습니다. 먼저, 동물의 얼굴 영역을 지정합니다.

얼굴 영역 지정하기

양양이가 다른 동물로 번역된 결과입니다. 양양이가 개 또는 치타였다면 이렇게 생겼을 거라네요. 생각보다 양양이를 특별히 닮은 것 같진 않습니다. 다만 포즈는 잘 따라 하는 것으로 보입니다.

NVIDIA 인식 결과

3. 이미지 스타일 전환 AI (conversion)

예술 작품의 “스타일” 또한 규칙이 있기 때문에 이를 학습하고 다른 이미지에 적용하는 것이 가능합니다. 이미 다양한 사진 필터 앱으로 스타일 전환 AI를 경험해본 적이 있으실 것입니다.

RunwayML은 코딩 없이 다양한 머신러닝 툴을 사용할 수 있는 플랫폼입니다. 양양이가 자는 사진을 Runway의 스타일 전환 모델에 넣었습니다. 피카소 스타일로 변환하니 질감과 색감의 대비가 뚜렷해졌습니다. 피카소가 즐겨 쓰는 소용돌이무늬들이 눈에 띕니다.

피카소 스타일의 양양이 (https://app.runwayml.com)

사진뿐만 아니라 영상의 스타일도 바꿀 수 있습니다. Ulyanov 외 2인은 영상의 스타일 전환도 빠르게 처리할 수 있는 방법을 찾았습니다. (아래)

마무리하며

현재 AI 이미지 인식 기술은 상용화 단계이고, 이미지 생성 기술은 연구 및 시제품 단계입니다. 아직 이미지 생성 기술의 사업화 방향이 뚜렷하지 않습니다. AI가 이미지를 생성하는 것은 신기하고 재밌습니다. 하지만 돈을 내고 쓸만한 이미지 생성 AI 서비스는 아직 없습니다.
그나마 현재 괜찮은 서비스는 AI 가상 모델입니다. GAN이 만든 얼굴 이미지를 보면 AI 모델이 실제 모델을 대체하는 날이 머지않음을 느낄 수 있습니다. 하지만 진짜 사람을 뛰어넘기 위해선 움직임조차 자연스러워야 하는데, AI 모델의 움직임은 아직 어색합니다. 컴퓨팅 파워와 알고리즘이 급속도로 발전하는 현대 사회에 생각보다 빠른 시일 내에 움직임도 완벽한 AI 가상 모델이 출시되지 않을까요?

<출처>
직접 AI 이미지 생성 및 합성을 해볼 수 있는 사이트
https://app.runwayml.com/home
https://www.artbreeder.com/browse
GAN 아트 툴 사이트 링크 정리된 사이트
https://aiartists.org/ai-generated-art-tools
GAN 관련 아티클
https://heartbeat.fritz.ai/stylegans-use-machine-learning-to-generate-and-customize-realistic-images-c943388dc672
https://wiki.pathmind.com/generative-adversarial-network-gan
StyleGAN (NVIDIA) 논문
https://arxiv.org/pdf/1812.04948.pdf

국내 1위 IT아웃소싱 플랫폼,
위시켓이 궁금하신가요?


앱 개발 비용 궁금하세요?
위시켓이 바로 알려드릴게요!

AIAI 가상 모델AI 가상 모델 김래아AI 발표 영상AI 서비스AI 이미지AI 이미지 생성AI가상 모델AI발표 영상AI이미지AI이미지 생성ConversionGANGAN 설명GAN 의미GAN의미GAN이란GenerationGenerative Adverserial NetworkNVIDIA GANimalStyle GANTranslation동물 얼굴 번역동물얼굴 번역생성적 대립 신경망생성적 대립 신경망이란스타일 전환 AI스타일 전환AI이미지 AI이미지 변형 AI이미지 변형AI이미지 생성 AI이미지 생성AI이미지AI
다음 글

위시켓 블로그의 새로운 소식 받기