어도비도 뛰어든 생성형 AI··· '생성형 채우기' 직접 써보니

동아닷컴
입력 2023년 7월 4일 16시 48분

코멘트: 0개

좋아요: 개

코멘트: 0개

생성형 인공지능(Generative Artificial Intelligence, 이하 생성형 AI)은 사용자가 입력한 문구를 분석해 텍스트 또는 이미지, 기타 미디어 등을 생성하는 인공지능 시스템이다. 텍스트 형태로는 오픈AI의 챗GPT와 마이크로소프트 빙AI, 구글 바드(Bard) 등이 대표적이며, 이미지는 미드저니(Midjourney)나 스테이블 디퓨전(Stable Diffusion), DALL-E 등이 주목받고 있다.

하지만 데이터의 수집 과정으로 인해 이미지 기반 생성형 AI는 벌써부터 위기를 맞고 있다. 텍스트 기반 생성형 AI는 문자 그대로를 데이터로 수집하므로 저작권 등에서 비교적 안전하지만, 이미지는 이미 저작권이 있는 그림이나 사진 등을 수집할 수밖에 없다. 이 때문에 스테이블 디퓨전의 제작사 스태빌리티 AI는 게티이미지로부터 고소당했고, 미드저니 역시 게임 디자이너나 일러스트레이터 등의 작가로부터 고소장을 받은 상태다.

어도비 포토샵(Beta)를 설치하면 생성형 채우기 기능을 시험적으로 써볼 수 있다. 출처=IT동아

한편, 어도비(Adobe)는 독자적으로 개발하고 있는 생성형 AI 서비스에 자사 서비스와 보유 이미지, 자유이용 저작물만을 활용함으로써 저작권 관련 문제를 원천 차단하고 있다. 또한 이미지 전체를 생성하는 다른 서비스와 달리 사용자가 영역을 선택하고 수정할 수 있는 방안을 제시함으로써 이미지 기반 생성형 AI 시장을 주도하기 시작했다. 어도비의 생성형 AI가 어떤 가능성을 품고 있는지 직접 확인해 봤다.

부분 수정부터 배경 변경까지, 어도비 ‘생성형 채우기’

어도비 생성형 채우기는 지난 3월 공개된 기업용 생성형 AI 서비스 ‘파이어플라이’의 기술을 어도비 포토샵에 구현한 도구다. 파이어플라이는 이미 2억 개 이상의 자산을 생성했으며, 미드저니나 스테이블 디퓨전과 달리 타인 또는 타 브랜드의 저작권을 침해하지 않도록 설계돼 기업 및 상업 시장에서 가장 안전한 생성형 AI 서비스로 인정받고 있다. 파이어플라이는 포토샵을 통한 이미지 변형 이외에도 스케치를 활용한 그래픽 생성이나 텍스트 기반 영상 편집 기능, 3D 모델링 자동 생성 등 이미지 생성 이상의 기능을 지원할 예정이다.

생성형 채우기에 앞서 자동으로 영역을 분리한다. 좌측은 인공지능이 인식한 피사체, 우측은 직접 수동으로 분리한 결과다. 수동으로 한 부분이 더 세밀한 것을 알 수 있다. 출처=IT동아

파이어플라이가 적용된 포토샵은 정식 버전이 아닌 별도로 베타 버전을 다운로드해야 사용할 수 있다. 베타 버전을 실행하면 새로 등록된 기능에 곧바로 ‘생성형 채우기’ 기능과 활용 방법이 소개된다. 우선 몇 가지 예제를 활용해 생성형 채우기를 활용해 봤다. 포토샵에 이미지를 열면 예전 버전과 다르게 ‘피사체 선택’과 ‘배경 제거’를 포함한 가로 창이 별도로 제공된다. 이 버튼을 누르면 인공지능이 자동으로 피사체를 인식해 배경과 피사체를 분리한다.

특정 영역을 잘라내는 것을 소위 ‘누끼’를 딴다라고 하는데, 사실 이 기능 자체는 완벽하지 않다. 기본적으로 이미지와 배경의 형태 및 색상 등을 인식해서 분리하므로 배경과 피사체의 색상이 비슷하거나, 심도가 제대로 분리돼있지 않으면 피사체도 제대로 분리되지 않는다. 현재 정식 버전에 채택된 ‘개체 선택 도구’와 같은 품질이다. 물론 빠르게 누끼를 따야 하는 조건에서는 무난한 품질이고, 전문가라면 별도로 잘라낼 테니 큰 문제는 없다.

자동으로 잘린 이미지는 빠른 선택 도구로 영역을 빼거나 추가할 수 있으며, 펜 툴을 활용해 영역을 잘라낸 경우에도 생성형 채우기를 적용할 수 있다. 생성형 채우기 자체가 마스크의 형태로 적용되는 방식이어서 선택 및 마스크(리파인 엣지) 툴을 활용했을 경우 마스크를 추가로 지정해야 생성형 채우기를 적용할 수 있다.

명령어로 구체적인 지시 가능, 이미지 품질도 수준급

생성할 이미지는 직접 명령어를 입력하거나, 자동으로 채워준다. 출처=IT동아

이미지를 선택하고, 배경에 생성형 채우기를 적용했다. 생성형 채우기는 프롬프트를 입력하지 않고 인공지능이 자동으로 채우는 방식과 사용자가 직접 명령어를 기재하는 방식이 있다. 명령어는 ‘배경에 설산이 있고, 호수가 있는 꽃밭’을 주문했다. 그 결과 배경과 구도를 자동으로 인식해 이미지가 생성되었으며, 조합에 따라서는 그림자나 윤곽까지 잡아주는 모습을 보여주었다.

이미지는 한 번에 세 장씩 생성하며, 세 장 중 마음에 드는 결과물을 선택하면 적용된다. 마음에 들지 않을 경우 다시 ‘생성’ 버튼을 누르면 같은 주제로 이미지를 생성한다. 이미지는 클라우드를 통해 연산이 처리되므로 네트워크에 연결돼있어야 한다.

이미지에 따라 구도나 원근감 이해하는 모습 보여

흥미로운 것은 인공지능이 배경이나 피사체의 구도를 이해하는 모습을 보여준다. 스테이블 디퓨전 등의 생성형 AI의 경우 원하는 이미지를 얻기 위해 구체적인 피사체의 형태나 모습, 색상, 빛의 수준, 노출도, 선의 굵기, 형태까지 모두 지정해야 하고, 샘플에 사용되는 이미지와 선과 피사체의 구성, 형태, 심지어는 나이나 얼굴형까지 하나하나 코드로 입력해야 한다. 이미지를 이해하고 만든 다기보다는 지시하는 대로 생성하는 방식에 가깝다.

반면 어도비의 파이어플라이는 아직까지 세부적인 지시까지 반영하지는 못하지만, 피사체를 인식하려는 모습을 보인다. 예시의 사진의 경우 두 번째와 네 번째 사진에서 말들이 한 라인에 서 있는 것처럼 보이기 위해 인위적으로 언덕 형태를 추가했다. 기존의 인공지능의 경우 별도로 언덕을 넣으라고 지시해야 했을 텐데, 이런 부분에서 이해도가 조금 더 높은 듯하다. 만약 세부적인 프롬프트의 지시 사항까지 반영할 정도로 업그레이드가 된다면 보다 사용하기 쉽고, 편리하게 이미지를 생성할 수 있을 것으로 추측된다.

이미지 일부분만 있어도 창작 가능해

작은 이미지 하나만으로 완전히 새로운 이미지를 창작하는 것도 가능하다. 출처=IT동아

작은 이미지 한 장으로 주변 배경을 추론해서 만들 수도 있다. 빙하가 놓여있는 바다 사진을 놓고, 주변에 빙하를 자동으로 생성하라고 요청했다. 생성형 AI는 기존에 제공된 사진의 바다, 빙하, 해안의 모래색 등을 토대로 빙하와 바다 모양을 자동으로 생성했다. 다만 바다에 부자연스러운 형태의 산과 구름까지 생성한 모습이다.

제공된 결과물에서 산과 하늘을 추가로 선택한 다음, 오로라를 만들어달라고 부탁했다. 그 결과 산의 모습도 깔끔하게 바뀌었으며, 오로라가 비치는 사진으로 바꿔놓았다. 물론 오로라가 완전히 어두울 때만 보이기 때문에 하늘의 밝은 부분이 옥의 티로 남았지만, 작은 사진 한 장으로 충분히 이상적인 결과물을 만들어낼 수 있었다.

다만 비정형 형태의 피사체를 생성하기는 어려운 것으로 보인다. 산이나 바다, 지평선 등 명확한 부분은 비교적 잘 생성하지만, 형태나 크기가 제각각인 빙하의 경우 실존하기 어렵거나 이상한 형태로 가공된 경우가 많았다. 데이터가 많았다면 다른 사람이 촬영한 사진을 가져와서 실사에 가까운 결과를 내놓았겠으나, 아직 그 정도까지는 아닌 것 같다.

사진을 영역별로 하나하나 선택해 생성형 채우기로 내용을 채워넣어 봤다. 출처=IT동아

마지막으로 생성형 채우기를 실제 합성하는 과정처럼 써봤다. 원본 이미지에서 배경에 구름을 만들고, 좌측 문 뒤편의 빌딩 숲을 삭제했다. 계단에 있는 사람도 지웠고, 공사 가림막이 있는 2층 창문도 생성형 채우기로 유리창을 만들어서 넣었다. 이때 렌즈 플레어가 수정하는 영역을 가로지르고 있으나, 인공지능이 자동으로 이를 인식해 자연스럽게 플레어를 처리한 점이 인상적이다.

그다음 빈 부분에 꽃밭과 말, 그리고 마차를 생성해 넣었다. 물론 말의 형태나 각도, 다리 개수 등이 엉망이어서 여러 차례 생성해야 했지만 반복된 시도 끝에 무난한 결과물을 만들어낼 수 있었다. 물론 말의 크기를 결정하는 것은 선택 영역이므로 이 부분도 고려해서 만들어야 했다. 이 정도 수정에 걸린 시간은 약 10분 이내였다.

사실 이 정도 합성을 수동으로 하는 것은 어렵지 않다. 펜 툴을 활용해 인공지능보다 훨씬 정밀하게 영역을 잘라낼 수 있고, 복구 브러시 도구를 활용해 자연스럽게 사람이나 빌딩 등도 지울 수 있다. 하지만 처음부터 가림막에 가려진 2층 창문, 그리고 뒤쪽 측면에서 촬영한 말과 마차의 이미지, 그림자 등은 사용자가 하나하나 대입할 결과물을 찾거나 만들어야 한다. 이때 저작권이 있는 이미지라도 사용하면 추후 상업적 이용 등에 문제가 될 수 있다. 이런 측면에서는 확실히 편의성이 뛰어나다.

이미지 생성형 AI, 데이터 저작권이 성패 가를듯

어도비는 생성형 AI를 만들면서 다른 기업들보다 저작권 문제를 훨씬 민감하고 정석적인 자세로 받아들이고 있다. 출처=어도비

어도비 파이어플라이는 생성형 AI 서비스를 어떻게 구축해야 하는지를 보여주는 모범 사례다. 어도비는 직접 보유한 데이터로 파이어플라이를 학습하고, 또 저작권과 관련된 소송 등이 발생할 경우 전액 보상하겠다는 성명까지 발표했다. 그만큼 저작권 문제에서 자유롭다는 자신감을 내비치는 것이다. 또한 1천 개의 회원사가 소속된 콘텐츠 진위 이니셔티브를 통해 데이터 소유자가 원치 않을 경우 인공지능 학습에 데이터를 활용할 수 없도록 하는 선택권을 제공하는 등 건전한 생태계 조성을 위해서도 노력하고 있다.

다만, 어도비 파이어플라이가 안전한 데이터만 활용하면서, 품질 자체에는 한계가 있을 수밖에 없다. 검증된 데이터만 활용하다 보니 그만큼 매개변수의 범위가 한정적일 수밖에 없고, 이미지에 쓸 수 있는 데이터에도 제약이 있다. 예를 들어 유명인이나 고유명사 중 어도비가 확보하지 못한 이미지는 생성형 채우기에서 인지하지 못한다. 이 부분은 어도비가 해결해야 할 숙제로 남을 것이다.

동아닷컴 IT전문 남시현 기자 (sh@itdonga.com)