최근 이미지 생성 기술에서 알리바바의 Z-Image 모델이 큰 주목을 받고 있습니다. 이 모델은 오픈소스로 제공되며, 강력한 성능과 우수한 품질로 업계의 기준을 새롭게 정의하고 있습니다. 본 글에서는 Z-Image의 핵심 특징과 함께 ComfyUI를 활용한 로컬 환경에서의 이미지 생성 방법을 안내합니다.
Z-Image 모델 소개
Z-Image란?
Z-Image는 2025년 11월 26일, 알리바바 그룹의 Tongyi Lab에서 공개된 텍스트-이미지 생성 모델입니다. 이 모델은 약 60억 개의 파라미터를 사용하여 효율적인 구조를 통해 고품질 이미지를 생성하는 것을 목표로 합니다. Z-Image는 모델 가중치뿐만 아니라 코드와 온라인 데모를 공개하여 연구자와 일반 사용자 모두가 쉽게 접근할 수 있도록 하고 있습니다.
주요 특징
- 단일 스트림 Diffusion Transformer 구조: 텍스트와 이미지를 하나의 시퀀스로 결합하여 계산 효율을 높입니다.
- 고속 추론: 8스텝 내외의 짧은 과정으로 고품질 이미지를 생성할 수 있습니다.
- 사실적인 이미지 품질: 조명, 질감, 색감을 정밀하게 표현하여 포토리얼 수준의 이미지를 만들어냅니다.
- 다언어 지원: 중국어와 영어 텍스트를 자연스럽게 렌더링할 수 있습니다.
- 이미지 생성 및 편집: Z-Image-Edit 모델을 통해 기존 이미지를 수정할 수 있는 기능을 제공합니다.
ComfyUI 설치 및 설정
실행 환경
- 운영체제: Windows 11
- ComfyUI: 0.3.76
- ComfyUI-Manager: V3.30
- Python: 3.10.11
- torch: 2.9.1 + cu128
- GPU: NVIDIA GeForce RTX 4060 Ti (vRAM: 16GB)
ComfyUI 다운로드
ComfyUI는 아래 링크를 통해 다운로드할 수 있습니다. 사용 환경에 맞는 버전을 선택하여 설치하세요.
ComfyUI 다운로드
Workflow 및 모델 다운로드
최신 ComfyUI에서는 웹 UI 내에서 워크플로우를 쉽게 불러올 수 있습니다.
1. ComfyUI 실행 후, 왼쪽 탭에서 “Templates” 버튼 클릭
2. “Image” 항목에서 “Z-Image-Turbo Text to Image” 선택
3. 모델을 자동으로 탐색하고, 필요한 경우 다운로드 링크를 제공받습니다.
4. 다운로드한 모델 파일은 아래와 같은 폴더 구조에 맞게 이동합니다.
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── z_image_turbo_bf16.safetensors
│ ├───📂 text_encoders/
│ │ └─── qwen_3_4b.safetensors
│ ├───📂 vae/
│ │ └── ae.safetensors
이미지 생성하기
Z-Image-Turbo 모델을 사용하여 이미지를 생성할 수 있습니다. 실제 테스트에서 약 20GB의 VRAM을 사용하여 25초 내외로 이미지를 완성하였습니다. 아래 두 가지 프롬프트를 사용하여 생성한 이미지의 예시입니다.
- 프롬프트: Latina female with thick wavy hair, harbor boats and pastel houses behind. Breezy seaside light, warm tones, cinematic close-up.
- 프롬프트: Golden retriever running along the seaside, mid-leap with splashing seawater around its paws. Soft morning light, gentle waves, warm coastal tones, cinematic action shot with shallow depth of field.
Z-Image-Turbo 모델은 짧은 생성 시간에도 불구하고 세밀한 질감 표현과 자연스러운 색조 균형을 보여주었습니다. 인물 장면에서는 빛의 방향과 피부 질감, 머리카락의 흐름이 사실적으로 표현되었으며, 강아지 이미지는 바닷물의 튀김과 모래의 질감이 생생하게 구현되었습니다.
결론
Z-Image-Turbo 모델은 효율적인 구조와 높은 표현력을 결합하여 오픈소스 이미지 생성 기술의 새로운 기준을 제시하고 있습니다. 누구나 접근할 수 있는 개방형 형태로 공개된 이 모델은 개인 창작자와 개발자에게 고품질 시각 콘텐츠를 쉽게 제작할 수 있는 환경을 제공합니다. 앞으로 Z-Image와 같은 모델의 발전은 상업적 독점 구조를 완화하고, 창의적 생산성과 기술 공유의 균형을 이루는 중요한 계기가 될 것입니다.
자주 묻는 질문
질문1: Z-Image 모델은 어떻게 설치하나요?
Z-Image 모델은 ComfyUI를 통해 다운로드 및 설치할 수 있으며, 설치 후 필요한 모델 파일을 지정된 폴더에 배치하면 됩니다.
질문2: Z-Image를 사용하여 생성한 이미지는 어떻게 활용하나요?
생성한 이미지는 개인 용도 및 상업적 프로젝트에 활용할 수 있으며, Apache-2.0 라이선스에 따라 자유롭게 수정하고 배포할 수 있습니다.
질문3: ComfyUI에서 Z-Image를 사용하려면 어떤 환경이 필요한가요?
Windows 11 환경에서 ComfyUI 0.3.76 버전과 Python 3.10.11, NVIDIA GPU가 필요합니다.
질문4: Z-Image가 제공하는 편집 기능은 무엇인가요?
Z-Image는 기존 이미지를 수정할 수 있는 Z-Image-Edit 모델을 제공하여, 객체 수정, 배경 변경, 스타일 조정 등의 작업을 지원합니다.
질문5: Z-Image의 성능은 어떤가요?
Z-Image는 고속 추론과 포토리얼리스틱 이미지 품질을 제공하여, 기존의 상용 모델과 비교할 수 있는 경쟁력을 갖추고 있습니다.
이전 글: 저축은행 휴면예금 조회 서비스의 모든 것