본문 바로가기
IT와 개발/AI 이야기

Stable Diffusion 3 출시

by 도서 임보자 2024. 7. 9.

Stable Diffusion 3 Medium이 출시 되었습니다. 이 모델은 뛰어난 세부 묘사, 색상 및 조명을 통해 사진 같은 이미지를 제공하며, 유연한 스타일의 고품질 출력도 가능하다고 얘기하고 있습니다. 또한 손과 얼굴의 사실성 등 다른 모델의 일반적인 단점을 혁신적인 16채널 VAE를 통해 극복했으며 긴 문장이나 복잡한 지시사항, 공간적 추론, 구성 요소, 동작 및 스타일을 이해하며, 세 가지 텍스트 인코더를 모두 사용하거나 조합하여 성능과 효율성을 조절할 수 있다고 합니다.

Diffusion Transformer 아키텍처를 활용해 철자, 자간, 글자 형성 및 간격에서 전례 없는 텍스트 품질을 구현하며, 낮은 VRAM 사용량 덕분에 성능 저하 없이 일반 소비자 GPU에서도 이상적으로 작동한다고 합니다.

 

지금껏 개인 컴퓨터에서 사용해보지 못했던 분들도 한 번 사용해 보시면 좋을 것 같습니다. 내 손으로 다양한하고 높은 퀄리티의 이미지를 만들어내는 것은 또 다른 재미를 선사할 겁니다.

 

출처: stabilityai/stable-diffusion-3-medium · Hugging Face

 

stabilityai/stable-diffusion-3-medium · Hugging Face

Stable Diffusion 3 Medium Model Stable Diffusion 3 Medium is a Multimodal Diffusion Transformer (MMDiT) text-to-image model that features greatly improved performance in image quality, typography, complex prompt understanding, and resource-efficiency. For

huggingface.co

 

 

Model

 

Stable Diffusion 3 Medium은 이미지 품질, 타이포그래피, 복잡한 프롬프트 이해 및 리소스 효율성 측면에서 크게 향상된 성능을 제공하는 Multimodal Diffusion Transformer (MMDiT) text-to-image 모델입니다.

보다 자세한 기술적인 내용은 연구논문을 참고하세요.

참고: 이 모델은 Stability Non-Commercial Research Community License에 따라 출시되었습니다. 크리에이터 라이선스 또는 기업 라이선스의 경우 Stability.ai를 방문하거나 상용 라이선스 세부정보를 알아보려면 당사에 문의하세요.

 

Model Description

  • 개발사: Stability AI
  • 모델 유형: MMDiT text-to-image 생성 모델
  • 모델 설명: 텍스트 프롬프트를 기반으로 이미지를 생성하는 데 사용할 수 있는 모델입니다. 3개의 고정되고 사전 훈련된 텍스트 인코더 (OpenCLIP-ViT/GCLIP-ViT/L 및 T5-xxl)를 사용하는 Multimodal Diffusion Transformer (https://arxiv.org/abs/2403.03206)입니다.

 

License

  • 커뮤니티 라이센스: 연구, 비상업적, 상업적 용도로는 무료입니다. 연간 수익이 100만 달러를 초과하고 상용 제품 또는 서비스에서 Stability AI 모델을 사용하는 경우에만 유료 Enterprise 라이선스가 필요합니다. 더 읽어보세요: https://stability.ai/license
  • 이 수익 기준을 초과하는 회사의 경우https://stability.ai/enterprise로 문의하세요.

 

Model Sources

로컬 또는 자체 호스팅 사용의 경우 추론을 위해 ComfyUI를 권장합니다.


Stable Diffusion 3 Medium은 Stability API 플랫폼에서 사용할 수 있습니다.


Stable Diffusion 3 모델 및 워크플로는 Stable Assistant 및 Discord에서 Stable Artisan을 통해 사용할 수 있습니다.

 

Training Dataset

우리는 합성 데이터를 사용하고 공개적으로 사용 가능한 데이터를 필터링하여 모델을 교육했습니다. 모델은 10억 개의 이미지로 사전 학습 되었습니다. 미세 조정 데이터에는 특정 시각적 콘텐츠와 스타일에 초점을 맞춘 3천만 개의 고품질 미적 이미지와 3M 선호도 데이터 이미지가 포함됩니다.

 

File Structure

├── comfy_example_workflows/
│   ├── sd3_medium_example_workflow_basic.json
│   ├── sd3_medium_example_workflow_multi_prompt.json
│   └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors

 

우리는 사용자 편의를 위해 각각 동일한 MMDiT 및 VAE 가중치 세트가 장착된 SD3 Medium 모델의 세 가지 패키징 변형을 준비했습니다.

  • sd3_medium.safetensors에는 MMDiT 및 VAE 가중치가 포함되지만 텍스트 인코더는 포함되지 않습니다.
  • sd3_medium_incl_clips_t5xxlfp16.safetensors에는 T5XXL 텍스트 인코더의 fp16 버전을 포함하여 필요한 모든 가중치가 포함되어 있습니다.
  • sd3_medium_incl_clips_t5xxlfp8.safetensors에는 T5XXL 텍스트 인코더의 fp8 버전을 포함하여 필요한 모든 가중치가 포함되어 있어 품질과 리소스 요구 사항 간의 균형을 제공합니다.
  • sd3_medium_incl_clips.safetensors에는 T5XXL 텍스트 인코더를 제외하고 필요한 모든 가중치가 포함되어 있습니다. 최소한의 리소스가 필요하지만 T5XXL 텍스트 인코더가 없으면 모델 성능이 달라집니다.
  • text_encoders 폴더에는 사용자 편의를 위해 세 개의 텍스트 인코더와 원본 모델 카드 링크가 포함되어 있습니다. text_encoders 폴더 내의 모든 구성 요소 (및 다른 패키지에 포함된 해당 구성 요소)에는 해당 원본 라이센스가 적용됩니다.
  • example_workfows 폴더에는 보기 쉬운 워크플로 예시가 포함되어 있습니다.

 

Using with Diffusers

최신 버전의 Diffusers로 업그레이드하십시오: pip install -U diffusers. 그런 다음 아래와 같이 실행할 수 있습니다.

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
    "A cat holding a sign that says hello world",
    negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

 

최적화 및 이미지 간 지원에 대한 자세한 내용은 설명서를 참조하세요.

 

Uses

Intended Uses

사용 목적은 다음과 같습니다:

  • 예술 작품을 제작하고 디자인 및 기타 예술적 과정에 사용합니다.
  • 교육적이거나 창의적인 도구에 적용됩니다.
  • 생성 모델의 한계 이해를 포함한 생성 모델에 대한 연구에 사용합니다.

모델의 모든 사용은 당사의 허용 가능한 사용 정책을 준수해야 합니다.

 

Out-of-Scope Uses

모델은 사람이나 사건을 사실적으로 또는 실제로 표현하도록 훈련되지 않았습니다. 따라서 모델을 사용하여 그러한 콘텐츠를 생성하는 것은 이 모델의 기능 범위를 벗어납니다.

 

Safety

설계에 따른 안전 및 책임 있는 AI 배포 접근 방식의 일환으로 우리는 모델 사전 교육을 시작할 때부터 각 모델의 지속적인 개발, 미세 조정 및 배포에 이르기까지 모델 개발 전반에 걸쳐 안전 조치를 구현합니다. 우리는 심각한 피해의 위험을 줄이기 위해 여러 가지 안전 완화 조치를 구현했습니다. 그러나 개발자가 자체 테스트를 수행하고 특정 사용 사례에 따라 추가 완화 조치를 적용하는 것이 좋습니다.
안전에 대한 당사의 접근 방식에 대해 자세히 알아보려면 안전 페이지를 방문하세요.

 

Evaluation Approach

우리의 평가 방법에는 아동 성적 학대 및 착취, 극심한 폭력, 유혈, 성적으로 노골적인 콘텐츠, 합의되지 않은 과도한 노출 등 구체적이고 심각한 피해에 대한 구조화된 평가와 내부 및 외부 레드팀 테스트가 포함됩니다. 테스트는 주로 영어로 수행 되었으며 가능한 모든 피해를 다루지는 않을 수 있습니다. 모든 모델과 마찬가지로 모델은 때때로 사용자 프롬프트에 대해 부정확하거나 편향되거나 불쾌한 응답을 생성할 수 있습니다.

 

Risks identified and mitigations

  • 유해한 콘텐츠: 우리는 모델을 훈련할 때 필터링된 데이터 세트를 사용했으며 유용성과 피해 방지 사이의 적절한 균형을 맞추려는 보호 장치를 구현했습니다. 그러나 이것이 가능한 모든 유해 콘텐츠가 제거되었음을 보장하지는 않습니다. 모델은 때때로 유해하거나 편향된 콘텐츠를 생성할 수 있습니다. 모든 개발자와 배포자는 특정 제품 정책 및 애플리케이션 사용 사례에 따라 주의를 기울이고 콘텐츠 안전 가드레일을 구현해야 합니다.
  • 오용: 기술적 제한과 개발자 및 최종 사용자 교육은 모델의 악의적인 적용을 완화하는데 도움이 될 수 있습니다. 모든 사용자는 미세 조정 및 신속한 엔지니어링 메커니즘을 적용하는 경우를 포함하여 당사의 허용 가능한 사용 정책을 준수해야 합니다. 당사 제품의 위반적인 사용에 대한 정보는 Stability AI 허용 가능한 사용 정책을 참조하십시오.
  • 개인 정보 보호 위반: 개발자와 배포자는 데이터 개인 정보 보호를 존중하는 기술을 통해 개인 정보 보호 규정을 준수하는 것이 좋습니다.
반응형