Список нейросетей, помимо midjourney, для работы с графикой, видео и звуком.

Графика

  • Automatic1111 — интерфейс к Stable Diffusion
  • версия в колабе
  • ComfyUI — интерфейс к Stable Diffusion для составных генераций
  • ControlNet — дополнительный контроль над генерациями
  • SAM — дополнительный контроль сегментацией
  • StableSR — апскейл картинок с помощью Stable Diffusion
  • multidiffusion — Tiled VAE для больших апскейлов
  • adetailer — автоматический детализатор
    v class=”story-block story-block_type_text”>
  • OpenOutpaint — интерфейс для outpaint
  • kohya_ss — скрипты для дообучения Stable Diffusion
  • версия в колабе
  • гуи версия для компа
  • recognize-anything — разметка картинок
  • DeepDanbooru — разметка аниме-картинок
  • photobear* — удаление фона. не опенсорс, но легко слямзить картинку через код страницы

Видео

ЗвукНей

  • RVC — копирует тембр голоса
  • Ultimate Vocal Remover — отделяет голос от инструментала в песнях
  • MusicGen — text2music
  • whisperX — расшифровка речи
  • tortoise — text2speech
  • bark — text2speech