Как я перестал бояться и полюбил нейронки

В общем, я сумел завести ComfyUI под Windows 7. Это было не настолько сложно, как с llama.cpp. Тут, фактически, пришлось только подобрать комбинацию версий различных пакетов питона. И скачать один длл-фикс. Подробную инструкцию я запишу отдельным постом, сейчас не об этом.

ComfyUI это веб-морда для PyTorch+Stable Diffusion. Рисует картинки по описанию. Ну и я немного... порисовал. Это оказалось гораздо интереснее, чем смотреть на чужие нейрокартинки.

Год-два назад был "хайп", когда все бросились раздавать нейронкам ценные указания, а потом везде это публиковать. Сейчас хайп поутих. А может быть, просто нейрокартинки настолько смешались с ручными, что это перестали замечать?

Ну и вот, в постах с нейрокартинками часто были такие заголовки: "нейросеть попросили нарисовать X из Y в стиле Z".

Попробовав получить то, что я хочу, я понял, что эти заголовки ошибочны. Правильнее было бы писать "нейронку заставили нарисовать" или даже "нейронку уговорили нарисовать".

Поясню, как это выглядит.

Я: Нейронка, пусть все кавайные девочки в батче поднимут руки вверх!
Девочки: Первая: подняла правую, вторая: подняла левую, третья: подняла все три руки.
Я: Лааадно. А теперь пусть они будут в галстуках.
Девочки: (ноль внимания)
Я: Галстук, галстук, галстук.
Девочки: (jiiiii)
Я: (Галстук: 2.0), т.е. увеличение веса ключевого слова.
Девочки: Хорошо. Вот тебе на шее галстук, а заодно на поясе два галстука, и в каждой руке по четыре галстука.

Я: Мне нужен человек с головой кота.
Нейронка: Держи. А вот ещё три обычных кота пусть полетают рядом. И их головы тоже.
(отгадка: надо было вместо man with cat head писать humanoid cat)

Я: Нужен рабочий в белой каске с фонарём во лбу.
Нейронка: Держи!
Я: А теперь оранжевая каска с фонарём во лбу.
Нейронка: Держи. Только фонарей теперь не будет. Зато будут оранжевые полоски на спецодежде. И оранжевые сапоги.

Нарисовать настоящую нейромазню можно за пару минут. А вот получить красивое изображение без (серьёзных) артефактов, на котором было бы изображено в точности то, что хочешь -- непросто. При этом ты не выполняешь работу поэтапно, не идёшь от начала к цели. Ты ищешь иголку в стоге сена. Блуждаешь в сумерках. Да, есть специальные инструменты, облегчающие поиск, но у них свои проблемы. В общем, это какой-то мазохизм. Стоит ли оно того? Для тех, кто не умеет рисовать -- конечно.

Я гоняю SDXL на 1070 8 ГБ. Работает... медленновато. Картинка ~700*1400 получается за 1 минуту при 20 итерациях сэмплера (эйлер), при этом видяха жрёт все свои 130 ватт. В качестве превьюшки можно сократить до 10 итераций, а потом для нужных картинок уже запускать длинный рендер. Но с каждой итерацией картинка немного меняется, и не всегда в лучшую сторону.

Для ускорения пробовал SD 1.5, но его качество без доработок... очень удручает. Люди получаются случайных пропорций. Очень много артефактов. Читал, что ему, в отличие от SDXL, нужен очень большое негативное указание. Может быть, поиграю с этим потом.

SDXL выдаёт симпатичные картинки, но не слишком хорошо слушается указаний. Поэтому я скачал его модификацию под названием Juggernaut. Хотя в нём тоже бывают проблемы, но хотя бы девочки поднимают и опускают руки по команде.

Как я перестал бояться и полюбил нейронки

Смотрите также