Нейросеть картинки с надписями: как использовать

Мы уже много рассказывали про нейросети, в том числе для генерации изображений. Одна из больших их проблем – невозможность генерировать нормальный текст на картинке: получается либо абракадабра, либо вообще нечитаемые символы. Но бывшие сотрудники Google смогли исправить этот недостаток — они запустили сервис Ideogram , в котором любые надписи по вашему желанию генерируются с невероятной точностью.
За последние полтора года (примерно тогда в свет вышла первая версия MidJourney) нейросети для генерации изображений прошли огромный путь улучшений и стали создавать качественные работы. Тем не менее, все еще встречаются «изъяны» — неправильное количество пальцев на руках (или ногах), косые лица, неразборчивые надписи.
Все эти дефекты работ нейросети, на самом деле, обусловлены одной и той же проблемой: процессом обучения модели. Дело в том, что, обучая нейросеть, специалисты дают ей определенные изображения и созданный человеком текст, который описывает то, что на этом изображении находится. Обучаясь, нейросеть обычно анализирует изображение в целом — очень редко специалисты описывают отдельные части картины, так как это очень трудозатратно и сложно.
В итоге, даже если в обучающей выборке есть достаточно изображений с правильным числом пальцев на руках или красивыми и понятными надписями, нейросеть просто не понимает, какая конкретная деталь на изображении — надпись, а какая — палец. Поэтому, когда в запросе алгоритм видит фразу, например, «табличка с текстом I love you», он может выдать что-то вроде «IIu lvooo Youuu».
В целом, правила формулирования промта (запроса) для Ideogram точно такие же, как и для Stable Diffusion и MidJourney — о них мы рассказывали в отдельной статье . Но так как тут мы имеем дело с надписями, стоит отметить еще одну важную вещь: при вводе запроса текст надписи, которую вы хотите увидеть на картинке, лучше всего вводить внутри кавычек — так нейросеть лучше поймет, какой текст должен быть на рисунке.