1. Введение
С непрерывным проникновением технологий искусственного интеллекта (ИИ) в жизнь человека, множество различных носителей информации претерпело большие изменения, все чаще стали появляться сгенерированные изображения для привлечения внимания, что может использоваться как отдельный прием в рекламе.
В современных исследованиях в области искусственного интеллекта для обработки изображений были выявлены основные сложности в использовании таких изображений в веб-пространстве. Первая сложность связана с низким разрешением создаваемых изображений, вследствие чего возникают трудности в использовании их в качестве фона веб-страницы. Согласно исследованию "Deep Image Prior" (Dimitry Ulyanov, et al., 2020), были предложены методы для улучшения разрешения изображений, однако, проблема все еще требует дальнейших исследований [1].
Кроме того, существует проблема с достижением фотореализма при создании изображения с помощью технологий ИИ. Хотя одной из целей является достижение фотореалистичности, многие исследования показывают, что создаваемые искусственным интеллектом изображения могут быть недостаточно реалистичными или содержать визуальные артефакты. Однако, в статье "A Style-Based Generator Architecture for Generative Adversarial Networks" (Tero Karras, et al., 2019) авторы предлагают архитектуру генеративно-состязательных сетей (GAN) (https://kobiso.github.io/research/research-GAN/), которая существенно улучшает качество создаваемых изображений [2].
Не менее важной является проблема оценки и валидации: определение качества генерируемых искусственным интеллектом изображений является сложной задачей, так как требуется достаточно объективная и надежная метрика качества. В некоторых случаях, имеющиеся метрики могут быть неподходящими для оценки реалистичности, сохранения деталей и других ключевых характеристик изображений [3].
У указанных выше проблем может существовать несколько причин, зависящих от используемой человеком ИИ. Например, недостаточность исходных данных: создание высококачественных изображений требует большого объема разнообразных и качественных данных. В некоторых случаях, объем доступных данных недостаточен или их качество недостаточно высокое, что приводит к генерации изображений с ограниченными деталями и неестественным видом.
Результаты исследований показывают, что при генерации изображений с помощью искусственного интеллекта пользователь может столкнуться с рядом проблем, связанных с некачественной итоговой визуализацией. Причинами этого могут послужить недостаточность исходных данных, ограничения моделей генерации изображений, а также проблема оценки визуализации.
При исследовании данной темы также оказалось важно найти информацию о том, насколько в целом пользователя интересует качество изображений при просмотре в условиях веб-баннера, как часто пользователь замечает изображение, сгенерированное нейросетью, а также, видит ли он ошибки генерации.
Согласно исследованию «"There Is something Rotten in Denmark": Investigating the Deepfake persona perceptions and their Implications for human-centered AI», показывающему, как искусственный интеллект влияет на восприятие изображений, было обнаружено, что пользователи склонны больше доверять изображениям, созданным искусственным интеллектом. Это может повлиять на их решения, основанные на визуальном восприятии, и привести к недостаточной критической оценке информации [4].
При изучении существующих исследований на эту тему, обнаружилось, что большинство из них устарело, либо касаются данной темы в узкоспециализированных направлениях, как, например, в медицине. Принимая во внимание исследования, описанные выше, в пилотном эксперименте важно исследовать, оказывает ли сгенерированное искусственным интеллектом изображение влияние на пользователя, есть ли разница между изображением с доработкой и без неё.
2. Обзор существующих решений
2.1. Графические редакторы
На данный момент существует огромное количество различных графических ресурсов и программ, которые позволяют быстро и удобно обрабатывать изображения. Большинство из них предоставляют простой и интуитивно понятный интерфейс, который не требует глубоких знаний в области цветокоррекции и обработки изображений.
Adobe Photoshop является одним из наиболее популярных и распространенных программных средств для обработки изображений. Он предоставляет широкий спектр инструментов и функций, позволяющих редактировать цвета, устранять дефекты, применять фильтры и эффекты, а также многое другое. Несмотря на то, что Photoshop является мощным инструментом, его использование не требует глубоких знаний в области цветокоррекции и обработки изображений, так как программная среда предоставляет простые и понятные инструменты для выполнения большинства задач [8].
Кроме Adobe Photoshop, существуют и другие программы, которые предлагают схожие функции и удобный интерфейс, такие как Adobe Lightroom, GIMP, Canva, Pixlr и многие другие. Они предоставляют схожий функционал, но имеют ряд ограничений.
2.1.1. Deep Image Prior
Также, на данный момент существуют варианты автоматизации данного процесса, с помощью специального метода генерации.
Deep Image Prior (DIP) (https://dmitryulyanov.github.io/deep_image_prior) — это метод генерации и восстановления изображений с использованием нейронных сетей и обучения без учителя. Он был предложен в 2017 году и получил широкое признание в области компьютерного зрения.
Основная идея DIP состоит в том, чтобы использовать саму структуру нейронной сети без дополнительного обучения на множестве размеченных данных. Вместо этого DIP использует случайную инициализацию параметров нейронной сети и выполняет оптимизацию этих параметров непосредственно на изображениях.
Процесс работы DIP состоит из нескольких шагов:
- Инициализация случайных параметров нейронной сети.
- Изображение пропускается через нейронную сеть, чтобы получить реконструкцию.
- Рассчитывается ошибка между полученной реконструкцией и исходным изображением.
- Происходит обратное распространение ошибки, чтобы обновить параметры нейронной сети.
- Повторяются шаги 2–4 до достижения желаемого качества реконструкции.
Одно из преимуществ DIP заключается в его способности генерировать реалистичные изображения без использования больших наборов данных для обучения. Он также позволяет восстанавливать поврежденные изображения и удаленно обрабатывать шумы.
Основная идея DIP основывается на предположении о «приоре» внутри параметров нейронной сети, которая позволяет моделировать структуру изображения. Например, сверхточные слои нейронной сети могут извлекать различные свойства, такие как границы, текстуры и формы, что полезно для реконструкции изображений.
Deep Image Prior — это инновационный метод, который показывает потенциал в областях восстановления изображений, компьютерного зрения и генерации контента без необходимости обучения на размеченных данных.
2.2. Внедрение мер контроля для генерируемых изображений
Внедрение мер контроля для использования генерируемых искусственным интеллектом изображений — это важный аспект регулирования технологии, чтобы минимизировать потенциальные риски и злоупотребления. В разных странах существуют различные подходы и политики в отношении контроля использования таких изображений.
В некоторых странах правительства разрабатывают и реализуют нормативные акты, связанные с использованием генерируемых ИИ изображений. Эти меры контроля включают разработку законодательства, регулирующего использование и распространение синтезированных ИИ изображений. Они также могут включать в себя создание органов и комиссий для контроля и оценки их использования.
Другие страны могут придерживаться подхода саморегулирования, где законодательное вмешательство минимально, и индустрия сама разрабатывает и внедряет стандарты и практики для использования генерируемых ИИ изображений. В таких случаях организации и компании могут разрабатывать собственные политики и принципы, чтобы управлять своим использованием этих изображений.
Некоторые меры контроля могут быть связаны с обязательной маркировкой генерируемых ИИ изображений, чтобы пользователи могли отличить их от реальных фотографий или видео. Это может помочь предотвратить случаи манипуляции или дезинформации, связанные с использованием синтезированных изображений.
Также возможны меры контроля, связанные с подачей заявок на использование, генерируемых ИИ изображений. Например, разрешения или лицензии могут быть необходимы для использования таких изображений в коммерческих целях или важных отраслях, таких как медицина или правоохранительные органы.
В некоторых странах формируются комиссии или органы, ответственные за разработку и внедрение политик в отношении контроля использования генерируемых ИИ изображений. Эти организации могут проводить исследования, общественное обсуждение и работы по установлению стандартов использования и оценке рисков.
Однако стоит отметить, что меры контроля для использования генерируемых ИИ изображений все еще являются новыми и сложными с точки зрения технологических и этических аспектов. Прогрессивные страны часто работают вместе с учеными, индустрией и общественностью для разработки эффективных и сбалансированных подходов к регулированию таких изображений, чтобы с одной стороны обеспечить их инновационное использование и развитие, а с другой — уменьшить потенциальные риски и злоупотребления.
2.3. Рекомендации по использованию ИИ для генерации изображений
Один из возможных подходов для улучшения качества сгенерированного ИИ изображения заключается в создании списка рекомендаций по оптимальному использованию определенных нейросетей. Это может быть особенно полезно для пользователей, не имеющих специфических знаний в области машинного обучения или компьютерного зрения.
В такой список рекомендаций можно включить несколько важных пунктов. Во-первых, стоит обратить внимание на выбор оптимальной нейросети для конкретной задачи генерации изображения. В настоящее время существует множество различных архитектур нейросетей, каждая из которых может быть эффективна для определенного вида изображений. Путем анализа требований и характеристик задачи, пользователь может выбрать наиболее подходящую нейросеть для своих потребностей.
Во-вторых, рекомендуется обратить внимание на размер и качество тренировочных данных. Нейросети в области генерации изображений требуют большого объема высококачественных данных для достижения наилучших результатов. Пользователям следует стремиться использовать больше разнообразных изображений в обучающей выборке, чтобы обеспечить нейросети доступ к широкому спектру контента.
Третьим важным аспектом является выбор оптимальных гиперпараметров нейросети. Гиперпараметры отвечают за то, как нейросеть обучается и какие решения принимает на каждом шаге. Их подбор может оказать существенное влияние на качество искомых изображений. Рекомендуется проводить эксперименты с различными значениями гиперпараметров и тщательно анализировать результаты, чтобы определить оптимальные настройки.
Наконец, важно проводить регулярное обновление программного обеспечения, связанного с использованием нейросетей. Фиксация ошибок, внесение улучшений и обновление алгоритмов может существенно улучшить результаты работы нейросети. Компании и исследователи продолжают активно работать над совершенствованием технологий генерации изображений на основе ИИ, и обновления играют важную роль в этом процессе.
В итоге, создание списка рекомендаций по оптимальному использованию нейросетей для улучшения качества сгенерированных изображений может существенно помочь пользователям в достижении лучших результатов. Дальнейшие исследования в этой области представляются перспективными.
3. Эксперимент
По результатам исследования была сформулирована гипотеза о том, что изображения, сгенерированные в стиле «минимализм» с помощью ИИ, оказывают большее влияние на уровень интереса к продукту, чем изображения в стиле «реализм». По результатам пилотного эксперимента было выявлено, что для проверки данной гипотезы необходима выборка из 40 человек, методом проверки стал Z-тест.
Для проведения эксперимента были спроектированы 4 баннера, включающие в себя различные изображения: пара изображений, отрисованных людьми, вторая пара — копии тех же изображений, сгенерированных искусственным интеллектом (рис. 1). Далее был создан опрос, включающий в себя 10 вопросов.
Эксперимент проводится в немодерируемом режиме и для каждого респондента проходит следующим образом:
- Респондент получает доступ к опросу, где ему необходимо ответить на простые вопросы о поле, времени суток, наличии/отсутствии опыта в генерации изображений с помощью нейросети.
- Респондент отвечает на вопросы, связанные с оцениванием изображения. С 5 по 10-й вопросы респонденты сравнивают изображения попарно (рис. 2).
- В последних двух вопросах респондент сравнивает 2 баннера и оценивает, какой из них наиболее привлекательный и соответствует контексту рекламы (рис. 3).
В эксперименте измеряются 2 целевых показателя и 1 внешний фактор.
К внешним факторам относятся: возраст, пол, время суток, наличие / отсутствие опыта в генерации изображений с помощью нейросети
Для всех внешних факторов измерение значений происходит с использованием единого опроса, содержащего соответствующие вопросы. Для фиксирования возраста используются интервалы (менее 18 лет, 18–24 лет, 25–34 лет, 35–44 лет, 45–54 лет, более 55 лет) — измерение по порядковой шкале. Для фиксирования времени суток респондент вводит время, которое у него / нее на часах на момент заполнения — также измерение по порядковой шкале. Пол измеряется по номинативной дихотомической шкале. Наличие / отсутствие опыта также измеряется по дихотомической шкале.
К целевым показателям относятся: интерес к продукту, представление о профессиональной рекламе у пользователя (субъективное).
Измерение интереса к продукту производится по номинативной дихотомической шкале.
Измерение представления о профессиональной рекламе у пользователя производится по порядковой шкале (так как это субъективная оценка) с использованием шкалы от 1 (абсолютно не соответствует) до 5 (абсолютно соответствует).
Z-тест на 80 респондентах показал, что стиль изображения (минимализм и реализм), оказывает влияние на респондентов. Уровень значимости p-value =0,000001%, α = 1%, Z=-5,82, поэтому результат статистически значим, и нулевая гипотеза опровергается при двухсторонней проверке, количество респондентов N = 80.
Были рассчитаны границы и доля для построения доверительных интервалов для независимых выборок по методу Уилсона (рис. 4).
4. Заключение
В рамках данной работы был проведен согласно плану по результатам пилотного эксперимента основной эксперимент. Были собраны данные для двух независимых выборок: 40 человек для сравнения веб-баннеров со сгенерированным и созданным человеком изображениями в стиле реализм, 40 человек для сравнения веб-баннеров со сгенерированным и созданным человеком изображениями в стиле минимализм.
В рамках основного эксперимента была проверена гипотеза о влиянии управляемой переменной на целевой показатель (интерес к продукту). Для проверки гипотезы выбран z-тест: z-оценка = -5,82, p-value = 0,000001% при двухсторонней проверке с поправками на непрерывность.
Фактическая мощность, оцененная методом бутстрап, при N = 70 для конкурирующей гипотезы, оцененной по пилотным данным (Приложение Б) при α=1% составляет 99,85% при двухсторонней проверке.
В рамках дальнейшего развития исследования можно продолжить сбор данных до момента выравнивания обеих выборок по половому составу. Также можно протестировать пары других (не использованных в рамках исследования ранее) сгенерированных и отрисованных вручную изображений иной степени реалистичности.
Балканский, А.А., Федоричев, С. М. Исследование влияния сгенерированных искусственным интеллектом изображений на эффективность веб-баннеров на сайте // Культура и технологии. 2025. Том 10. Вып. 2. С. 68-76. DOI: 10.17586/2587-800X-2025-10-2-68-76
- Ulyanov D., Vedaldi A., Lempitsky V. Deep Image Prior // International Journal of Computer Vision. 2020. Vol. 128. P. 1867–1888. DOI: 10.1007/s11263-020-01303-4.
- Karras T., Laine S., Aila T. A Style-Based Generator Architecture for Generative Adversarial Networks // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA, 2019. P. 4396-4405. DOI: 10.1109/CVPR.2019.00453.
- Heaton J., Goodfellow I., Bengio Y., Courville A. Deep learning // Genetic Programming and Evolvable Machines. 2018. Vol. 19. P. 305-307. DOI: 10.1007/s10710-017-9314-z
- Kaate I,, Salminen J., Santos J.M., Jung S.-G., Almerekhi H., Jansen B.J. "There Is something Rotten in Denmark": Investigating the Deepfake persona perceptions and their Implications for human-centered AI // Computers in Human Behavior: Artificial Humans. 2024. Vol. 2. Iss. 1. 10031. DOI: 10.1016/j.chbah.2023.100031.