Промпты для фото в ChatGPT: что реально работает в 2026 году
Практический гайд по промптам для фотореалистичных изображений в ChatGPT. 5 ключевых техник, 8 готовых промптов, антипаттерны и сравнение с Midjourney и Google Flow.

Промпты для фото в ChatGPT: что реально работает в 2026 году
Я потратил несколько месяцев на тестирование генерации изображений в ChatGPT — сотни промптов, десятки итераций, много разочарований и несколько настоящих открытий. Этот гайд не про теорию. Здесь только то, что работает прямо сейчас, в марте 2026-го, с GPT-5.4.
Если ты хочешь фотографии, которые люди принимают за настоящие снимки — не иллюстрации, не рендеры, не «AI-арт» — читай дальше. Если ищешь список магических слов типа «ultra-detailed masterpiece cinematic» — закрывай вкладку, это не поможет.
Важно для читателей из России: ChatGPT с генерацией изображений доступен через VPN. Я использую dropweb.org — стабильный доступ без лагов, что критично когда итерируешь промпты.
Почему ChatGPT — это не Midjourney и не DALL-E
Большинство гайдов по промптам написаны для Midjourney. Там логика простая: один промпт — один результат, нравится/не нравится, пробуй снова. ChatGPT работает принципиально иначе.
ChatGPT — это диалог. Ты не пишешь идеальный промпт с первого раза. Ты начинаешь с базы, смотришь результат, говоришь «сделай свет более жёстким» или «убери размытость на лице» — и модель понимает контекст предыдущего запроса. Это меняет всю стратегию.
- Midjourney — мощный, но слепой. Каждый промпт с нуля. Итерация через параметры (
--v6,--ar,--style). Лучший для художественных стилей. - Отдельный DALL-E — устаревший интерфейс, меньше контроля над деталями.
- ChatGPT (GPT-5.4) — ты можешь сказать «а теперь та же сцена, но снято на iPhone в 6 утра» и модель сохранит всё остальное. Это золото для фотореализма.
- Google Flow / Imagen 3 — сильный конкурент для портретов, но хуже с текстурами материалов и хуже понимает контекстные уточнения.
Практический вывод: в ChatGPT не нужно писать идеальный промпт. Нужно написать достаточно хороший промпт и итерировать разговором. Это быстрее и точнее.
Главная философия: фотореализм — это несовершенства, а не полировка
Вот где большинство людей ошибаются. Они пишут «perfect skin», «flawless lighting», «ultra sharp» — и получают именно то, что просили: идеальную, мёртвую картинку, которую мозг мгновенно распознаёт как ненастоящую.
Настоящие фотографии несовершенны. У них есть:
- Зернистость — особенно в тенях
- Хроматическая аберрация по краям
- Лёгкое движение, смазанность
- Поры кожи, неровности, асимметрия лица
- Случайные детали фона, которые никто не убирал
- Несовершенная экспозиция — пересвет или недосвет в углах
Когда ты добавляешь эти «дефекты» в промпт — мозг зрителя перестаёт искать подвох. Фото начинает выглядеть как фото.
Правило номер один: никогда не проси «perfect» или «flawless». Проси «natural», «candid», «raw».
5 техник, которые реально работают
Техника 1: Embrace Imperfections — добавляй несовершенства намеренно
Это самая важная техника. Вместо того чтобы описывать идеальный результат, описывай реальные условия съёмки — и несовершенства появятся сами.
Работает: «captured on iPhone 14, slight motion blur, natural skin texture with pores, minor chromatic aberration»
Не работает: «ultra-detailed realistic photo, perfect skin, sharp focus»
Почему? Потому что модель обучена на реальных фотографиях. Когда ты называешь конкретное устройство — iPhone 14, Canon 5D Mark IV, Fujifilm X100V — модель активирует паттерны, связанные с реальными снимками с этих камер. Она «знает», как выглядит iPhone-фото: немного шумно, автофокус иногда промахивается, цвета чуть теплее.
Вспышка решает. Это открытие, которое я сделал случайно: добавление «shot with flash» или «iPhone flash photography» делает фото драматически реалистичнее. Вспышка создаёт характерные тени, немного пересвечивает лицо, даёт красные глаза — всё это маркеры настоящей фотографии.
Техника 2: Anchor to Real Capture Contexts — привязывай к реальному контексту съёмки
Не описывай картинку. Описывай ситуацию, в которой эта фотография была сделана.
Плохо: «woman sitting in coffee shop»
Хорошо: «candid photo taken at a coffee shop, smartphone quality, slightly off-center framing, subject doesn't know she's being photographed, natural posture»
Разница огромная. Во втором случае ты описываешь не изображение, а момент. Модель генерирует не «красивую женщину в кафе», а «фото, которое кто-то сделал в кафе». Это разные вещи.
Контекстная последовательность критична. Если на фото мокрая трава — машина на заднем плане тоже должна быть мокрой. Если это дорогая квартира — диван не стоит у стены (в дорогих интерьерах мебель всегда на расстоянии от стен, это маркер класса). Если на человеке Prada — фон должен соответствовать: дешёвая хата с Prada выглядит неправдоподобно даже на AI-фото.
Техника 3: Specify Lighting by Real Conditions — описывай свет через реальные условия
Это убивает большинство промптов. Люди пишут «cinematic lighting» — и получают что-то невнятное. Почему? Потому что «cinematic lighting» — это абстракция. Модель не знает, что именно ты имеешь в виду.
Вместо этого описывай физические условия:
- Не «cinematic lighting» → «golden hour sunlight through window, harsh shadows on left side, warm orange tones»
- Не «studio lighting» → «single softbox from upper right, slight shadow under chin, white background with subtle gradient»
- Не «dramatic lighting» → «overhead fluorescent office lighting, slightly green tint, harsh downward shadows»
- Не «natural light» → «overcast day, diffused light, no hard shadows, slightly desaturated colors»
Физические условия модель понимает буквально. Абстрактные термины — интерпретирует произвольно.
Техника 4: Camera Angle Precision — точность угла и оптики
Угол съёмки и параметры объектива — это не украшение промпта. Это инструкция по перспективе, которую модель выполняет точно.
Примеры, которые работают:
- «shot from below at 15-degree angle, 85mm lens, f/1.8 shallow depth of field, background slightly out of focus» — классический портретный кадр снизу, боке на фоне
- «bird's eye view, 24mm wide angle, slight distortion at edges» — вид сверху с характерным искажением широкоугольника
- «eye level, 50mm, f/8, everything in focus, street photography style» — репортажный стиль
Фокусное расстояние особенно важно. 35mm даёт лёгкое искажение и ощущение присутствия. 85mm сжимает перспективу, делает портрет «красивым». 24mm — широкий угол, архитектура и интерьеры. Модель знает эти различия и применяет их.
Техника 5: Brand/Style References — ссылки на бренды и стили
ChatGPT понимает эстетику брендов, но не может генерировать логотипы и прямые упоминания торговых марок. Рабочий подход — описывать эстетику, а не бренд.
Не работает: «Chrome Hearts bracelet» — модель откажет или сгенерирует что-то невнятное.
Работает: «heavy silver jewelry with gothic crosses and fleur-de-lis motifs, Chrome Hearts aesthetic, oxidized silver finish»
То же самое с одеждой:
- Вместо «Supreme hoodie» → «red box logo hoodie, streetwear aesthetic, slightly oversized fit»
- Вместо «Balenciaga Triple S» → «chunky dad sneakers, triple-layered sole, beige and grey colorway, luxury streetwear»
- Вместо «Rolex Submariner» → «luxury diver's watch, black dial, rotating bezel, jubilee bracelet, Swiss watchmaking aesthetic»
С персонажами работает похожая логика. Нельзя просить конкретного актёра — но можно ссылаться на персонажа. «мужчина, очень похожий на Тайлера Дёрдена из Бойцовского клуба» — это описание типажа, не реального человека. Модель понимает: кожаная куртка, мускулистый, взгляд с вызовом, 90-е эстетика.
8 промптов для копирования — с объяснением каждого элемента
Все промпты на английском — ChatGPT генерирует значительно лучше с английскими промптами для изображений. Русский используй только для уточнений в диалоге.
1. Профессиональный хедшот
Промпт:
Professional headshot of a 35-year-old man, slight stubble, natural skin texture with visible pores, single softbox light from upper left, white background with subtle shadow, Canon 5D Mark IV, 85mm f/2.8, slight catchlight in eyes, not smiling but approachable expression, business casual collar visible
Почему это работает: Конкретный возраст убирает «AI-лицо» (модели склонны генерировать идеализированные лица без возраста). «Visible pores» и «slight stubble» добавляют текстуру. Catchlight в глазах — маленькая деталь, которая делает взгляд живым. Без неё глаза выглядят мёртвыми.
2. Кэндид-фото на улице с брендовой одеждой
Промпт:
Candid street photo, young woman walking, not aware of camera, wearing oversized beige trench coat with luxury aesthetic, dark sunglasses, holding coffee cup, Tokyo street background slightly blurred, overcast daylight, shot on iPhone 15 Pro, slightly off-center composition, natural motion blur on coat hem
Почему это работает: «Not aware of camera» — ключевая фраза. Она переключает позу с постановочной на естественную. Motion blur на подоле пальто добавляет движение. iPhone 15 Pro даёт характерную мобильную эстетику.
3. Продуктовый шот кроссовок
Промпт:
Product photography, white chunky sneakers on rough concrete surface, slight dust on sole, natural daylight from left, harsh shadow on right, slight texture of concrete visible, 50mm macro lens, f/5.6, slight vignette at corners, no background removal, raw concrete environment
Почему это работает: «Slight dust on sole» — это несовершенство, которое делает кроссовки настоящими, а не рендером. «No background removal» говорит модели не делать белый фон — это сразу убирает студийный вид. Виньетка по углам — маркер реальной оптики.
4. Автомобиль в дождливом городе
Промпт:
Black luxury sedan parked on wet city street at night, rain reflections on hood and roof, neon signs reflected in puddles, slight steam from exhaust, streetlight creating harsh top-down illumination, shot from low angle at 24mm, f/4, bokeh on background lights, water droplets on windows, wet asphalt texture
Почему это работает: Контекстная последовательность: дождь везде — на капоте, в лужах, на окнах, на асфальте. Пар из выхлопной трубы — деталь, которую никто не добавляет, но которая делает сцену живой. Отражения неона в лужах — классика ночной городской фотографии.
5. Интерьер люксовой квартиры
Промпт:
Interior photography, luxury apartment living room, sofa positioned away from walls in center of room, floor-to-ceiling windows with city view, afternoon light casting long shadows across herringbone parquet floor, architectural photography style, 24mm tilt-shift lens, slight perspective correction, fresh flowers on coffee table, no clutter, muted color palette
Почему это работает: «Sofa positioned away from walls» — это маркер дорогого интерьера. В дешёвых квартирах мебель стоит у стен. Tilt-shift линза даёт характерную перспективу архитектурной фотографии. Длинные тени от послеполуденного света добавляют глубину.
6. Фуд-фотография
Промпт:
Food photography, pasta carbonara in white ceramic bowl, steam rising from dish, slight sauce drip on bowl rim, rustic wooden table, single window light from left creating soft shadows, fresh parsley garnish slightly wilted, fork resting on edge, shot from 45-degree angle, 100mm macro, f/4, shallow depth of field on pasta texture
Почему это работает: «Slight sauce drip on bowl rim» и «parsley slightly wilted» — это несовершенства, которые делают еду настоящей. Идеально выложенная еда выглядит как реклама. Слегка завядшая петрушка выглядит как ресторан.
7. Портрет с драматическим светом
Промпт:
Portrait of a woman, 28 years old, Rembrandt lighting setup, single light source from upper right at 45 degrees, characteristic triangular shadow under left eye, deep shadows on left side of face, slight rim light on left shoulder, dark background, shot on medium format camera, 110mm, f/2.8, natural skin texture, no retouching, slight catchlight in right eye only
Почему это работает: Rembrandt lighting — конкретная техника с конкретным результатом (треугольная тень под глазом). Модель знает этот термин точно. «No retouching» и «natural skin texture» убирают AI-глянец. Catchlight только в одном глазу — реалистичная деталь для одного источника света.
8. Групповое фото на мероприятии
Промпт:
Candid group photo at a corporate event, 4 people in business attire, mid-conversation, not posing, indoor venue with warm ambient lighting and bokeh background lights, shot on full-frame camera with 35mm lens, f/2.8, slight motion blur on gesturing hands, natural expressions, one person slightly out of focus in foreground, event backdrop visible but blurred
Почему это работает: «Mid-conversation, not posing» — убирает деревянные позы. Motion blur на руках в жесте — маркер живого момента. Один человек не в фокусе на переднем плане — это то, как выглядят реальные групповые фото, когда фотограф не успел поймать всех.
Что НЕ писать: антипаттерны
Эти слова и фразы либо ничего не делают, либо активно ухудшают результат в ChatGPT.
Мёртвые слова из эпохи Stable Diffusion
- «masterpiece» — работало в SD 1.5, в GPT-5.4 не значит ничего
- «ultra-detailed» — современные модели и так детальные, это слово не добавляет деталей
- «8K resolution» — модель генерирует в фиксированном разрешении, это не меняет качество
- «best quality» — абстракция без смысла
- «highly detailed» — то же самое
Слова, которые дают плохой результат
- «cinematic lighting» — слишком размыто. Модель интерпретирует произвольно, обычно даёт тёмный контрастный результат с синим тоном
- «studio lighting» — почти всегда даёт плоский, явно искусственный свет. Если нужна студия — описывай конкретную схему
- «realistic» без контекста — бессмысленно. Всё «реалистично» по-своему. Нужны конкретные детали
- «photorealistic» — парадоксально, это слово часто ухудшает результат. Модель начинает «стараться» и перегибает с полировкой
- «perfect» в любом контексте — убивает естественность
Структурные ошибки
- Слишком длинный промпт без структуры — 200 слов в одну строку. Модель теряет приоритеты. Лучше 50 точных слов, чем 200 размытых.
- Противоречивые инструкции — «sharp focus» и «motion blur» одновременно. Модель выберет одно произвольно.
- Описание эмоции вместо физики — «sad atmosphere» вместо «overcast sky, desaturated colors, empty street»
- Игнорирование фона — если не описать фон, модель поставит что-то случайное, что часто разрушает реализм
ChatGPT vs Midjourney vs Google Flow: честное сравнение для фото
Я тестировал все три на одинаковых задачах. Вот реальная картина.
ChatGPT (GPT-5.4)
Сильные стороны: Диалоговая итерация — главное преимущество. Понимает контекст предыдущих запросов. Хорошо работает с текстурами материалов (кожа, металл, ткань). Лучший для интерьеров и продуктовых шотов.
Слабые стороны: Руки всё ещё иногда проблемные (хотя GPT-5.4 значительно лучше предыдущих версий). Текст на изображениях — лотерея. Иногда отказывает на запросы с брендами.
Для кого: Тем, кто итерирует и хочет контроль над процессом. Для доступа из России нужен VPN — dropweb.org даёт стабильное соединение без разрывов в середине генерации.
Midjourney v7
Сильные стороны: Лучший для художественных стилей и эстетики. Параметр --style raw даёт хорошие фотографические результаты. Быстрее ChatGPT на объёмных задачах.
Слабые стороны: Нет диалога — каждый промпт с нуля. Хуже с текстурами кожи. Сложнее контролировать конкретные детали.
Для кого: Дизайнеры, которым нужен поток вариантов. Художественные проекты, не фотореализм.
Google Flow / Imagen 3
Сильные стороны: Отличные портреты, особенно женские. Хорошо работает с разнообразием (разные этносы, возраста). Меньше ограничений на контент.
Слабые стороны: Хуже с материалами и текстурами. Слабее в интерьерах. Меньше контроля над освещением.
Для кого: Портреты и lifestyle-фото. Когда нужно разнообразие людей.
Вывод: Для фотореализма с итерацией — ChatGPT. Для художественного стиля — Midjourney. Для портретного разнообразия — Google Flow. Профессионалы используют все три под разные задачи.
Продвинутые приёмы: детали, которые меняют всё
Временные маркеры
Время суток и год съёмки радикально меняют результат. «Photo from 2003» даёт характерную плёночную эстетику нулевых — зернистость, насыщенные цвета, определённый тип кадрирования. «Photo from 1994» — другая эстетика. Модель обучена на датированных фотографиях и знает эти различия.
Географические маркеры
«Tokyo street» и «New York street» дают разные результаты не только по архитектуре, но и по свету, цветовой палитре, типу людей. Используй конкретные города и районы — «Shibuya crossing», «Brooklyn brownstone neighborhood», «Moscow Arbat street».
Социальный контекст
Описывай не только что на фото, но и кто снимал и зачем. «Photo taken by a tourist» даёт другой результат, чем «photo taken by a professional photographer for a magazine». Модель понимает разницу в намерении и технике.
Постобработка в промпте
Можно описывать стиль обработки: «slightly overexposed, faded blacks, film emulation» — это Vsco-эстетика. «High contrast, crushed blacks, slight blue in shadows» — кинематографический look. «Warm tones, lifted shadows, matte finish» — современный Instagram-стиль.
Итог: с чего начать прямо сейчас
Не пытайся применить всё сразу. Начни с одного изменения: добавь в следующий промпт конкретное устройство съёмки и одно несовершенство. «Shot on iPhone 14, slight grain» — и посмотри разницу.
Потом добавь конкретные условия освещения. Потом — контекст съёмки. Каждый элемент добавляет слой реализма. Через 10-15 промптов у тебя выработается интуиция — ты начнёшь чувствовать, какие детали работают для твоих задач.
Генерация изображений в ChatGPT — это навык, который нарабатывается практикой. Теория помогает, но только практика даёт результат. Открывай ChatGPT (если нужен доступ из России — dropweb.org для стабильного VPN-соединения) и начинай тестировать прямо сейчас.
