Publicado 2026-06-12

Cómo escribir prompts de IA que funcionan de verdad

Respuesta corta: los modelos de imagen y vídeo con IA de hoy (Midjourney V8.1, Veo 3.1, Kling 3.0, Nano Banana Pro, GPT Image 2) son modelos de lenguaje natural. Quieren una descripción clara de una escena, no un montón de palabras clave. Describe el sujeto, el medio, la luz, el ambiente y el encuadre con claridad, mantenlo coherente y evita contradicciones. Ese único cambio arregla la mayoría de los resultados del tipo «¿por qué se ve mal?».

Esta guía explica esa regla en detalle, desglosa la anatomía de un buen prompt y te da consejos por modelo. Si prefieres saltarte la teoría, GoldenPrompts construye un prompt de calidad de estudio con unos pocos clics, pero ayuda entender qué ocurre por debajo.

La regla única: describe una escena, no amontones palabras clave

Los flujos de trabajo antiguos solían usar «sopa de palabras clave»: listas largas como 8k, ultra detailed, masterpiece, trending, cinematic, bokeh, 85mm. Las guías actuales de los fabricantes de FLUX.2, GPT Image 2, Nano Banana Pro y Seedream 5.0 Lite priorizan instrucciones claras en lenguaje natural. Expresiones como «masterpiece» u «8K» son descripciones, no controles de calidad garantizados. Una escena coherente es más fácil de probar y ajustar que una lista separada por comas.

Sopa de palabras clave (débil):

mujer, vestido rojo, estudio, 85mm, f1.8, cinematic, 8k, masterpiece, dramatic lighting

Lenguaje natural (fuerte):

Una mujer segura de sí misma con un vestido de noche rojo y fluido, fotografiada en un estudio en penumbra con una sola luz principal suave desde la izquierda. Poca profundidad de campo, color cinematográfico cálido, ambiente tranquilo y elegante.

Los mismos ingredientes, pero la segunda versión cuenta una historia coherente que el modelo puede representar sin adivinar.

La anatomía de un gran prompt

Piensa en un prompt como responder unas preguntas sencillas en orden. No necesitas todas cada vez, pero cuantas más cubras con claridad, más control tendrás:

Sujeto — quién o qué aparece y qué hace. Sé específico («una barista de pelo plateado», no «una persona»).
Medio / estilo — ¿una foto, un fotograma de cine, un render 3D, anime, una viñeta de cómic?
Iluminación — luz suave de ventana, sol duro de mediodía, neón, hora dorada, un solo softbox.
Ambiente / color — cálido y nostálgico, frío y clínico, un teal-orange con carácter.
Composición / encuadre — cuerpo entero, primer plano, plano general, contrapicado.
Sensación de cámara — poca profundidad de campo, desenfoque de movimiento, un travelling lento (en vídeo).
Entorno — el lugar y el fondo que enmarcan la escena.

Buena regla: una elección por dimensión. No pidas «hora dorada» y «softbox de estudio» a la vez: es una contradicción y el modelo lo mezcla en una papilla.

Prompts de imagen vs. de vídeo

Para imágenes, céntrate en un único instante congelado: sujeto, luz, encuadre, ambiente.

Para vídeo, añade movimiento y mantenlo estable. Describe qué se mueve y cómo se mueve la cámara —«se gira lentamente hacia la ventana mientras la cámara se acerca»— y apóyate en pistas de coherencia para que el modelo no deforme caras ni derive entre fotogramas. Mantén una acción clara; cinco movimientos a la vez crean caos.

Consejos por modelo

Estos modelos cambian a menudo, así que tómalo como orientación más que como dogma:

Midjourney V8.1 — le encantan las descripciones evocadoras y bien compuestas y la dirección de arte. Usa sus parámetros (relación de aspecto, stylize, style raw, --no) para controlar, en vez de saturar el texto. Genial para estilos estilizados, pictóricos y editoriales.
Google Veo 3.1 y Nano Banana Pro — fuertes en fotorrealismo y vídeo coherente (Veo 3.1 incluso renderiza audio sincronizado). Sé concreto con la escena, la luz y el movimiento de cámara; describe el plano como un director de fotografía.
GPT Image 2 y FLUX.2 — usa descripciones claras y literales. Di qué debe aparecer y formula las exclusiones en la instrucción principal salvo que la interfaz que utilices documente un control negativo separado.
Kling 3.0, Runway Gen-4.5 y Seedance 2.0 — modelos de vídeo capaces; mantén una acción principal, define el movimiento de cámara y prioriza la estabilidad temporal (sin parpadeos, identidad consistente). (La app Sora de OpenAI se descontinuó en 2026; estas son las alternativas activas.)

En todos: no metas specs de cámara duras (85mm, f/1.8, ISO) en el prompt si no las quieres de verdad: suelen pelearse con tus otras elecciones y degradan detalles finos como ojos y manos.

Los errores más comunes

Contradicciones — dos esquemas de luz, dos lugares, dos ambientes a la vez.
Demasiados ingredientes — 15 modificadores diluyen el resultado. Cuatro a siete elecciones fuertes suelen ganar a una docena flojas.
Cara demasiado lejos / pequeña — si la cara ocupa pocos píxeles, ojos y dientes se degradan. Encuadra más cerca o haz upscale.
Usar negativos para salvar un prompt roto — los negativos quitan cosas; no crean coherencia. Arregla primero el prompt positivo.

Prompts negativos en breve

Un prompt negativo puede ser un campo negativo separado o una exclusión escrita de forma natural en la instrucción principal. Usa un campo independiente solo cuando la interfaz o la API actual lo documente; el parámetro --no de Midjourney es un ejemplo verificado. Si no existe, describe el resultado limpio y añade las exclusiones importantes directamente, por ejemplo «fondo limpio, sin texto». Los controles varían entre proveedores e interfaces, así que pruébalos en la superficie exacta que utilizas.

De la idea vaga al prompt terminado (ejemplo)

Idea: «una foto inmobiliaria acogedora de un salón.»

Prompt terminado:

Un salón luminoso y moderno fotografiado con la cálida luz de la tarde entrando por grandes ventanales. Materiales naturales: suelo de roble, un sofá de lino, un ficus lira en la esquina. Verticales rectas y limpias, materiales y reflejos fieles a la realidad, escala realista. Ambiente editorial tranquilo y acogedor. Sin personas.

Fíjate: una fuente de luz, un ambiente, pistas de arquitectura correctas (verticales rectas, escala real) y una instrucción clara de «sin personas». Ese es un prompt que un modelo inmobiliario representa limpio.

Preguntas frecuentes

¿Necesito aprender prompt engineering para tener buenos resultados?

No. Entender lo básico ayuda, pero herramientas como GoldenPrompts ensamblan un prompt completo y profesional con unos pocos clics, así que obtienes resultados de estudio sin escribir nada a mano.

¿Por qué mis imágenes de IA tienen ojos o manos raras?

Normalmente porque el prompt se contradice (p. ej., pistas de cámara o luz contradictorias) o la cara es demasiado pequeña en cuadro. Usa una descripción clara y coherente y encuadra más cerca.

¿El prompt debe estar en inglés?

Sí: la mayoría de los modelos líderes entienden mejor el inglés, aunque tu interfaz esté en otro idioma. Por eso GoldenPrompts siempre genera el prompt en inglés.

¿Cuál es la diferencia entre un prompt de imagen y uno de vídeo?

Un prompt de imagen describe un solo instante; uno de vídeo añade movimiento y movimiento de cámara y prioriza la estabilidad para que la identidad y los detalles se mantengan entre fotogramas.

¿Qué modelo de IA debería usar?

Depende del objetivo: Midjourney V8.1 para arte estilizado, Veo 3.1, Kling 3.0 o Runway Gen-4.5 para vídeo y Nano Banana Pro o GPT Image 2 para imágenes fijas. La web y la app de Sora cerraron el 26 de abril de 2026 y la API cerrará el 24 de septiembre de 2026; no inicies allí un flujo a largo plazo.

¿Quieres que te escriban el prompt? GoldenPrompts tiene ateliers especializados para personas y modelos, inmobiliaria e interiores, y personajes: haz clic en las opciones y copia un prompt profesional en inglés. Gratis para empezar: 24 horas de todo, sin tarjeta.