Prompt Engineering para Programadores: System Prompts, Function Calling y Code Generation 2026

Q: ¿El prompt engineering reemplaza saber programar?

No. El prompt engineering amplifica las habilidades existentes. Para evaluar el código generado por IA e identificar errores sutiles, se necesitan conocimientos sólidos de programación.

Q: ¿Qué es function calling y para qué sirve?

Function calling permite que el LLM llame funciones de tu código para obtener información real (BD, APIs, cálculos). Es la base de los agentes de IA. Disponible en GPT-4o, Claude y Gemini.

¿Qué es el prompt engineering para programadores?

El prompt engineering para programadores es el conjunto de técnicas para instruir a modelos de lenguaje (ChatGPT, Claude, Gemini, GitHub Copilot) de forma precisa para tareas de desarrollo: generación de código, debugging, revisión, testing, documentación y arquitectura. Va más allá de "escribir el prompt correcto" — incluye diseño de system prompts para agentes de código, uso de function calling para conectar LLMs con APIs, y patrones como Chain-of-Thought (CoT) para resolver problemas complejos paso a paso.

Pantalla de terminal con código Python mostrando una función de prompt engineering con system prompt y messages array, con output del modelo en pantalla dividida — Prompt engineering técnico: system prompt + función + output del modelo en un flujo de código Python real.

Según el Stack Overflow Developer Survey 2024, el 78% de los desarrolladores profesionales ya usa IA en su flujo de trabajo. Los que dominan prompt engineering avanzado reportan 40-60% de mejora en productividad para tareas de boilerplate, debugging y documentación. La clave no está en que la IA "sepa programar" — sino en que el desarrollador sepa comunicarle exactamente qué necesita.

System prompts: configurar el comportamiento del modelo

El system prompt es la instrucción que define el rol, restricciones y formato de respuesta del modelo antes de que el usuario interactúe. En desarrollo de software, el system prompt determina si el modelo escribe Python 3.11 o 3.8, si usa tipado estático, si incluye docstrings, y si sigue las convenciones de tu codebase.

Plantilla de system prompt para asistente de código

SYSTEM:
Eres un senior Python developer especializado en FastAPI y PostgreSQL.
Reglas:
- Usa Python 3.11+ con type hints en todas las funciones
- Maneja errores con try/except específicos (nunca `except Exception`)
- Escribe docstrings en formato Google Style
- Para DB queries, usa SQLAlchemy Core (no ORM)
- Sigue PEP 8; líneas máximo 88 chars (Black formatter)
- Si no tienes suficiente contexto, pregunta antes de asumir
- Incluye tests unitarios cuando generes funciones

Por qué el system prompt importa más que el user prompt

Prueba de Anthropic Internal Benchmarks 2024: el mismo user prompt "escribe una función para conectar a la base de datos" con diferentes system prompts produce código que varía en 60-80% en calidad, seguridad (SQL injection, secrets hardcodeados) y adherencia a las convenciones del equipo.

Prompts para generación de código efectiva

El error más frecuente: pedir código sin contexto. Los 5 elementos que debe tener un buen prompt de generación:

Elemento	Por qué importa	Ejemplo
Lenguaje + versión	Evita código deprecado o incompatible	"Python 3.11, FastAPI 0.110"
Input/output esperado	Define el contrato de la función	"recibe lista[dict] con campos name/email, devuelve bool"
Restricciones de rendimiento	Evita soluciones O(n²) cuando O(n log n) es posible	"debe manejar 100K registros sin timeout"
Contexto del codebase	El modelo adapta el estilo al tuyo	"ya tenemos una clase BaseRepository con método get_by_id"
Casos edge a manejar	Evita que el modelo ignore casos obvios	"manejar lista vacía, elementos con None, duplicados"

Ejemplo: prompt de generación vs resultado

USER:
Escribe una función Python que valide emails en una lista.
- Usa regex RFC 5322 simplificado (solo formato name@domain.tld)
- Input: list[str] — puede contener None y duplicados
- Output: dict con "valid": list[str] y "invalid": list[str] (sin duplicados)
- Incluye docstring y 3 test cases con pytest

# El modelo genera código limpio, tipado, con tests — vs el prompt vago
# "escribe una función para validar emails" que da código sin tipos ni tests

Prompts para debugging y análisis de errores

El prompt de debugging más efectivo incluye el stacktrace completo, el contexto relevante del código y lo que ya intentaste. Sin estos tres elementos, el modelo hace suposiciones.

USER:
Tengo este error en producción. Analiza la causa raíz y proporciona el fix.

Error:
```
AttributeError: 'NoneType' object has no attribute 'split'
  File "services/parser.py", line 47, in parse_address
    parts = address.split(',')
```

Código relevante (líneas 40-55 de parser.py):
[pegar el código]

Contexto:
- address viene de una request HTTP externa (Mercado Libre API)
- Falla solo con ~0.3% de los pedidos
- Los pedidos afectados tienen provincia vacía en la API de ML

Lo que ya intenté:
- Añadir `if address:` pero el error persiste porque el campo existe pero tiene None

Proporciona: (1) causa raíz, (2) fix inmediato, (3) mejora defensiva a largo plazo

Terminal mostrando un stacktrace de Python con error AttributeError, seguido de un prompt estructurado de debugging y la respuesta del modelo con causa raíz y tres opciones de fix — Prompt de debugging estructurado: stacktrace + contexto + intentos previos = respuesta precisa con causa raíz y fix defensivo.

Function calling: conectar LLMs con tus APIs

El function calling (también llamado tool use) permite que el LLM llame funciones de tu código cuando necesita información externa. Transforma el LLM de un chatbot a un agente que puede consultar tu base de datos, llamar APIs externas o ejecutar cálculos.

import openai

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_product_inventory",
            "description": "Returns the current stock level for a product by SKU",
            "parameters": {
                "type": "object",
                "properties": {
                    "sku": {"type": "string", "description": "Product SKU code"},
                    "warehouse": {"type": "string", "enum": ["BA", "MX", "BOG"]}
                },
                "required": ["sku"]
            }
        }
    }
]

response = openai.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "¿Cuántas unidades de SKU-4821 hay en Buenos Aires?"}],
    tools=tools,
    tool_choice="auto"
)
# El modelo detecta que necesita llamar get_product_inventory y lo indica en la respuesta

Prompts para testing y code review

Generar tests unitarios con contexto

USER:
Genera tests pytest para esta función. Incluye:
- Happy path (al menos 3 casos)
- Edge cases: input vacío, None, tipos incorrectos
- Caso de error esperado (que lanza ValueError)
- Usa pytest.parametrize para los happy path cases
- Mockea la dependencia `requests.get` usando pytest-mock

[pegar la función a testear]

Code review automático

USER:
Revisa este PR diff desde una perspectiva de:
1. Seguridad (inyección, secrets, permisos)
2. Rendimiento (N+1 queries, memory leaks, I/O bloqueante)
3. Mantenibilidad (naming, complejidad, DRY)
4. Tests faltantes o insuficientes

Para cada issue: indica severidad (CRITICAL/HIGH/MEDIUM/LOW),
la línea exacta y el fix sugerido.

[pegar el diff del PR]

Patrones avanzados: CoT, few-shot, RAG para código

Chain-of-Thought (CoT) para problemas de algoritmia

# Añadir "piensa paso a paso" antes de pedir código complejo
USER:
Diseña el algoritmo para detectar ciclos en un grafo dirigido.
Piensa paso a paso antes de escribir el código:
1. ¿Qué estructura de datos es más eficiente para este problema?
2. ¿Cuál es la complejidad temporal y espacial de cada enfoque?
3. ¿Qué casos edge hay que manejar?
Luego escribe la implementación en Python con los análisis anteriores en comentarios.

Few-shot: enseñar el estilo de tu codebase

USER:
Escribe una función siguiendo el mismo patrón de estos ejemplos de nuestro codebase:

EJEMPLO 1:
[pegar función existente de tu repo]

EJEMPLO 2:
[pegar otra función del mismo estilo]

TAREA: Escribe una función para [nueva funcionalidad] siguiendo exactamente
el mismo patrón de naming, error handling, logging y docstrings.

Comparativa de herramientas: GitHub Copilot vs ChatGPT vs Claude vs Cursor

Herramienta	Precio	Mejor para	Limitación
GitHub Copilot	$10/mes individual, $19/mes Business	Autocompletado en el IDE (VS Code, JetBrains); conoce tu repo completo	No tiene chat conversacional avanzado; el contexto está limitado al archivo abierto
ChatGPT (GPT-4o)	Free / Plus $20/mes	Diseño de arquitectura, explicaciones, refactoring con discusión	No accede a tu codebase directamente; ventana de contexto limitada en free
Claude (Anthropic)	Free / Pro $20/mes	Análisis de código largo (200K tokens); instrucciones de sistema precisas; código con menos alucinaciones	No se integra directamente al IDE (salvo con Claude Code CLI)
Cursor	Free / Pro $20/mes	IDE completo con IA integrada; entiende todo el repo; modo agente para tareas multi-archivo	Más pesado que VS Code + extensión; curva de adaptación
Claude Code CLI	Incluido en Claude Pro	Agente de terminal que puede leer/escribir archivos, correr tests, hacer commits	Requiere familiaridad con CLI; no tiene GUI

Comparación de cuatro herramientas de IA para programadores: GitHub Copilot integrado en VS Code, ChatGPT en el navegador, Claude con ventana de código largo, y Cursor IDE con modo agente — Las 4 principales herramientas de IA para desarrollo: cada una óptima para un caso de uso diferente — autocompletado, arquitectura, análisis largo o modo agente.

¿Quieres dominar la IA generativa y el prompt engineering con certificado?

Ver Experto en IA Generativa →

Infografía con los 6 patrones de prompt engineering para programadores: system prompt, context injection, chain-of-thought, few-shot, function calling y RAG. Con ejemplos de código y casos de uso — Infografía: 6 patrones de prompt engineering técnico para desarrolladores — desde system prompts hasta function calling y RAG para código.

Preguntas frecuentes sobre prompt engineering para programadores

¿El prompt engineering reemplaza saber programar?

No. El prompt engineering para programadores amplifica las habilidades existentes — no las reemplaza. Para detectar errores en el código generado por la IA, evaluar la arquitectura propuesta y escribir prompts técnicamente precisos, necesitas conocimientos sólidos de programación. Los modelos de IA cometen errores sutiles que solo un programador con criterio puede identificar.

¿Cuál es la diferencia entre system prompt y user prompt en desarrollo?

El system prompt configura el comportamiento global del modelo (lenguaje, versión, convenciones del codebase, restricciones de seguridad). El user prompt contiene la tarea específica. En producción, el system prompt va en el servidor y no cambia por usuario; el user prompt varía por solicitud. Para agentes de código, el system prompt es el "contrato" con el modelo.

¿Qué es function calling y para qué sirve en desarrollo?

Function calling permite que el LLM decida cuándo necesita llamar una función de tu código para obtener información real (datos de tu BD, APIs externas, cálculos específicos). Es la base de los agentes de IA: el modelo no alucina datos — los pide a tu sistema. Disponible en OpenAI GPT-4o, Anthropic Claude y Google Gemini.

Fuentes y referencias

Stack Overflow Developer Survey 2024 — Adopción de IA en desarrollo: 78% de devs usa herramientas de IA en su workflow.
OpenAI — Prompt Engineering Guide — Documentación oficial de técnicas de prompting para GPT-4o y modelos OpenAI.
Anthropic — Prompt Engineering Overview — Guía de prompting para Claude: system prompts, CoT, XML tags.
Brex — Prompt Engineering Guide (GitHub) — Guía técnica de prompt engineering para aplicaciones de producción.
Learn Prompting — Recurso educativo open-source sobre técnicas de prompting con ejemplos de código.