Un analista de datos en una empresa de retail en Ciudad de México necesita cruzar ventas con datos de inventario para una presentación del CEO en 2 horas. Sin IA: 2 horas de SQL + Python + limpieza de datos. Con los prompts correctos: 25 minutos. Pero los prompts genéricos ("analiza este dataset") devuelven resultados superficiales. Los buenos prompts de análisis especifican el contexto, las hipótesis y el formato exacto del output.
Esta guía cubre los prompts más efectivos para análisis de datos: Python, SQL, Excel, interpretación de resultados y generación de informes ejecutivos.
Actúa como un Data Scientist con experiencia en pandas y análisis exploratorio. Tengo un DataFrame con estas columnas: [LISTAR COLUMNAS Y TIPOS] Objetivo del análisis: [QUÉ QUEREMOS DESCUBRIR] Genera código Python completo para: 1. Análisis de calidad de datos: valores nulos por columna, duplicados, outliers (IQR method) 2. Estadísticas descriptivas para columnas numéricas (media, mediana, desvío, percentiles 25/75) 3. Distribución de variables categóricas (value_counts con porcentajes) 4. Matriz de correlación para variables numéricas (heatmap con seaborn) 5. 3 visualizaciones relevantes para [OBJETIVO]: especificar tipo de gráfico para cada una Usar pandas, numpy, matplotlib, seaborn. Incluir comentarios explicando qué hace cada sección. Idioma de comentarios: español.
Eres un analista experto en detección de anomalías en datos de negocio. Dataset: ventas diarias de [PRODUCTO] de [PERÍODO] Columnas relevantes: fecha, cantidad_vendida, precio_unitario, región, canal Genera código Python para: 1. Detectar outliers estadísticos (Z-score > 3 y método IQR) en cantidad_vendida 2. Identificar anomalías en precio_unitario (variaciones > 20% del precio histórico) 3. Detectar días sin ventas que no son feriados 4. Comparar el patrón de ventas por día de la semana e identificar el día con mayor y menor variabilidad Para cada anomalía detectada, generar un DataFrame de resultados con columnas: fecha | tipo_anomalia | valor_observado | valor_esperado | desviacion_pct | prioridad (Alta/Media/Baja)
Actúa como un Data Scientist. Necesito un modelo de regresión para predecir [VARIABLE_OBJETIVO]. Características disponibles: [FEATURES] Período de datos: [PERÍODO] Objetivo del negocio: [QUÉ DECISIÓN SE TOMARÁ CON EL MODELO] Genera código Python con: 1. Preparación de datos: encoding de categóricas, normalización de numéricas, split train/test (80/20) 2. Baseline: regresión lineal simple con train/test 3. Modelo mejorado: Random Forest Regressor con GridSearchCV (max_depth: [3,5,7], n_estimators: [100,200]) 4. Evaluación: MAE, RMSE, R² para ambos modelos 5. Feature importance plot para el mejor modelo 6. Predicción sobre los próximos [N] períodos Incluir interpretación en español de los resultados en comentarios del código.
Eres un DBA experto en SQL analítico. Base de datos: [MySQL / PostgreSQL / BigQuery / SQL Server] Tablas disponibles: [DESCRIBIR TABLAS Y RELACIONES CLAVE] Objetivo: [QUÉ INFORMACIÓN NECESITO] Genera la query SQL que: 1. [REQUERIMIENTO 1] 2. [REQUERIMIENTO 2] 3. [REQUERIMIENTO 3] Requerimientos adicionales: - Performance: si la query puede ser lenta, incluir alternativa optimizada - Comentar cada sección de la query explicando la lógica - Mostrar resultado esperado con datos de ejemplo ficticios - Incluir variante para filtrar por [PERÍODO DINÁMICO] con parámetro
Convierte esta query SQL a código pandas equivalente: [PEGAR QUERY SQL] Tabla equivalente en pandas: df con las mismas columnas Instrucciones: - Usar operaciones pandas eficientes (evitar loops) - Incluir comentario en cada paso indicando el equivalente SQL que reemplaza - El resultado final debe ser un DataFrame con las mismas columnas y orden que la query SQL
Actúa como un experto en Excel avanzado (versión 365/2021). Tengo una hoja con: [DESCRIBIR ESTRUCTURA DE COLUMNAS] Necesito: [DESCRIBIR QUÉ CALCULAR O EXTRAER] Genera: 1. La fórmula Excel completa (lista para pegar en la celda) 2. Explicación paso a paso de cómo funciona 3. Variante con LAMBDA si aplica para hacerla reutilizable 4. Posibles errores (#N/A, #VALUE!) y cómo manejarlos con IFERROR/SI.ERROR Si hay múltiples enfoques, mostrar los 2 mejores con sus pros y contras.
Soy analista de datos. Necesito diseñar un dashboard ejecutivo en Google Sheets. KPIs a mostrar: [LISTAR KPIs] Audiencia: [QUIÉN LO VE - ej. "CEO y CFO"] Frecuencia de actualización: [DIARIA/SEMANAL/MENSUAL] Fuente de datos: [DÓNDE ESTÁN LOS DATOS] Genera: 1. Estructura de tabs recomendada (Raw Data | Calculations | Dashboard) 2. Fórmulas para calcular cada KPI (incluir nombres de columnas de ejemplo) 3. Tipo de gráfico recomendado para cada KPI (sparkline / donut / barra / línea temporal) 4. Reglas de formato condicional para resaltar variaciones > 10% vs período anterior 5. Script Apps Script básico para enviar el dashboard por email semanalmente
Actúa como un analista de negocio que traduce datos a decisiones para C-level. Resultados del análisis: [PEGAR DATOS O DESCRIBIR HALLAZGOS] Contexto de negocio: [EMPRESA, INDUSTRIA, OBJETIVO DEL ANÁLISIS] Audiencia: [CEO / CFO / Director Comercial — elegir uno] Genera un informe ejecutivo de máximo 500 palabras con: 1. Hallazgo principal en 1 oración (el "so what") 2. 3 insights clave en bullets (con número específico de impacto) 3. Causa probable de cada hallazgo (hipótesis basada en datos) 4. 3 recomendaciones accionables (con responsable y plazo sugerido) 5. Próximos pasos de análisis recomendados Tono: directo, sin jerga técnica de datos, orientado a decisiones.
¿Querés dominar Python, análisis de datos y prompt engineering con IA para acelerar tu carrera analítica?
Sí, con ChatGPT Plus (USD 20/mes) la función Advanced Data Analysis (antes Code Interpreter) permite subir archivos CSV, Excel o PDF y hacer análisis con código Python ejecutado en un sandbox. Puedes pedir gráficos, estadísticas y modelos directamente sin escribir código. Limitación: archivos de hasta ~100MB.
Sí, especialmente en: lógica de ventanas temporales (rolling windows), joins complejos con múltiples condiciones y modelos de ML con preprocesamiento específico. La regla es: siempre verificar el output en una muestra pequeña antes de ejecutar sobre el dataset completo. Los prompts bien formulados con ejemplos de datos reducen los errores en un 60-70%.
Para generación de código Python/SQL: Claude 3.7 Sonnet (mejor precisión en lógica compleja). Para análisis directo de archivos subidos: ChatGPT Advanced Data Analysis (sandbox de ejecución real). Para integración con BigQuery y Google Sheets: Gemini (mejor integración con el ecosistema Google). Para análisis de imágenes de gráficos: GPT-4o o Claude 3.7.
El análisis de datos con IA es la habilidad más demandada en empresas latinoamericanas en 2026. Formarte en IA generativa te da la base para liderarlo.