SQL para ciencia de datos, Unidad 10 — SQL como paso previo a Machine Learning, 10.1 — Feature engineering en SQL · 13/01/2026

Variables derivadas

Variables derivadas: Cómo usar SQL para preparar datasets para Machine Learning

Introducción

En la transición de los datos brutos a los datasets que se utilizan en modelos de Machine Learning (ML), un paso crucial es realizar feature engineering. Este proceso implica crear nuevas características a partir de las existentes, con el fin de mejorar la calidad y relevancia del conjunto de datos. En este artículo, exploraremos cómo usar SQL para crear variables derivadas efectivamente. Las variables derivadas son fundamentales para preparar los datos antes de su uso en modelos ML.

Explicación principal

La creación de variables derivadas a través de SQL puede ser una herramienta poderosa para transformar y mejorar los datos brutos. A continuación, veremos algunos ejemplos prácticos:

Ejemplo: Creación de nuevas características a partir del tiempo

Supongamos que tenemos un conjunto de datos con registros de compras en una tienda. Podemos crear nuevas características basadas en el tiempo de las transacciones para mejorar la calidad del dataset.

SELECT 
    purchase_id,
    customer_id,
    purchase_date,
    EXTRACT(DAYOFWEEK FROM purchase_date) AS day_of_week,  -- Extraer el día de la semana
    EXTRACT(HOUR FROM purchase_date) AS hour_of_day,       -- Extraer la hora del día
    DATE_PART('month', purchase_date) AS month             -- Extraer el mes
FROM purchases;

Ejemplo: Agregación por entidad

Podemos crear nuevas características agrupando datos por una entidad y aplicando funciones de agregación. Por ejemplo, si queremos analizar las compras en detalle a nivel del cliente.

SELECT 
    customer_id,
    COUNT(purchase_id) AS total_purchases,  -- Contar el número total de compras
    AVG(price) AS avg_purchase_price        -- Calcular el precio promedio por compra
FROM purchases
GROUP BY customer_id;

Errores típicos / trampas

Aunque la creación de variables derivadas es una herramienta valiosa, también puede llevar a errores si no se realiza con cuidado. Aquí te presentamos algunas trampas comunes:

División por cero: Es importante evitar dividir por cero al crear nuevas características que involucren la división de dos medidas.

   -- Ejemplo incorrecto: division por cero
   SELECT 
       customer_id,
       COUNT(purchase_id) / 0 AS error_rate;  -- Esto generará un error si purchase_id es 0

Errores de agrupación: Los errores en la agrupación pueden llevar a resultados incorrectos, especialmente cuando se utilizan funciones de agregación.

   -- Ejemplo incorrecto: agrupación errónea
   SELECT 
       customer_id,
       COUNT(purchase_id) / COUNT(*) AS error_rate;  -- Esto no da el error rate correcto

Falta de validación: No validar los resultados después de crear nuevas características puede llevar a conclusiones incorrectas.

   -- Ejemplo: falta de validación
   SELECT 
       customer_id,
       COUNT(purchase_id) AS purchases,  -- Esto no verifica si el cliente ha hecho alguna compra
       SUM(price) AS total_spent;

Checklist accionable

Para asegurarte de que estás creando variables derivadas correctamente en SQL:

Valida tus consultas: Asegúrate de ejecutar y validar cada consulta antes de usar las nuevas características.
Verifica la lógica: Verifica si la nueva característica se está calculando según lo esperado, especialmente para funciones complejas como CASE WHEN.
Evita divisiones por cero: Usa funciones condicionales o agregaciones para evitar dividir por cero.
Agrupa correctamente: Verifica que los datos estén agrupados correctamente antes de aplicar funciones de agregación.
Comprueba la consistencia: Compara los resultados de tus nuevas características con el dataset original para asegurarte de que no hay inconsistencias.

Cierre

La creación de variables derivadas es una parte fundamental del feature engineering en SQL, y es crucial para preparar datasets de alta calidad para modelos de Machine Learning. Al seguir las mejores prácticas y evitar los errores típicos, puedes mejorar significativamente la precisión y rendimiento de tus modelos.

Siguientes pasos

Aprende más sobre Pandas: Si estás familiarizado con SQL, aprender a usar Pandas para manipulación de datos puede ser beneficioso.
Explora el Machine Learning: Una vez que hayas preparado los datos adecuadamente, sigue adelante y aprende a implementar modelos de Machine Learning.
Investiga Business Intelligence (BI): Comprender cómo analizar y visualizar datos puede ayudarte a hacer mejores decisiones basadas en datos.