Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

SQL para ciencia de datos, Unidad 7 — SQL para preparación de datos, 7.1 — Limpieza de datos en SQL ·

Sustitución de valores

Sustitución de valores: Una herramienta esencial para la limpieza de datos en SQL

Introducción

La sustitución de valores desempeña un papel crucial en la limpieza y preparación de datos. En ciencia de datos, a menudo encontramos datos erróneos o inconsistentes que pueden distorsionar los resultados del análisis. La sustitución de estos valores puede ayudarnos a corregir esos problemas antes de proceder con el análisis más profundo.

En este artículo, aprenderemos sobre la técnica de sustitución de valores en SQL y cómo usarla para limpiar nuestros datos. También revisaremos algunos errores comunes que pueden surgir al aplicar esta técnica y proporcionamos una lista de verificación práctica para asegurarnos de hacerlo correctamente.

Explicación principal

Para ilustrar la importancia de la sustitución de valores, veamos un ejemplo práctico en el que trabajaremos con un conjunto de datos de ventas. Supongamos que tenemos una tabla llamada ventas con las siguientes columnas:

CREATE TABLE ventas (
    id INT,
    producto VARCHAR(100),
    cantidad INT,
    precio DECIMAL(10, 2)
);

Ejemplo de datos

| id | producto | cantidad | precio | |----|----------------|----------|--------| | 1 | Camisa | 5 | 39.99 | | 2 | Pantalones | 10 | 49.99 | | 3 | Camisa | 8 | 45.99 | | 4 | Zapatos | -1 | 69.99 | | 5 | Camisa | NULL | 29.99 |

En este ejemplo, podemos ver dos problemas evidentes:

  • La cantidad de Zapatos es incorrecta (no puede ser negativa).
  • El valor en la columna cantidad para el producto Camisa está faltante.

Para corregir estos problemas, usaremos la función CASE y COALESCE para sustituir los valores erróneos o nulos:

SELECT 
    id,
    producto,
    cantidad,
    precio,
    CASE 
        WHEN cantidad < 0 THEN NULL
        WHEN cantidad IS NULL THEN 1
        ELSE cantidad
    END AS nueva_cantidad
FROM ventas;

Este ejemplo muestra cómo la sustitución de valores puede mejorar la calidad de nuestros datos. Sin embargo, es importante tener cuidado al aplicar esta técnica para evitar errores.

Errores típicos / trampas

Trampa 1: Substituir nulos con cero sin justificación

Una de las trampas más comunes es sustituir los valores nulos con ceros. Esto puede distorsionar el análisis, especialmente si la columna tiene una interpretación significativa de valores cero.

Ejemplo de error:

UPDATE ventas 
SET cantidad = COALESCE(cantidad, 0) 
WHERE cantidad IS NULL;

Trampa 2: No considerar los límites del rango

Otro error común es no respetar los rangos lógicos en las columnas. Por ejemplo, si una columna representa una edad, cualquier valor negativo debe ser corregido.

Ejemplo de error:

UPDATE ventas 
SET cantidad = CASE 
    WHEN cantidad < 0 THEN NULL 
    ELSE cantidad 
END;

Trampa 3: Ignorar el contexto de los datos

No siempre es adecuado sustituir un valor por otro sin considerar el contexto. Por ejemplo, si una columna representa una categoría y se introduce un nuevo valor que no tiene sentido en ese contexto.

Ejemplo de error:

UPDATE ventas 
SET producto = CASE 
    WHEN producto = 'Zapatos' THEN 'Botas' 
    ELSE producto 
END;

Checklist accionable

  1. Analiza la tabla: Identifica las columnas que contienen valores erróneos o nulos.
  2. Determine el procedimiento de sustitución: Basado en el contexto, decide qué valor es apropiado para reemplazarlo.
  3. Utiliza CASE o COALESCE adecuadamente:
  • CASE permite hacer cambios basados en condiciones más complejas.
  • COALESCE es útil para sustituir valores nulos con un valor específico.
  1. Verifica la consistencia: Asegúrate de que los cambios no creen inconsistencias en otros aspectos del conjunto de datos.
  2. Documenta el cambio: Anota cualquier cambio realizado y justifica por qué se hizo.

Cierre

Siguientes pasos

  • Aplica la sustitución de valores a tus propios datos: Utiliza los ejemplos proporcionados para corregir problemas comunes en tu conjunto de datos.
  • Valida tus cambios: Verifica que el cambio no afecte negativamente otros aspectos del análisis.
  • Documenta todo el proceso: Mantén un registro detallado de todas las modificaciones realizadas y sus motivos.

La sustitución de valores es una herramienta fundamental para mejorar la calidad de los datos en SQL. Al seguir estos pasos, podrás asegurarte de que tus datos estén limpios y preparados para análisis más avanzados.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).