Aprendizaje supervisado, Unidad 12 — Mini-proyecto supervisado completo, 12.1 — Proyecto guiado · 12/01/2026

Preparación de datos

Preparación de datos para aprendizaje supervisado: Guía práctica

Introducción

La preparación de datos es una fase crítica en cualquier proyecto de machine learning, especialmente cuando se trata con aprendizaje supervisado. Los datos son los bloques constructivos del modelo predictivo y su calidad puede marcar la diferencia entre un modelo que funciona bien y uno que no. En este artículo, exploraremos las etapas clave para preparar datos efectivamente en un proyecto de aprendizaje supervisado.

Explicación principal

La preparación de datos implica transformar los datos brutos en una forma que sea útil para el modelo predictivo. Este proceso puede implicar una variedad de tareas, desde la limpieza y normalización hasta la exploración y visualización de datos.

Ejemplo: Preparación de un conjunto de datos de ventas

Supongamos que tenemos un conjunto de datos con registros de ventas en un supermercado. Cada registro contiene información sobre el producto vendido, su precio, la fecha y hora de venta, y el estado (ciudad) donde se realizó la venta.

# Ejemplo de códigos en Python para preparar datos

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Cargar los datos
data = pd.read_csv('ventas.csv')

# Limpieza de datos: Manejo de valores faltantes y duplicados
data.dropna(inplace=True)
data.drop_duplicates(inplace=True)

# Transformación de variables categóricas a numéricas
data['estado'] = data['estado'].astype('category').cat.codes

# División del dataset en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(data.drop('precio', axis=1), 
                                                    data['precio'], test_size=0.2, random_state=42)

# Escalado de características numéricas
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Errores típicos / trampas

Manejo inadecuado de valores faltantes: Ignorar o llenar los valores faltantes sin considerar el impacto en la calidad del modelo puede llevar a resultados sesgados.

Escalado incorrecto de características: No aplicar el mismo escalado (como StandardScaler, MinMaxScaler) tanto al conjunto de entrenamiento como al de prueba puede dar lugar a modelos que no sean generalizables.

Transformación inadecuada de variables categóricas: Convertir directamente una variable categórica en numérica sin considerar su relación con el modelo predictivo (por ejemplo, usando OneHotEncoding) puede introducir sesgos en el modelo.

Checklist accionable

Limpieza de datos: Verifica y corrige los valores faltantes.
Normalización de datos: Asegúrate de que todas las características estén en una escala similar.
Transformación de variables categóricas: Convierte variables categóricas a numéricas si es necesario, pero considera el método correcto (OneHotEncoding, LabelEncoder, etc.).
División del conjunto de datos: Divide los datos en conjuntos de entrenamiento y prueba.
Escalado de características: Aplica un escalador consistente a ambos conjuntos de datos para evitar sesgos.
Validación cruzada: Utiliza validación cruzada para asegurar una evaluación precisa del modelo.

Cierre: Siguientes pasos

Ahora que has preparado tus datos, estás listo para entrenar y evaluar un modelo predictivo. Aquí están algunos pasos siguientes:

Entrenamiento de modelos: Aplica algoritmos de aprendizaje supervisado como regresión lineal o árboles de decisión a tu conjunto de datos.
Evaluación del modelo: Usa métricas apropiadas para evaluar la precisión y robustez de tu modelo.
Interpretación e implementación: Analiza los resultados y considera cómo implementar el modelo en un entorno real.

La preparación de datos es una parte esencial del proceso de machine learning, y su calidad directamente afecta la eficacia final del modelo. Siguiendo estos pasos, podrás asegurarte de que tu conjunto de datos esté listo para construir modelos precisos y generalizables.

Esta guía te proporciona una visión clara de cómo preparar tus datos para un proyecto de aprendizaje supervisado, asegurándote de abordar los desafíos comunes y garantizando la máxima calidad en tus datos.