Scikit-learn desde cero, Unidad 12 — Mini-proyecto completo con scikit-learn, 12.1 — Proyecto guiado · 13/01/2026

Preparación de datos

Preparación de datos: Una guía paso a paso con Scikit-learn

Introducción

La preparación de datos es una etapa crucial en cualquier proyecto de machine learning. Durante este proceso, transformamos y limpiamos los datos brutos para que sean adecuados y útiles para el modelo que deseamos entrenar. En este artículo, exploraremos la preparación de datos usando Scikit-learn a través del contexto de un mini-proyecto guiado.

Explicación principal

Para ilustrar el proceso de preparación de datos, consideremos un ejemplo simple en el que intentamos predecir los precios de las casas basándonos en características como el número de habitaciones y el tamaño del terreno. Utilizaremos Scikit-learn para preparar nuestros datos.

Ejemplo

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Cargar los datos
data = pd.read_csv('housing_data.csv')

# Separar las características (X) y la etiqueta (y)
X = data[['bedrooms', 'lot_size']]
y = data['price']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

En este ejemplo, primero cargamos los datos desde un archivo CSV. Luego, dividimos nuestras características y etiquetas en conjuntos de entrenamiento y prueba. Finalmente, utilizamos StandardScaler para escalar las características, lo que es una buena práctica para muchos algoritmos de machine learning.

Errores típicos / trampas

Error 1: No transformar las características categóricas

No olvides transformar variables categóricas antes de aplicar cualquier modelo. Utiliza OneHotEncoder o OrdinalEncoder.

from sklearn.preprocessing import OneHotEncoder

# Supongamos que X tiene una columna 'categorical_feature'
encoder = OneHotEncoder()
X_categorical_transformed = encoder.fit_transform(X['categorical_feature']).toarray()

Error 2: Ignorar la división de datos en entrenamiento y prueba

Es fundamental dividir los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo. El uso incorrecto puede dar falsas expectativas sobre el rendimiento real.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Error 3: No normalizar o escalar las características numéricas

Algunos algoritmos no funcionan bien con escalas diferentes en distintas columnas de entrada. StandardScaler o MinMaxScaler son útiles para esto.

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

Checklist accionable

Cargar los datos: Utiliza la función pd.read_csv() o pd.read_excel() según sea necesario.
Explorar y limpiar los datos: Usa herramientas como info(), describe(), y isnull().sum() para entender tus datos.
Transformar variables categóricas: Utiliza OneHotEncoder o OrdinalEncoder.
Dividir en conjuntos de entrenamiento y prueba: Usa train_test_split() para obtener los conjuntos adecuados.
Escalar las características numéricas: Usa StandardScaler, MinMaxScaler, u otros según sea necesario.

Cierre

La preparación de datos es una fase crítica que puede afectar significativamente el rendimiento del modelo. Siguiendo estos pasos y evitando los errores comunes, podrás asegurarte de tener un conjunto de datos limpio y adecuado para tu proyecto de machine learning.

Siguientes pasos

Revisión: Verifica que todos tus datos estén en el formato correcto.
Prueba: Evalúa el rendimiento del modelo en el conjunto de prueba.
Documentación: Mantén un registro detallado de todas las transformaciones y ajustes realizados.

¡Listo para avanzar a la siguiente etapa!