Programación orientada a datos con Python, Unidad 12 — Mini-proyecto orientado a datos, 12.1 — Proyecto completo guiado · 13/01/2026

Preparación para ML

Preparación para ML: Un Mini-Proyecto Orientado a Datos

Introducción

La preparación para el aprendizaje automático (ML) es un paso crítico en la creación de modelos predictivos. Este proceso implica no solo la recolección y limpieza de datos, sino también su transformación y normalización para que los algoritmos puedan procesarlos eficientemente. En este artículo, exploraremos el desarrollo completo de un mini-proyecto orientado a datos con Python, enfocándonos en cómo preparar nuestros datos para ser utilizados en modelos ML.

Explicación principal

Para ilustrar este proceso, seguiremos una guía paso a paso utilizando un conjunto de datos ficticio. Supongamos que trabajamos con un dataset sobre propiedades inmobiliarias, donde deseamos predecir el precio de venta basándonos en características como el número de habitaciones, el tamaño del terreno y la ubicación.

Paso 1: Carga del Dataset

Primero, cargamos nuestro conjunto de datos:

import pandas as pd

# Cargar el dataset desde un archivo CSV
df = pd.read_csv('propiedades.csv')

# Mostrar las primeras filas del dataframe
print(df.head())

Paso 2: Limpieza y Transformación de Datos

La calidad y la relevancia de los datos son fundamentales para el rendimiento del modelo. A continuación, realizamos algunas transformaciones básicas:

# Eliminar filas con valores nulos en las columnas relevantes
df = df.dropna(subset=['num_habitaciones', 'tamano_terreno', 'precio'])

# Convertir tipos de datos si es necesario
df['num_habitaciones'] = df['num_habitaciones'].astype(int)
df['tamano_terreno'] = pd.to_numeric(df['tamano_terreno'], errors='coerce').fillna(0).astype(float)

# Normalizar los valores numéricos para mejorar la convergencia de los algoritmos
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[['num_habitaciones', 'tamano_terreno']] = scaler.fit_transform(df[['num_habitaciones', 'tamano_terreno']])

Paso 3: Selección y Transformación de Variables

Determinar cuáles variables son importantes y cómo transformarlas es crucial. Por ejemplo, podemos convertir la columna 'ubicacion' en una variable categórica utilizando one-hot encoding:

from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# Codificar las ubicaciones como variables dummy
encoder = OneHotEncoder()
locations_encoded = encoder.fit_transform(df[['ubicacion']]).toarray()

# Crear nuevas columnas para cada categoría de ubicación
location_columns = [f'ubicacion_{loc}' for loc in encoder.categories_[0]]
df = pd.concat([df, pd.DataFrame(locations_encoded, columns=location_columns)], axis=1)

Paso 4: Revisión y Pruebas

Es esencial verificar que el conjunto de datos esté en un estado adecuado para la entrada al modelo. Verifiquemos algunos aspectos:

Datos faltantes: Asegúrate de que no hay valores nulos después del proceso.
Tipos de datos correctos: Valida que todos los campos tengan el tipo esperado.
Valores extremos: Revisa si hay valores atípicos o outliers que puedan afectar al modelo.

Errores típicos / trampas

Trampa 1: Ignorar la corrección de tipos de datos

Asegúrate siempre de convertir los tipos de datos adecuadamente. Si tienes una columna con valores numéricos pero está categorizada como texto, podrías obtener resultados inesperados.

Trampa 2: No normalizar variables numéricas

La escala de las variables puede afectar seriamente el rendimiento del modelo. Normalizar o estandarizar las variables numéricas es una práctica común y mejora la eficiencia del entrenamiento.

Trampa 3: Olvidar one-hot encoding para variables categóricas

Al no transformar correctamente las variables categóricas, podrías perder información valiosa que podría ser crucial para el modelo. Cada categoría debe convertirse en una variable binaria.

Checklist accionable

Carga del dataset: Verifica que se carguen todos los datos sin problemas.
Eliminación de valores nulos: Asegúrate de manejar correctamente los valores faltantes.
Transformación y normalización: Convierte tipos de datos, normaliza variables numéricas y realiza one-hot encoding para variables categóricas.
Verificación del conjunto de datos: Valida que no haya errores o inconsistencias en el dataset.
Preparación para la entrada al modelo: Prepara los datos siguiendo las especificaciones requeridas por tu algoritmo de ML.

Cierre

Siguientes pasos:

Ejercicio adicional: Aplica estos pasos a otro conjunto de datos y compara el rendimiento del modelo.
Exploración avanzada: Investiga más profundamente en técnicas de transformación y normalización de datos.
Visualización de datos: Utiliza herramientas como Matplotlib o Seaborn para visualizar tu dataset antes y después de la preparación.

Siguiendo estos pasos, podrás asegurarte de tener un conjunto de datos sólido y preparado para alimentar modelos ML eficientes.