Scikit-learn desde cero, Unidad 2 — Instalación y primer contacto, 2.2 — Primer modelo paso a paso · 13/01/2026

Cargar un dataset

Cargar un dataset

Introducción

Cargar datos es una etapa crucial en cualquier proyecto de machine learning. Es aquí donde tomamos los datos brutos y preparados, y convertimos esos datos en información útil para entrenar nuestros modelos. Scikit-learn proporciona varias formas fáciles e intuitivas de cargar datasets. En este artículo, exploraremos cómo cargar un dataset paso a paso, cubriendo tanto la carga interna del paquete como la carga desde archivos externos.

Explicación principal con ejemplos

Cargar un Dataset Internamente con Scikit-learn

Scikit-learn viene con varios datasets predefinidos que pueden usarse para pruebas o demostraciones. Por ejemplo, el dataset load_iris es ampliamente utilizado para aprender sobre regresión y clasificación.

from sklearn.datasets import load_iris
import pandas as pd

# Cargar el dataset iris
iris = load_iris()

# Convertir a DataFrame (opcional pero útil para análisis)
df = pd.DataFrame(iris['data'], columns=iris['feature_names'])
print(df.head())

Cargar un Dataset desde un Archivo externo

Para cargar datos desde archivos externos, Scikit-learn proporciona varias opciones. Estas incluyen load_csv, load_arff y otras funciones específicas para ciertos formatos de archivo. Un caso común es la carga de CSV, que es ampliamente utilizado.

from sklearn.datasets import load_iris
import pandas as pd

# Cargar datos desde un archivo CSV
data = pd.read_csv('path/to/your/dataset.csv')

# Seleccionar las columnas relevantes y los targets (etiquetas)
X = data.drop(columns='target')
y = data['target']

print(X.head())
print(y.head())

Errores típicos / trampas

No verificar el formato del archivo: Al cargar datos desde archivos externos, es común olvidarse de verificar si el archivo está en el formato correcto (CSV, JSON, etc.). Scikit-learn tiene funciones específicas para la carga, pero estos archivos deben estar bien formados.

Ignorar las columnas no utilizadas: Algunos datasets tienen columnas que no son necesarias para el modelo de machine learning. Es importante identificar y eliminar estas columnas antes de cargar los datos en Scikit-learn.

Confundirse con la separación entre X e y: En Scikit-learn, X representa las características del dataset, mientras que y contiene las etiquetas o targets. Es fácil confundirse y mezclar estas dos variables.

Checklist accionable

Verificar que el archivo está en el formato correcto (CSV, JSON).
Usar la función adecuada para cargar datos según su formato.
Identificar y eliminar columnas innecesarias o irrelevantes.
Separar claramente X (características) e y (etiquetas).
Utilizar pandas para analizar y preparar los datos si es necesario.

Cierre con "Siguientes pasos"

Siguientes pasos

Practica con datasets predefinidos de Scikit-learn: Continúa explorando diferentes datasets internos proporcionados por Scikit-learn.
Aprende a manejar archivos en formatos más complejos: Explora cómo cargar y preparar datos desde archivos JSON, XML o bases de datos.
Implementa la carga de datos en un proyecto real: Aplica lo aprendido al cargar datos de un proyecto real y prepararlos para su uso en modelos de machine learning.

Siguiendo estos pasos, podrás tener una mejor comprensión del proceso de carga de datos y preparación de los mismos para el entrenamiento de modelos en Scikit-learn.