Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Scikit-learn desde cero, Unidad 2 — Instalación y primer contacto, 2.2 — Primer modelo paso a paso ·

Cargar un dataset

Cargar un dataset

Introducción

Cargar datos es una etapa crucial en cualquier proyecto de machine learning. Es aquí donde tomamos los datos brutos y preparados, y convertimos esos datos en información útil para entrenar nuestros modelos. Scikit-learn proporciona varias formas fáciles e intuitivas de cargar datasets. En este artículo, exploraremos cómo cargar un dataset paso a paso, cubriendo tanto la carga interna del paquete como la carga desde archivos externos.

Explicación principal con ejemplos

Cargar un Dataset Internamente con Scikit-learn

Scikit-learn viene con varios datasets predefinidos que pueden usarse para pruebas o demostraciones. Por ejemplo, el dataset load_iris es ampliamente utilizado para aprender sobre regresión y clasificación.

from sklearn.datasets import load_iris
import pandas as pd

# Cargar el dataset iris
iris = load_iris()

# Convertir a DataFrame (opcional pero útil para análisis)
df = pd.DataFrame(iris['data'], columns=iris['feature_names'])
print(df.head())

Cargar un Dataset desde un Archivo externo

Para cargar datos desde archivos externos, Scikit-learn proporciona varias opciones. Estas incluyen load_csv, load_arff y otras funciones específicas para ciertos formatos de archivo. Un caso común es la carga de CSV, que es ampliamente utilizado.

from sklearn.datasets import load_iris
import pandas as pd

# Cargar datos desde un archivo CSV
data = pd.read_csv('path/to/your/dataset.csv')

# Seleccionar las columnas relevantes y los targets (etiquetas)
X = data.drop(columns='target')
y = data['target']

print(X.head())
print(y.head())

Errores típicos / trampas

  1. No verificar el formato del archivo: Al cargar datos desde archivos externos, es común olvidarse de verificar si el archivo está en el formato correcto (CSV, JSON, etc.). Scikit-learn tiene funciones específicas para la carga, pero estos archivos deben estar bien formados.
  1. Ignorar las columnas no utilizadas: Algunos datasets tienen columnas que no son necesarias para el modelo de machine learning. Es importante identificar y eliminar estas columnas antes de cargar los datos en Scikit-learn.
  1. Confundirse con la separación entre X e y: En Scikit-learn, X representa las características del dataset, mientras que y contiene las etiquetas o targets. Es fácil confundirse y mezclar estas dos variables.

Checklist accionable

  1. Verificar que el archivo está en el formato correcto (CSV, JSON).
  2. Usar la función adecuada para cargar datos según su formato.
  3. Identificar y eliminar columnas innecesarias o irrelevantes.
  4. Separar claramente X (características) e y (etiquetas).
  5. Utilizar pandas para analizar y preparar los datos si es necesario.

Cierre con "Siguientes pasos"

Siguientes pasos

  1. Practica con datasets predefinidos de Scikit-learn: Continúa explorando diferentes datasets internos proporcionados por Scikit-learn.
  2. Aprende a manejar archivos en formatos más complejos: Explora cómo cargar y preparar datos desde archivos JSON, XML o bases de datos.
  3. Implementa la carga de datos en un proyecto real: Aplica lo aprendido al cargar datos de un proyecto real y prepararlos para su uso en modelos de machine learning.

Siguiendo estos pasos, podrás tener una mejor comprensión del proceso de carga de datos y preparación de los mismos para el entrenamiento de modelos en Scikit-learn.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).