Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Manipulación de datos con NumPy y Pandas, Unidad 9 — Combinación de datasets, 9.1 — Concatenación ·

Concatenar filas

Concatenar filas

Introducción

La concatenación de filas es una técnica fundamental en la manipulación y combinación de datos. Es especialmente útil cuando necesitas combinar registros o observaciones desde diferentes fuentes en un solo conjunto de datos para realizar análisis más profundos. Pandas ofrece herramientas robustas para este propósito, pero con el poder viene cierta complejidad que puede llevar a errores si no se maneja adecuadamente.

Explicación principal

Para concatenar filas en Pandas, utilizamos la función pd.concat(). Esta función permite combinar múltiples DataFrames o Series de diferentes maneras según las necesidades del usuario. Vamos a explorar cómo funciona esta función con un ejemplo práctico:

import pandas as pd

# Creando dos dataframes para concatenar
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
})

df2 = pd.DataFrame({
    'A': ['A3', 'A4', 'A5'],
    'B': ['B3', 'B4', 'B5']
})

# Concatenando filas (axis=0)
concatenado = pd.concat([df1, df2], axis=0)

print(concatenado)

Errores típicos / trampas

  1. No alinear los índices correctamente: Si no se especifica ignore_index=True, las filas de los DataFrames concatenados tendrán el mismo índice, lo cual puede ser inexacto o incorrecto.
  1. Concatenar columnas en lugar de filas: Asegúrate siempre de usar axis=0 para concatener filas y no confundirlo con axis=1, que se usa para concatenar columnas.
  1. Incompatibilidad de tipos o estructuras: Si intentas concatenar DataFrames con estructuras incompatibles, como un DataFrame con una columna numérica y otro con texto en la misma columna, podrás obtener errores de tipo.

Checklist accionable

  • Verifica que todos los DataFrames a concatenar tengan las mismas columnas o que sea intencional no tenerlas.
  • Usa axis=0 para asegurarte de que estás concatenando filas y no columnas.
  • Si los DataFrames tienen índices, considera usar ignore_index=True para evitar problemas con el índice duplicado.
  • Verifica que las estructuras de datos a concatenar sean compatibles entre sí.
  • Asegúrate de usar el parámetro correcto según tus necesidades (por ejemplo, join='inner', join='outer', etc.).

Cierre

Siguientes pasos

  • Practica con datasets reales: Trata de concatenar datos desde diferentes fuentes y ver cómo afecta a tu análisis.
  • Explora otros métodos de combinación: Aprende sobre las funciones merge y join, que pueden ser más adecuados en ciertos casos.
  • Estudia el rendimiento: Experimenta con grandes datasets para entender cuándo la concatenación es más eficiente y cuándo no.

La capacidad de concatenar filas es una herramienta poderosa pero requiere cuidado. Con un entendimiento sólido del proceso, podrás combinar datos de manera efectiva para tus análisis y modelos de machine learning.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).