Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Python intermedio para IA, Unidad 6 — Archivos, formatos y datos reales, 6.1 — Archivos estructurados ·

CSV

CSV: Archivos estructurados para análisis de datos y machine learning

Introducción

CSV (Comma-Separated Values) es un formato de archivo simple y extensivo que permite almacenar y transferir datos tabulados en forma de texto. Esencialmente, CSV representa la información en una tabla con filas y columnas, donde los valores están separados por comas. A pesar de su simplicidad, CSV es ampliamente utilizado en el análisis de datos y machine learning debido a su facilidad de uso e integración.

En este artículo, exploraremos cómo trabajar eficientemente con archivos CSV utilizando Python. Veremos cómo leer y escribir estos archivos, así como algunos errores comunes que pueden surgir durante esta tarea. Además, proporcionaremos un checklist para asegurar una implementación segura y efectiva.

Explicación principal

Leer y escribir archivos CSV en Python

Para trabajar con archivos CSV en Python, se utiliza la biblioteca pandas, una herramienta robusta de análisis de datos que facilita las operaciones CRUD (Create, Read, Update, Delete) con dataframes. A continuación, un ejemplo básico de cómo leer y escribir archivos CSV:

import pandas as pd

# Lee un archivo CSV
data = pd.read_csv('datos.csv')

# Muestra los primeros 5 registros
print(data.head())

# Escribe los datos en un nuevo archivo CSV
data.to_csv('nuevo_archivo.csv', index=False)

Ejemplos prácticos con bloques de código

Ejemplo 1: Leer y filtrar datos

import pandas as pd

# Lee el archivo CSV
df = pd.read_csv('datos.csv')

# Filtra los registros donde la columna 'edad' es mayor a 30
filtered_data = df[df['edad'] > 30]

print(filtered_data)

Ejemplo 2: Escritura condicional en CSV

import pandas as pd

# Lee el archivo CSV
df = pd.read_csv('datos.csv')

# Agrega una nueva columna basada en la existencia de un valor
df['nueva_columna'] = df['edad'].apply(lambda x: 'Mayor de 30' if x > 30 else 'Menor de 30')

# Guarda el nuevo archivo CSV con la nueva columna
df.to_csv('datos_modificados.csv', index=False)

Errores típicos / trampas

  1. Formato incorrecto: Asegúrate de que los delimitadores sean correctos. Si tus datos están separados por punto y coma (;) en lugar de comas, deberás usar pd.read_csv('datos.csv', delimiter=';').
  1. Tipos incompatibles: Al leer el CSV, las columnas pueden ser interpretadas incorrectamente (por ejemplo, como enteros en lugar de cadenas). Verifica y ajusta los tipos con dtype al cargar los datos.
  1. Saltos de línea no válidos: Si tus archivos CSV contienen saltos de línea dentro de valores, podrías tener problemas. Podrás manejar esto usando el parámetro lineterminator.

Checklist accionable

  1. Verifica la existencia del archivo antes de intentar leerlo.
  2. Asegúrate de que los encabezados estén correctamente definidos y correspondan a las columnas en tus datos.
  3. Usa dtype para especificar los tipos de datos adecuados durante el proceso de lectura.
  4. Maneja posibles errores con bloques try/except.
  5. Valida la estructura del CSV antes de su uso, especialmente en proyectos grandes o críticos.

Cierre

Siguientes pasos

  • Procesamiento avanzado: Aprende a manejar casos más complejos como encabezados dinámicos y múltiples archivos.
  • Integración de ETL: Comienza a automatizar el proceso de extracción, transformación y carga (ETL) de tus datos CSV.
  • Seguridad en datos: Asegúrate de que estás cumpliendo con las regulaciones sobre privacidad y seguridad al manejar datos personales.

Python y sus bibliotecas facilitan enormemente la manipulación de archivos CSV para trabajos de análisis de datos e investigación. Siguiendo los consejos y el checklist proporcionados, podrás trabajar eficientemente con estos archivos en tus proyectos de inteligencia artificial y machine learning.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).