Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Procesamiento de texto con Python, Unidad 1 — Texto en el mundo real, 1.1 — Fuentes habituales de texto ·

CSV y datos semi-estructurados

CSV y datos semi-estructurados

Introducción

En el mundo del procesamiento de texto, los datos semi-estructurados son una parte crucial. Los archivos CSV (Comma-Separated Values) son uno de los formatos más comunes para almacenar y transferir datos en forma tabular. Sin embargo, la interpretación y limpieza adecuada de estos datos es fundamental para convertirlos en información útil. A continuación, exploraremos cómo trabajar con archivos CSV y otros formatos semi-estructurados.

Explicación principal

Los archivos CSV son un formato de texto simple que utiliza comas (o otro delimitador) para separar los valores en diferentes columnas. En Python, podemos leer y escribir estos archivos con facilidad utilizando el módulo csv. Vamos a explorar cómo hacerlo.

Ejemplo: Leer un archivo CSV

import csv

# Ruta al archivo CSV
archivo_csv = "datos.csv"

with open(archivo_csv, mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    
    # Saltamos la primera fila (encabezado si es aplicable)
    next(reader)  # Ignorar el encabezado
    
    for row in reader:
        print(row)

Este código básico nos permite leer un archivo CSV y procesar cada fila. Sin embargo, hay varios detalles a tener en cuenta para asegurar que la lectura sea correcta.

Errores típicos / trampas

  1. Formato de datos no uniforme: Los archivos CSV pueden contener diferentes tipos de datos (numéricos, cadenas, boleanos) en las mismas columnas, lo cual puede causar problemas durante la lectura y el procesamiento.
  1. Codificación incorrecta: Si no especificamos correctamente la codificación del archivo, podemos recibir caracteres extraños o errores de decoding.
  1. Falta de encabezados: Los archivos CSV pueden no tener encabezados, lo que puede resultar en malinterpretación al procesar los datos.

Ejemplo de error: Codificación incorrecta

import csv

archivo_csv = "datos.csv"

with open(archivo_csv, mode='r', encoding='iso-8859-1') as file:
    reader = csv.reader(file)
    
    for row in reader:
        print(row)

Si el archivo CSV está codificado en UTF-8 pero se intenta leerlo con ISO-8859-1, la lectura dará lugar a caracteres incorrectos o errores.

Checklist accionable

  1. Verifica la codificación del archivo: Asegúrate de utilizar la codificación correcta al abrir el archivo CSV.
  2. Ignora las líneas vacías: Si tu archivo CSV contiene líneas en blanco, puedes saltarlas para evitar errores durante la lectura.
  3. Usa encabezados adecuadamente: Si tu archivo tiene encabezados, asegúrate de leerlos y usarlos correctamente.
  4. Maneja tipos de datos mixtos: Convierte los datos según sea necesario (por ejemplo, convertir cadenas a números).
  5. Limpia el texto: Elimina espacios en blanco innecesarios o caracteres especiales.

Cierre

Siguientes pasos

  • Integración con otros formatos semi-estructurados: Aprende a leer y procesar archivos JSON, XML, etc.
  • Automatización: Utiliza scripts para automatizar la lectura y limpieza de múltiples archivos CSV.
  • Optimización del rendimiento: Implementa técnicas para manejar grandes volúmenes de datos.

Siguiendo estos pasos, podrás trabajar eficazmente con archivos CSV y otros formatos semi-estructurados en tu proyecto de procesamiento de texto.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).