Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Programación orientada a datos con Python, Unidad 11 — Buenas prácticas profesionales con datos, 11.1 — Código mantenible para datos ·

Documentación de datasets

Documentación de datasets

Introducción

La documentación de los datasets es una práctica esencial para cualquier proyecto de ciencia de datos. Aunque pueda parecer innecesaria, especialmente en proyectos pequeños o a corto plazo, la documentación permite que otros miembros del equipo (y tú mismo en el futuro) entiendan rápidamente cómo funcionan los datasets y cuáles son sus características. Esto es crucial para mantener el proyecto a largo plazo y asegurar su replicabilidad.

Explicación principal

¿Qué es una buena documentación de dataset?

Una buena documentación de dataset debe incluir información sobre la fuente del dataset, las variables que contiene, su estructura, y cualquier otro detalle relevante. Esto permite que otros (y tú mismo) comprendan los datos sin necesidad de hacer preguntas abrumadoras.

Ejemplo

Vamos a considerar un dataset simple con información sobre el clima en diferentes ciudades:

# Dataset ejemplo: Clima en diferentes ciudades
import pandas as pd

data = {
    'Ciudad': ['Madrid', 'Barcelona', 'Lisboa'],
    'Temperatura (°C)': [23, 26, 21],
    'Humedad (%)': [78, 70, 59]
}

df_clima = pd.DataFrame(data)

Documentación del dataset

La documentación de este dataset podría incluir lo siguiente:

  • Descripción: Dataset con datos climáticos en ciudades españolas.
  • Variables:
  • Ciudad: Nombre de la ciudad (Categorica).
  • Temperatura (°C): Temperatura media mensual.
  • Humedad (%): Humedad relativa media mensual.

Errores típicos / trampas

  1. Falta de documentación: No documentar los datasets puede llevar a confusiones y errores en el análisis.
  2. Documentación insuficiente: Incluir solo una breve descripción del dataset sin detalles sobre las variables, sus unidades o la fuente de datos.
  3. Documentación obsoleta: Mantener documentaciones que no reflejan actualizaciones o cambios en los datasets.

Checklist accionable

  1. Describir la fuente de datos:
  • Indicar dónde se obtuvo el dataset (URL, archivo local, etc.).
  1. Listar las variables y sus unidades:
  • Incluir el nombre de cada variable, su unidad y una breve descripción.
  1. Mantener actualizada la documentación:
  • Actualizar la documentación cuando se añadan nuevas variables o se realicen cambios en los datos.
  1. Incluir ejemplos de uso:
  • Proporcionar un ejemplo de cómo cargar y visualizar el dataset para ayudar a otros a comprenderlo rápidamente.
  1. Documentar restricciones y limitaciones del dataset:
  • Notar cualquier dato atípico, ruido en los datos o restricciones que puedan afectar la calidad del análisis.

Cierre con "Siguientes pasos"

Para mejorar aún más las prácticas de documentación de datasets:

  • Explorar herramientas de documentación:
  • Considerar el uso de herramientas como Sphinx para generar documentación automática.
  • Incorporar la documentación en el código:
  • Utilizar comentarios y docstrings para describir los datasets dentro del código.
  • Mantener un registro de cambios:
  • Utilizar sistemas como Git para mantener un registro de las versiones y cambios realizados en los datasets.

La documentación de datasets es una práctica crítica que no debe subestimarse. Asegúrate de incluir toda la información necesaria para que otros (y tú mismo) puedan entender y usar los datos sin problemas.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).