Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Programación orientada a datos con Python, Unidad 12 — Mini-proyecto orientado a datos, 12.1 — Proyecto completo guiado ·

Análisis básico

Análisis básico

Introducción

El análisis básico es una etapa crucial en cualquier proyecto de datos. Es la fase donde se examinan los datos y se identifican patrones, tendencias y anomalías sin profundizar en modelos complejos o algoritmos de aprendizaje automático. Este análisis inicial nos ayuda a entender el contexto de los datos, validar hipótesis e informar decisiones estratégicas. En este artículo, exploraremos cómo realizar un análisis básico efectivo utilizando Python.

Explicación principal con ejemplos

Estadística descriptiva básica

Para comenzar, vamos a usar algunos datos ficticios sobre la edad de personas en una ciudad:

import pandas as pd

# Datos ficticios
data = {
    'edad': [28, 35, 40, 19, 67, 32, 23, 28, 45, 55],
}

df = pd.DataFrame(data)

Media: La media es la suma de todos los valores dividida por el número total de valores.

media = df['edad'].mean()
print(f"Media: {media}")

Mediana: La mediana es el valor central cuando se ordenan los datos. Si hay un número par, es la media de los dos centrales.

mediana = df['edad'].median()
print(f"Mediana: {mediana}")

Moda: La moda es el valor que más se repite en una distribución.

moda = df['edad'].mode()[0]
print(f"Moda: {moda}")

Máximos y mínimos: Estos valores identifican los límites de la distribución.

maximo = df['edad'].max()
minimo = df['edad'].min()
print(f"Máximo: {maximo}, Mínimo: {minimo}")

Agrupaciones y agregaciones

Podemos agrupar datos según ciertas categorías para obtener estadísticas descriptivas. Por ejemplo, agrupamos por decil:

deciles = pd.qcut(df['edad'], q=10, labels=False)
agrupado = df.groupby(deciles).mean()
print(agrupado)

Errores típicos / trampas

  1. No considerar el rango de edad: Ignorar extremos puede llevar a conclusiones erróneas.
  2. Desconsiderar la distribución no normal: Datos con distribuciones no normales pueden distorsionar estadísticas descriptivas.
  3. Mal interpretación del rango y el intercuartil (IQR): No todos los datos en el rango o IQR son igualmente probables.

Checklist accionable

  1. Verificar la consistencia de los datos: Asegúrate de que no hay valores faltantes ni errores en los datos.
  2. Comprobar la normalidad de las distribuciones: Usa pruebas estadísticas para verificar si los datos siguen una distribución normal.
  3. Validar el rango de los valores: Considera extremos y asegúrate de que no hay valores atípicos.
  4. Interpretar correctamente las medidas descriptivas: No sobreinterpretar o subinterpretar estadísticas como la media y mediana.
  5. Agrupar datos según contexto: Utiliza agrupaciones para obtener insights más profundos.

Cierre con "Siguientes pasos"

Siguientes pasos

  1. Exploración de variables categóricas: Analiza las variables no numéricas utilizando frecuencias y gráficos.
  2. Análisis multivariante: Compara múltiples variables para identificar relaciones entre ellas.
  3. Visualización de datos: Crea visualizaciones como histogramas, boxplots y scatter plots para una mejor comprensión.

El análisis básico es un paso fundamental en el desarrollo de cualquier proyecto de ciencia de datos. Siguiendo estos pasos y evitando las trampas comunes, podrás obtener insights valiosos y asegurarte de que tus conclusiones estén bien fundamentadas basadas en los datos.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).