Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Programación orientada a datos con Python, Unidad 9 — Análisis básico de datos en Python puro, 9.1 — Estadística descriptiva básica ·

Media, mediana y moda

Media, mediana y moda

Introducción

En el análisis de datos, las medidas descriptivas como la media, la mediana y la moda son fundamentales para entender la distribución de los datos. Estas estadísticas nos ayudan a resumir características importantes de un conjunto de datos y a hacer comparaciones significativas. Es especialmente crucial dominar estas medidas, ya que forman el pilar sobre el cual se construyen análisis más avanzados.

Explicación principal con ejemplos

La media, la mediana y la moda son tres medidas descriptivas básicas utilizadas en estadística:

  1. Media: La media es la suma de todos los valores dividida por el número total de valores. Es sensible a valores extremos (outliers).
  2. Mediana: La mediana es el valor central cuando un conjunto de datos está ordenado de menor a mayor. Es menos afectada por outliers que la media.
  3. Moda: La moda es el valor más frecuente en un conjunto de datos.

Ejemplo

Supongamos que tenemos los siguientes valores:

valores = [10, 20, 30, 40, 50]

Media:

media = sum(valores) / len(valores)
print(f"Media: {media}")  # Salida: Media: 30.0

Mediana:

def mediana(data):
    n = len(data)
    data.sort()
    if n % 2 == 1:
        return data[n//2]
    else:
        return (data[n//2 - 1] + data[n//2]) / 2

print(f"Mediana: {mediana(valores)}")  # Salida: Mediana: 30.0

Moda:

from collections import Counter

def moda(data):
    return Counter(data).most_common(1)[0][0]

print(f"Moda: {moda(valores)}")  # Salida: Moda: 10

Errores típicos / trampas

  1. Media y valores extremos:
  • La media puede ser engañosa si hay valores extremadamente altos o bajos en el conjunto de datos.
  1. Mediana con pares impar pares:
  • Si los datos tienen un número par de elementos, la mediana se calcula como el promedio de los dos valores centrales. Esto puede causar confusión si no entiendes cómo se aplica la fórmula.
  1. Moda con datos sin moda:
  • Si todos los valores son únicos, una lista o arreglo de datos puede no tener una moda.

Checklist accionable

  1. Revisa tu dataset: Asegúrate de que no haya errores en tus datos antes de calcular las medidas descriptivas.
  2. Identifica outliers: Calcula la media y verifica si está influida por valores extremos.
  3. Ordena tus datos: Para mediana y moda, es necesario ordenar los datos.
  4. Usa funciones adecuadas: Usa mean() para media, median() para mediana y mode() para moda (ten cuidado con la implementación de mode(), ya que puede no encontrar una moda si hay más de un valor con la misma frecuencia).
  5. Comprueba manualmente: Calcula las medidas descriptivas manualmente para asegurarte de entender el proceso.
  6. Utiliza bibliotecas adecuadas: Usa NumPy y Pandas en Python para calcular eficientemente estas medidas.

Cierre con "Siguientes pasos"

  1. Aprende a calcular desviaciones estándar:
  • Asegúrate de entender cómo se calcula la desviación estándar, que es otra medida descriptiva importante.
  1. Explora histogramas y gráficos de barras:
  • Visualiza los datos utilizando histogramas o gráficos de barras para entender mejor las medidas descriptivas.
  1. Practica con datasets reales:
  • Trabaja con conjuntos de datos reales para mejorar tus habilidades en análisis estadístico.

En resumen, la media, mediana y moda son herramientas esenciales en el análisis de datos que nos ayudan a entender rápidamente las características de un conjunto de datos. Cada una tiene sus propias fortalezas y debilidades, por lo que es crucial elegir la medida adecuada para cada situación.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).