Media, mediana y moda
Introducción
En la inteligencia artificial y el aprendizaje automático, las estadísticas descriptivas son fundamentales para entender y analizar los datos. Las medidas de tendencia central como la media, la mediana y la moda proporcionan una visión rápida del conjunto de datos, lo que nos ayuda a tomar decisiones informadas en nuestra implementación de modelos predictivos. En esta unidad, exploraremos cómo calcular y interpretar estas estadísticas con ejemplos prácticos.
Explicación principal
Media
La media es la suma de todos los valores dividida por el número total de valores. Es útil cuando los datos son simétricos y no tienen valores extremadamente altos o bajos (outliers).
Cálculo:
def calcular_media(datos):
return sum(datos) / len(datos)
datos = [1, 2, 3, 4, 5]
print("Media:", calcular_media(datos))
Mediana
La mediana es el valor central en un conjunto de datos ordenados. Si el número de datos es par, se toma la media de los dos valores centrales.
Cálculo:
def calcular_mediana(datos):
datos_ordenados = sorted(datos)
n = len(datos_ordenados)
if n % 2 == 1:
return datos_ordenados[n // 2]
else:
return (datos_ordenados[(n - 1) // 2] + datos_ordenados[n // 2]) / 2
print("Mediana:", calcular_mediana(datos))
Moda
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Un conjunto puede tener una, varias o ninguna moda.
Cálculo:
from collections import Counter
def calcular_moda(datos):
contador = Counter(datos)
return contador.most_common(1)[0][0]
print("Moda:", calcular_moda(datos))
Ejemplos con datos reales
Imaginemos un conjunto de datos representando las edades de los miembros de una comunidad:
edades = [25, 34, 28, 29, 30, 27, 26, 31, 22, 24]
print("Media:", calcular_media(edades))
print("Mediana:", calcular_mediana(edades))
print("Moda:", calcular_moda(edades))
Errores típicos / trampas
Trampa 1: Igualar media y mediana
Una media y una mediana iguales sugieren que los datos están en distribución simétrica, pero no siempre. Un conjunto de datos con valores altos o bajos puede tener la misma media y mediana.
edades_simetricas = [25, 30, 35]
print("Media:", calcular_media(edades_simetricas))
print("Mediana:", calcular_mediana(edades_simetricas))
Trampa 2: Ignorar valores extremos
La media puede ser muy influenciada por valores extremos (outliers). La mediana, en contraste, no lo es tanto. Es útil para conjuntos con muchos outliers.
edades_con_outliers = [10, 25, 30, 35, 40]
print("Media:", calcular_media(edades_con_outliers))
print("Mediana:", calcular_mediana(edades_con_outliers))
Trampa 3: Suponer que hay una moda
Un conjunto de datos puede no tener una moda clara o puede tener varias modas. La falta de una moda es común en conjuntos con valores aleatorios.
edades_aleatorias = [25, 30, 28, 31, 27, 29]
print("Moda:", calcular_moda(edades_aleatorias))
Checklist accionable
- Verifica la distribución de los datos antes de decidir qué medida usar.
- Calcula media, mediana y moda para obtener una visión completa del conjunto de datos.
- Analiza el impacto de outliers en la media y considera la mediana si es necesario.
- Utiliza la moda con cuidado, especialmente cuando los valores son únicos o aleatorios.
- Implementa un proceso iterativo para análisis continuos y refinados.
Cierre
Siguientes pasos
- Aprender a trabajar con distribuciones de datos más complejas.
- Dominar la técnica del resampling, como el muestreo bootstrap, para obtener una mejor comprensión de la variabilidad en los datos.
- Explorar más medidas descriptivas, como varianza y desviación estándar, para un análisis más detallado.
¡Esperamos que este artículo te haya ayudado a entender mejor las medidas de tendencia central en el contexto del aprendizaje automático!