Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

SQL para ciencia de datos, Unidad 9 — SQL y estadística descriptiva, 9.1 — Estadística básica en SQL ·

Distribuciones simples

Distribuciones simples

Introducción

En la ciencia de datos, las distribuciones simples son fundamentales para comprender los patrones y propiedades subyacentes a nuestros datos. A través de la exploración de las distribuciones, podemos hacer inferencias sobre el conjunto total de datos o la población. Las distribuciones simples también son un paso crucial antes de aplicar modelos de machine learning, ya que pueden proporcionarnos información valiosa sobre la naturaleza y comportamiento de los datos.

Explicación principal con ejemplos

Las distribuciones simples son la representación visual de cómo están repartidos los valores en una variable. Las principales medidas que se usan para describir las distribuciones incluyen:

  • Media: El promedio de todos los valores.
  • Mediana: El valor central de un conjunto ordenado de datos.
  • Moda: El valor más frecuente en el conjunto de datos.
  • Desviación estándar (o desviación típica): Una medida del grado de dispersión de los datos respecto a la media.

Ejemplo práctico

Supongamos que estamos analizando las edades de una muestra de personas. Podemos calcular y representar las siguientes medidas:

SELECT 
    AVG(edad) AS 'Media',
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY edad) OVER () AS 'Mediana',
    COUNT(*) FILTER(WHERE edad = (SELECT MAX(edad) FROM personas)) AS 'Frecuencia maxima',
    STDDEV(edad) AS 'Desviación estándar'
FROM 
    personas;

Estas medidas nos proporcionan una visión general de la distribución de las edades en nuestra muestra.

Errores típicos / trampas

  1. Error en el cálculo de la media: Asegúrate de que estás sumando todos los valores correctamente y no estás incluyendo datos fuera del rango relevante.
  2. Mediana calculada incorrectamente: Si el conjunto de datos tiene un número impar de observaciones, asegúrate de que estás tomando el valor central; si es par, considera la media de los dos valores centrales.
  3. Desviación estándar sin corrección de Bessel (n-1): En muestras pequeñas, usar COUNT() en lugar de COUNT() - 1 puede dar resultados sesgados.

Checklist accionable

  1. Verifica que los datos están limpios y no contienen valores atípicos o nulos.
  2. Calcula la media, mediana y moda para obtener una visión general del conjunto de datos.
  3. Utiliza gráficos como histogramas para visualizar las distribuciones.
  4. Asegúrate de que la desviación estándar se calcula correctamente utilizando COUNT(*) - 1 en muestras pequeñas.
  5. Valida tus resultados con otros métodos o herramientas.

Cierre

Siguientes pasos

  • Exploración adicional: Analiza las distribuciones de otras variables para obtener una comprensión más completa del conjunto de datos.
  • Aplicaciones en ML: Utiliza estas medidas para preprocesar tus datos antes de aplicar modelos de machine learning, como escalado o normalización.
  • Documentación: Mantiene un registro claro y legible de todos los pasos realizados y sus resultados.

En resumen, las distribuciones simples son esenciales para el análisis de datos. Al comprender cómo están repartidos tus datos, puedes tomar decisiones informadas sobre cómo procesarlos y analizarlos más profundamente.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).