Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

SQL para ciencia de datos, Unidad 9 — SQL y estadística descriptiva, 9.1 — Estadística básica en SQL ·

Medidas básicas

Medidas básicas

Introducción

En la ciencia de datos, las medidas básicas son fundamentales para comprender y analizar los datos. Estas medidas proporcionan una visión inicial y perspectiva sobre los datos brutos, permitiendo a los científicos de datos obtener una comprensión rápida pero profunda del conjunto de datos. Aprender a calcular e interpretar estas medidas es crucial no solo para la exploración inicial sino también como base para el análisis más avanzado.

Explicación principal

Las medidas básicas incluyen estadísticas descriptivas como la media, mediana, moda, desviación estándar y variabilidad. Cada una de estas medidas ofrece información valiosa sobre los datos y juega un papel crucial en la preparación y análisis de datos.

Media

La media es el promedio de todos los valores numéricos en un conjunto de datos. Se calcula sumando todos los valores y dividiendo por el número total de valores.

SELECT AVG(column_name) AS average_value FROM table_name;

Mediana

La mediana es el valor central de un conjunto ordenado de números, donde mitad de los valores son mayores o iguales a ella y la otra mitad son menores o iguales. Es especialmente útil para datos con distribuciones asimétricas.

SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY column_name) OVER () AS median_value FROM table_name;

Moda

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. SQL no tiene una función directa para calcular la moda, pero se puede hacer con un GROUP BY y ORDER BY.

SELECT column_name, COUNT(*) as count FROM table_name GROUP BY column_name ORDER BY count DESC LIMIT 1;

Desviación estándar

La desviación estándar mide la dispersión o variabilidad de una distribución. Un valor alto indica que los datos son más dispersos; un valor bajo indica que los datos están más agrupados.

SELECT STDDEV(column_name) AS standard_deviation FROM table_name;

Variabilidad

La variabilidad, o varianza, es el cuadrado de la desviación estándar y mide la dispersión en términos de cuadrados. Aunque menos común que la desviación estándar, puede ser útil para ciertos cálculos.

SELECT VARIANCE(column_name) AS variance FROM table_name;

Errores típicos / trampas

  1. Incluir valores no numéricos: Los cálculos de media, desviación estándar y variabilidad solo son aplicables a datos numéricos. Incluir valores no numéricos en estos cálculos puede dar resultados erróneos.
  1. Desatención al tipo de dato: La función AVG() en SQL es específicamente para calcular la media, pero si se aplica a una columna que contiene valores no numéricos o texto, SQL generará un error. Es importante asegurarse de que las columnas usadas son del tipo adecuado.
  1. Ignorar datos faltantes: Los valores nulos en los datos pueden afectar negativamente la medición de estadísticas como media y desviación estándar si no se manejan correctamente. La desviación estándar, por ejemplo, es muy sensible a los valores atípicos (outliers).

Checklist accionable

  1. Verifica que todas las columnas involucradas en cálculos numéricos sean de tipo numérico.
  2. Maneja adecuadamente los datos faltantes antes de realizar cualquier cálculo estadístico.
  3. Revisa que la función AVG() esté aplicada correctamente y no incluya valores no numéricos.
  4. Asegúrate de ordenar los datos antes de calcular la mediana, especialmente si el conjunto es grande.
  5. Verifica que la consulta SQL para calcular la moda sea correcta en términos de agrupamiento y ordenación.

Cierre

En resumen, las medidas básicas son herramientas poderosas pero necesitan ser usadas con cuidado. Comprender cómo se calculan y qué significa cada medida es crucial para evitar errores comunes y obtener resultados precisos. Al seguir los pasos del checklist, puedes asegurarte de que tus análisis en SQL sean precisos y confiables.

Siguientes pasos

  • Aprende a trabajar con datos no numéricos: Comprender cómo manejar datos categóricos o texto es crucial para un análisis completo.
  • Estudia el tratamiento de valores atípicos (outliers): Estas medidas pueden distorsionar la interpretación de los datos, así que saber cómo identificar y tratarlos es importante.
  • Aprende a hacer cálculos más avanzados: Una vez dominadas las medidas básicas, puedes ir al siguiente nivel con técnicas como análisis de correlación y regresión.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).