Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

SQL para ciencia de datos, Unidad 3 — Agregaciones y estadística básica, 3.1 — Funciones de agregación ·

SUM y AVG

SUM y AVG

Introducción

En la ciencia de datos, las funciones SUM y AVG son fundamentales para transformar grandes volúmenes de datos estructurados en información valiosa. Estas funciones de agregación permiten resumir y analizar datos en forma compacta, lo que es crucial para el análisis descriptivo y la preparación de conjuntos de datos para modelos de machine learning.

La función SUM suma todos los valores en una columna dada, mientras que AVG calcula la media de esos valores. Estas herramientas son esenciales para obtener una visión general del conjunto de datos y para formular preguntas más específicas sobre el mismo.

Explicación principal con ejemplos

Ejemplo básico: Usando SUM y AVG en una consulta SQL

Supongamos que tenemos una tabla llamada pedidos con las siguientes columnas:

  • id_pedido: Identificador único del pedido
  • fecha_pedido: Fecha de creación del pedido (en formato DATE)
  • cliente_id: ID del cliente que realizó el pedido
  • monto: Monto total del pedido

Para obtener la suma y la media de los montos de todos los pedidos, podríamos escribir:

SELECT SUM(monto) AS monto_total,
       AVG(monto) AS monto_promedio
FROM pedidos;

Este ejemplo devuelve dos columnas: monto_total que es la suma de todos los montos y monto_promedio que es la media de esos montos.

Ejemplo avanzado: Usando GROUP BY con SUM y AVG

Si queremos obtener las sumas y medias por cliente, podríamos utilizar GROUP BY:

SELECT cliente_id,
       SUM(monto) AS monto_total_cliente,
       AVG(monto) AS monto_promedio_cliente
FROM pedidos
GROUP BY cliente_id;

Este ejemplo devuelve una lista de clientes con sus respectivas sumas y medias de los montos.

Errores típicos / trampas

  1. Desconocer el tipo de datos: Asegúrate de que la columna sobre la cual aplicas SUM o AVG contenga valores numéricos. Si la columna contiene cadenas, el resultado será incorrecto.
  1. Desconsiderar el tratamiento de valores nulos: SUM ignorará los valores nulos, mientras que AVG incluirá solo los no nulos. Esto puede afectar tus resultados si tienes muchos valores nulos.
  1. Ignorar la inclusión o exclusión de filas duplicadas: Si estás trabajando con datos que tienen filas duplicadas y no las eliminaste antes, podrías obtener resultados inexactos. Asegúrate de tener un conjunto de datos limpio.

Checklist accionable

  1. Revisa el tipo de datos: Verifica que la columna sobre la cual aplicas SUM o AVG contenga valores numéricos.
  2. Maneja los valores nulos: Decide si quieres incluir o excluir los valores nulos, y ajusta tus consultas según sea necesario.
  3. Elimina duplicados: Si estás trabajando con datos que tienen filas duplicadas, elimínalas antes de aplicar SUM o AVG.
  4. Usa GROUP BY adecuadamente: Asegúrate de que estés agrupando las columnas correctas y obteniendo los resultados esperados.
  5. Valida tus resultados: Siempre verifica los resultados para asegurarte de que están en línea con lo que esperabas.

Cierre: Siguientes pasos

  • Aprende a manejar otros tipos de datos: Asegúrate de entender cómo SUM y AVG funcionan con diferentes tipos de datos, como fechas o cadenas.
  • Practica en proyectos reales: Aplica tus conocimientos en conjuntos de datos reales para obtener una mejor comprensión de cómo estos conceptos se aplican en el mundo real.
  • Explora funciones avanzadas: Una vez que te sientas cómodo con SUM y AVG, avanza a funciones más complejas como COUNT, MIN, MAX, entre otras.

Siguiendo estas pautas, podrás aplicar de manera efectiva las funciones de agregación SUM y AVG en tus proyectos de ciencia de datos.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).