Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

SQL para ciencia de datos, Unidad 12 — Mini-proyecto de análisis con SQL, 12.1 — Proyecto guiado completo ·

Dataset final analítico

Dataset final analítico

Introducción

En la última unidad de nuestro curso, nos enfocamos en la creación y preparación del dataset final analítico. Este paso es crucial porque define la calidad y precisión de los datos que se usarán para análisis avanzados, modelado predictivo y machine learning (ML). Un buen dataset analítico no solo facilita la vida a los analistas de datos, sino que también puede mejorar significativamente el rendimiento de cualquier modelo de ML. En esta unidad, aprenderemos cómo transformar nuestros datos brutos en un formato que esté listo para ser analizado.

Explicación principal con ejemplos

Transformación y agregación de datos

Para crear nuestro dataset final analítico, necesitamos combinar varias tablas y aplicar diversas funciones de agregación. Supongamos que estamos trabajando con un conjunto de datos sobre ventas en diferentes tiendas durante varios meses.

WITH sales_data AS (
    SELECT 
        store_id,
        DATE_TRUNC('month', sale_date) AS month,
        SUM(sale_amount) AS total_sales,
        COUNT(DISTINCT customer_id) AS unique_customers
    FROM 
        sales_table
    GROUP BY 
        store_id, DATE_TRUNC('month', sale_date)
),
customer_data AS (
    SELECT 
        customer_id,
        AVG(spending_power) OVER (PARTITION BY customer_id) AS avg_spending_power
    FROM 
        customers_table
)
SELECT 
    sd.store_id,
    sd.month,
    sd.total_sales,
    sd.unique_customers,
    cd.avg_spending_power
FROM 
    sales_data sd
JOIN 
    customer_data cd ON sd.customer_id = cd.customer_id;

En este ejemplo, creamos dos CTEs: sales_data y customer_data. El primer CTE agrega las ventas totales y los clientes únicos por mes y tienda. El segundo CTE calcula el gasto promedio por cliente basado en sus compras pasadas. Finalmente, unimos estos dos conjuntos de datos para obtener una vista completa del comportamiento de compra del cliente.

Errores típicos / trampas

  1. Duplicados y errores en la combinación: Asegúrate de que las combinaciones entre tablas sean precisas y no se creen duplicados innecesarios.
  2. Errores en los cálculos de agregación: Verifica siempre que tus funciones de agregación estén correctamente aplicadas a los grupos correctos para evitar resultados incorrectos.
  3. Problemas con JOINs: Los INNER JOINs pueden ser engañosos si no se tienen cuidados en la condición del JOIN, lo cual puede omitir datos importantes.

Checklist accionable

  1. Revisa las relaciones entre tablas:
  • Verifica que las claves primarias y foráneas estén correctamente definidas.
  1. Verifica la integridad de los datos:
  • Asegúrate de que no haya duplicados en tus datasets finales.
  1. Asegura el correcto uso de funciones de agregación:
  • Comprueba que las funciones de agregación estén aplicadas correctamente a cada grupo necesario.
  1. Valida la lógica del JOIN:
  • Asegúrate de que los JOINs están basados en claves relacionadas y no causan duplicados o omisiones.
  1. Revisa el rendimiento de las consultas:
  • Verifica que las consultas sean eficientes para evitar tiempos de ejecución innecesariamente largos.

Cierre con "Siguientes pasos"

Siguientes pasos

  1. Practica más: Crea tu propio dataset analítico utilizando diferentes conjuntos de datos y técnicas.
  2. Aprende sobre Pandas: Utiliza este dataset final para familiarizarte con el uso de pandas en Python, una herramienta esencial en la ciencia de datos.
  3. Avanza al machine learning: Una vez que hayas preparado tu dataset analítico, puedes seguir a través de nuestro curso de machine learning para aplicar tus habilidades prácticas.

Siguiendo estos pasos, podrás convertirte en un experto en la creación y preparación de datasets analíticos, lo cual es una habilidad valiosa en cualquier carrera en ciencia de datos.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).