Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Aprendizaje no supervisado, Unidad 6 — Reducción de dimensionalidad, 6.2 — PCA ·

Intuición geométrica

Intuición geométrica: Entendiendo la reducción de dimensionalidad con PCA

Introducción

La reducción de dimensionalidad es una técnica fundamental para manejar y analizar grandes conjuntos de datos. En particular, la Proyección de Componentes Principales (PCA) se utiliza ampliamente para simplificar los datos sin perder demasiada información relevante. Sin embargo, entender cómo funciona PCA no solo implica dominar sus matemáticas, sino también tener una sólida intuición geométrica que nos permita visualizar y comprender su comportamiento.

Explicación principal

PCA es una técnica de reducción de dimensionalidad que busca proyectar datos en un espacio de menor dimensión mientras se conservan las características principales del conjunto de datos. En términos geométricos, PCA puede visualizarse como la transformación de datos a través de un sistema de coordenadas optimizado para capturar la varianza más significativa.

Visualización 2D

Imagina que tienes una nube de puntos en un espacio bidimensional (2D). Cada punto representa una observación, y cada dimensión es una variable. PCA busca encontrar una nueva base de coordenadas (a menudo con dimensiones reducidas) que maximice la varianza proyectada.

import numpy as np
from sklearn.decomposition import PCA

# Generamos un conjunto de datos en 2D
np.random.seed(0)
X = np.random.rand(100, 2)

# Aplicamos PCA con dos componentes principales (mismo número que las dimensiones originales)
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print("Componentes principales:", pca.components_)
print("Varianza explicada por cada componente principal:", pca.explained_variance_ratio_)

En este ejemplo, X es una matriz de datos 100x2. pca.components_ muestran las direcciones (vectores unitarios) en el espacio original que capturan la mayor varianza en los datos. pca.explained_variance_ratio_ indica cuánta varianza se explica por cada componente principal.

Visualización 3D

Para una nube de puntos en un espacio tridimensional (3D), PCA busca proyectarlos a un espacio bidimensional o incluso unidimensional, siempre y cuando la mayoría de la varianza se mantenga. En términos geométricos, esto implica rotar y escalar los datos hasta que el eje mayor de la nube de puntos quede en una dirección específica.

Errores típicos / trampas

  1. Sobreinterpretación del PCA: Es común interpretar componentes principales con valores de varianza bajos como irrelevantes, lo cual es un error. Un componente principal con baja varianza puede aún contener información valiosa dependiendo del contexto.
  2. Ignorar la relación entre variables: PCA reduce dimensiones independientemente, sin considerar posibles relaciones entre las variables. Esto puede resultar en una pérdida de información relevante si las variables están correlacionadas.
  3. No validar el resultado: Sin validación externa o comparación con otros métodos, es difícil asegurarse de que la reducción de dimensionalidad realizada por PCA no esté distorsionando los datos.

Checklist accionable

  1. Validar la varianza explicada: Asegúrate de que el PCA explique suficiente varianza (por ejemplo, al menos 80%).
  2. Comprobar correlaciones entre variables: Identifica si las variables están altamente correlacionadas y considera aplicar PCA a grupos separados.
  3. Comparar con otros métodos: Utiliza técnicas como t-SNE o UMAP para confirmar los resultados del PCA.
  4. Validar internamente: Aplica PCA en un conjunto de datos separado para verificar si las componentes principales son consistentes.
  5. Visualizar los resultados: Crea gráficos bidimensionales o tridimensionales para visualizar cómo se proyectan los datos.

Siguientes pasos

  • Aprender más sobre PCA: Explora la teoría matemática detrás del PCA y sus variantes.
  • Practicar con datos reales: Aplica PCA en varios conjuntos de datos para mejorar tu comprensión práctica.
  • Explorar otras técnicas de reducción de dimensionalidad: Conoce las ventajas e inconvenientes de t-SNE, UMAP, y otras técnicas.

La intuición geométrica es clave para comprender cómo funciona PCA. Al aplicarlo con conciencia y cuidado, podrás aprovechar sus capacidades para simplificar tus datos sin perder información valiosa.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).