Machine Learning clásico, Unidad 2 — Regresión: predecir valores numéricos, 2.1 — Regresión lineal · 13/01/2026

Intuición geométrica

Intuición geométrica de la Regresión Lineal

Introducción

La regresión lineal es una herramienta fundamental en machine learning clásico, especialmente cuando se trata de predecir valores numéricos. Este método permite modelar la relación entre una variable dependiente y una o más variables independientes utilizando un modelo matemático simple pero poderoso. A pesar de su simplicidad, es sorprendentemente efectivo para resolver problemas que requieren predicciones precisas en diversos campos como economía, ciencia de datos, y análisis de mercado.

Explicación principal con ejemplos

La regresión lineal se basa en la idea de ajustar una línea a un conjunto de puntos de datos para predecir valores numéricos. La intuición geométrica detrás de este proceso es la de encontrar la línea que minimiza la distancia total (por ejemplo, la suma del cuadrado de las distancias) entre los puntos y la línea ajustada.

Ejemplo matemático

Supongamos que tienes una base de datos con dos variables: el tiempo de estudio (X) y la calificación obtenida (Y). Queremos predecir la calificación basándonos en cuánto tiempo se ha estudiado. Podemos representar esto gráficamente.

import numpy as np
import matplotlib.pyplot as plt

# Generación de datos
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
Y = 4 + 3 * X + np.random.randn(100, 1)

# Visualización de los datos
plt.scatter(X, Y, color='blue')
plt.xlabel('Tiempo de estudio (h)')
plt.ylabel('Calificación obtenida')
plt.title('Relación entre tiempo de estudio y calificación')
plt.show()

En este ejemplo, X representa el tiempo de estudio y Y la calificación obtenida. Podemos visualizar estos datos en un gráfico donde cada punto es una combinación del tiempo de estudio y la calificación correspondiente.

Para ajustar una línea a estos puntos, utilizamos la ecuación de la recta:

\[ Y = \beta_0 + \beta_1 X \]

Donde:

\( \beta_0 \) es el término independiente o intercepto.
\( \beta_1 \) es la pendiente de la línea.

El objetivo es encontrar los valores óptimos para \( \beta_0 \) y \( \beta_1 \) que minimicen la suma del cuadrado de las distancias entre los puntos y la línea ajustada (el error cuadrático medio, MSE).