Modelos de regresión, Unidad 2 — Regresión lineal simple, 2.1 — Modelo lineal básico · 13/01/2026

Recta de regresión

Introducción

La recta de regresión es una herramienta fundamental en el análisis de datos y predicción numérica. Es la base para entender cómo las variables dependientes responden a cambios en las variables independientes, lo que nos permite hacer pronósticos precisos basados en relaciones lineales. En este artículo exploraremos qué es exactamente una recta de regresión, cómo se ajusta y los errores comunes a evitar.

Explicación principal

Una recta de regresión es un modelo estadístico que describe la relación entre una variable dependiente (o respuesta) e independientes (o predictores). Matemáticamente, esta relación puede ser representada por la siguiente ecuación:

\[ y = \beta_0 + \beta_1 x + \epsilon \]

Donde:

\(y\) es el valor de la variable dependiente.
\(x\) son los valores de las variables independientes.
\(\beta_0\) es el intercepto (la intersección con el eje y).
\(\beta_1\) es la pendiente, que indica cómo cambia \(y\) por cada unidad de cambio en \(x\).
\(\epsilon\) representa el error o ruido no explicado.

La recta de regresión se ajusta a los datos observados utilizando el método de mínimos cuadrados. Este método busca minimizar la suma de los cuadrados de las diferencias entre los valores observados y los valores predichos por la recta, es decir:

\[ \sum (y_i - (\beta_0 + \beta_1 x_i))^2 \]

Para ilustrar esto, consideremos un conjunto de datos donde \(x\) representa el tiempo en años y \(y\) la altura en centímetros. Podríamos ajustar una recta a estos datos para predecir la altura basándonos en el tiempo.

import numpy as np
import matplotlib.pyplot as plt

# Datos de ejemplo
tiempo = [0, 2, 4, 6, 8, 10]
altura = [50, 52, 54, 57, 60, 63]

# Calcular la recta de regresión utilizando numpy
beta = np.polyfit(tiempo, altura, 1)
recta_de_regresion = beta[0]*np.array(tiempo) + beta[1]

plt.scatter(tiempo, altura, label='Datos observados')
plt.plot(tiempo, recta_de_regresión, color='red', label='Recta de regresión')
plt.xlabel('Tiempo (años)')
plt.ylabel('Altura (cm)')
plt.legend()
plt.show()

Errores típicos / trampas

Aunque la recta de regresión es una herramienta poderosa, existen varios errores comunes que los programadores y analistas de datos pueden cometer:

Extrapolación: Ajustar una recta fuera del rango de datos observados puede llevar a pronósticos poco precisos o erróneos. Por ejemplo, si ajustamos la recta para un conjunto de datos con \(x\) entre 0 y 10 años, no es seguro utilizarla para predecir altura en un adulto mayor.

Multicolinealidad: Si dos variables independientes están altamente correlacionadas, pueden causar problemas en el ajuste del modelo. Esto puede llevar a resultados inestables y errores en las estimaciones de los coeficientes.

Error de omisión: Ignorar variables importantes que influyen en la variable dependiente puede llevar al underfitting. Por ejemplo, si estamos prediciendo la altura basándonos solo en el tiempo, olvidamos factores como genética y nutrición, lo que podría hacer que nuestro modelo sea inexacto.

Overfitting: Ajustar un modelo demasiado complejo a los datos de entrenamiento puede hacerlo subir a ajustes no generalizables. Esto significa que el modelo se ajustará perfectamente a los datos de entrenamiento pero será ineficaz para pronosticar nuevos datos.

Ruido en los datos: Datos ruidosos o erróneos pueden afectar negativamente la precisión del ajuste. Es crucial limpiar y validar los datos antes de aplicar modelos de regresión.

Checklist accionable

Para asegurar que su modelo de recta de regresión esté bien ajustado, siga estos pasos:

Revisar las correlaciones: Verifique la relación lineal entre \(x\) e \(y\).
Validar el rango de \(x\): No extrapolar más allá del rango de datos observados.
Verificar la multicolinealidad: Utilice pruebas como el índice de tolerancia o el análisis de varianza condicional para detectar variables altamente correlacionadas.
Limpie los datos: Remueva valores extremos, datos erróneos y outliers.
Ajuste simple vs múltiple: Determine si necesitan ajustar una recta única (simple) o varias rectas simultáneamente (múltiple).
Evaluación del modelo: Use métricas como MAE, MSE y R² para evaluar la precisión del modelo.
Revisar los residuos: Analice los residuales con un gráfico de dispersión para detectar patrones no lineales o errores sistemáticos.

Siguientes pasos

Ahora que ha aprendido sobre rectas de regresión, es hora de avanzar a modelos más complejos. Aquí hay algunas sugerencias:

Explorar Regresión Múltiple: Ajuste modelos con múltiples variables independientes.
Investigar Regularización: Entienda cómo regularizar modelos para evitar overfitting.
Modelos no Lineales: Experimente con funciones no lineales y transformaciones de datos.

Siguiendo estos pasos, podrá construir modelos de regresión más precisos y generalizables en su trabajo.

Recta de regresión

Recta de regresión

Introducción

Explicación principal

Errores típicos / trampas

Checklist accionable

Siguientes pasos

Contacta e inscríbete

Contacto