Redes neuronales desde cero, Unidad 2 — La neurona artificial, 2.2 — Funciones de activación · 13/01/2026

ReLU y variantes

Introducción

Las funciones de activación son un componente fundamental en la arquitectura de redes neuronales. En particular, la función ReLU (Rectified Linear Unit) ha revolucionado el campo del aprendizaje profundo debido a su simplicidad y eficiencia en mitigar el problema de saturación y mejorar la convergencia durante el entrenamiento. Sin embargo, existen variantes que buscan mejorar aún más las capacidades de ReLU y abordar sus limitaciones.

Explicación principal con ejemplos

ReLU

La función ReLU es definida como:

\[ \text{ReLU}(x) = \max(0, x) \]

Esto significa que cualquier entrada negativa se clippa a cero, mientras que las entradas positivas pasan sin cambios. La gráfica de la función ReLU se muestra a continuación:

import matplotlib.pyplot as plt
import numpy as np

def relu(x):
    return np.maximum(0, x)

x = np.linspace(-10, 10, 400)
y = relu(x)

plt.plot(x, y)
plt.title("Función ReLU")
plt.xlabel("Entrada (x)")
plt.ylabel("Salida (ReLU(x))")
plt.grid(True)
plt.show()

Variantes de ReLU

Existen varias variantes que buscan mejorar las características del ReLU original.

1. PReLU (Parametrized ReLU)

PReLU introduce una pendiente no cero para entradas negativas, lo que puede ayudar a prevenir el problema de saturación. La función PReLU se define como:

\[ \text{PReLU}(x) = \max(0, x) + \alpha \min(0, x) \]

Donde $\alpha$ es un parámetro adicional que se aprende durante la entrenabilidad.

import torch

class PReLULayer(torch.nn.Module):
    def __init__(self):
        super(PReLULayer, self).__init__()
        self.alpha = torch.nn.Parameter(torch.Tensor([0.25]))

    def forward(self, x):
        return torch.max(0.0, x) + self.alpha * torch.min(0.0, x)

# Ejemplo de uso
prelu_layer = PReLULayer()
x = torch.tensor([-1., 0., 1.], requires_grad=True)
output = prelu_layer(x)
output.backward(torch.ones_like(output))
print("Output:", output)
print("Gradient:", x.grad)

2. Leaky ReLU

Leaky ReLU es una variante directa de ReLU que introduce un pequeño gradiente para entradas negativas, lo que puede ayudar a prevenir la saturación. Se define como:

\[ \text{LeakyReLU}(x) = \max(0.01x, x) \]

import torch

class LeakyReLULayer(torch.nn.Module):
    def forward(self, x):
        return torch.max(0.01 * x, x)

# Ejemplo de uso
leaky_relu_layer = LeakyReLULayer()
x = torch.tensor([-1., 0., 1.], requires_grad=True)
output = leaky_relu_layer(x)
output.backward(torch.ones_like(output))
print("Output:", output)
print("Gradient:", x.grad)

3. Parametric ReLU (PReLU)

Parametric ReLU, similar a PReLU, permite que $\alpha$ sea aprendido en lugar de ser un parámetro fijo.

# Ejemplo de uso con PReLU en PyTorch
prelu_layer = torch.nn.PReLU()
x = torch.tensor([-1., 0., 1.], requires_grad=True)
output = prelu_layer(x)
print("Output:", output)

4. ELU (Exponential Linear Unit)

ELU es una variante que introduce un pequeño valor positivo para entradas negativas, lo que puede ayudar a prevenir la saturación y mejorar la convergencia.

\[ \text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases} \]

import torch

class ELULayer(torch.nn.Module):
    def __init__(self, alpha=1.0):
        super(ELULayer, self).__init__()
        self.alpha = alpha

    def forward(self, x):
        return torch.where(x > 0, x, self.alpha * (torch.exp(x) - 1))

# Ejemplo de uso
elu_layer = ELULayer()
x = torch.tensor([-1., 0., 1.], requires_grad=True)
output = elu_layer(x)
print("Output:", output)

Errores típicos / trampas

1. Saturación

La saturación en ReLU ocurre cuando las neuronas se clippan a cero y dejan de aprender. Esto puede llevar a problemas de convergencia durante el entrenamiento.

2. Problema de aprendizaje inestable

Variaciones como PReLU pueden introducir parámetros adicionales, lo que puede hacer que el problema de aprendizaje sea más instável o difícil de resolver.

3. No normalización

El uso incorrecto de funciones de activación sin considerar su impacto en la representación y convergencia de las redes puede llevar a malas predicciones y entrenamiento inestable.

Checklist accionable

Entiende el propósito de cada función: ReLU, PReLU, Leaky ReLU, ELU.
Implementa cada función en tu código:

ReLU
PReLU o Parametric ReLU
Leaky ReLU
ELU

Ajusta los parámetros: Experimenta con diferentes valores de $\alpha$ para ver su impacto.
Elije la función adecuada basándote en el tipo de problema y la arquitectura de la red.
Monitorea el entrenamiento: Verifica que las neuronas no se estén saturando a cero.

Cierre con "Siguientes pasos"

Siguientes pasos

Integrar funciones de activación en tu código y observa su impacto en el rendimiento.
Explora más profundamente las variantes de ReLU y elige la que mejor se ajuste a tus necesidades específicas.
Practica con diferentes datasets para ver cómo cada función de activación afecta la convergencia y precisión.

Siguiendo estos pasos, podrás mejorar significativamente los resultados de tu red neuronal, abordando problemas comunes como la saturación y mejorando la capacidad del modelo de aprender.

ReLU y variantes

ReLU y variantes

Introducción

Explicación principal con ejemplos

ReLU

Variantes de ReLU

1. PReLU (Parametrized ReLU)

2. Leaky ReLU

3. Parametric ReLU (PReLU)

4. ELU (Exponential Linear Unit)

Errores típicos / trampas

1. Saturación

2. Problema de aprendizaje inestable

3. No normalización

Checklist accionable

Cierre con "Siguientes pasos"

Siguientes pasos

Contacta e inscríbete

Contacto