Matriz hessiana: Guía de las derivadas de segundo orden en la optimización y más allá

Comprender el papel de la matriz hessiana en el cálculo multivariable y la optimización. Aprende cómo se utiliza para analizar la curvatura, localizar puntos críticos y guiar algoritmos en machine learning.

Actualizado 16 jun 2025 · 5 min de lectura

Cuando hablamos de optimización, entrenamiento de modelos o comprensión de la curvatura de una superficie de pérdida, normalmente nos vienen a la mente las funciones de coste y los gradientes. Mientras que la función de coste explica el rendimiento de nuestro modelo, el gradiente, que es su primera derivada, apunta en la dirección del cambio más pronunciado para reducir la pérdida. Pero los gradientes sólo nos indican la pendiente y no cómo cambia esa pendiente en sí.

Aquí es donde cobra importancia la matriz hessiana, que a menudo se pasa por alto. Es una matriz cuadrada de derivadas parciales de segundo orden de una función de valor escalar que capta cómo evoluciona el gradiente, revelando la curvatura de la superficie de pérdida. En la ciencia de datos, adquiere importancia en tareas que implican algoritmos avanzados de optimización, diagnósticos de modelos, así como para evaluar la estabilidad y convergencia de los modelos de machine learning.

La matriz hessiana generaliza el concepto de segunda derivada de funciones de una sola variable a contextos multivariables. Codifica información sobre la curvatura local de una función para cuantificar cómo se curva o curva la función cerca de un punto determinado. Ayuda a analizar los puntos críticos, como los mínimos, los máximos y los puntos de silla, y guía las técnicas avanzadas de optimización numérica.

El objetivo de este artículo es comprender la matriz hessiana que ayuda a saber cómo se comportan los algoritmos de optimización y con qué rapidez convergen. Es especialmente útil cuando se trata de modelos complejos en los que intervienen muchas variables. Para quienes estén familiarizados con los vectores gradiente y las matrices jacobianas, el hessiano es el siguiente paso. Te dice cómo se comportan las funciones en el espacio de alta dimensión.

¿Qué es la matriz hessiana?

Considera esta ecuación comouna función escalar-valorada dos veces diferenciable:

Significa que esta función se puede diferenciar dos veces, y devuelve un número single. La matriz hessiana de f, denotada _Hf(x), es unamatriz cuadrada n x n que contiene todas las derivadas parciales de segundo orden de f.

Formalmente, cada elemento de la matriz hessiana se define como:

Esto significa que el hessiano nos dice cómo cambia el gradiente (primera derivada) de una función con respecto a cada variable de entrada.

Si todas las segundas derivadas parciales de f son continuas en alguna vecindad alrededor de un punto, el teorema de Clairaut (también llamado teorema de Schwarz) nos dice que las derivadas parciales mixtas son iguales, es decir, que el orden de diferenciación no importa:

Esta propiedad de simetría significa que la matriz hessiana es simétrica en esos casos.

Es importante señalar que la matriz hessiana sólo se define para las funciones de valor escalar, es decir, las funciones que devuelven un único número. Cuando se trata de funciones con valores vectoriales, así:

entonces el concepto de segunda derivada se extiende a una tensor de tercer orden en lugar de a una matriz. Este tensor capta cómo cambia cada componente de salida de F con cada par de entradas.

Sea ^Rn -> R una función escalar-valorada dos veces diferenciable. Lamatriz Hessiana de f es la matriz n x n definida como:

Cada elemento _Hij es la segunda derivada parcial:

Ejemplo de matriz hessiana

Considera la función:

Derivadas parciales de primer orden:

Derivadas parciales de segundo orden:

Matriz hessiana

Evalúa en (x,y) = (1,1)

Discriminante

Un discriminante negativo implica que el punto crítico es un punto de silla de montar. Echa un vistazo a la técnica del punto de silla en nuestro cursorse, Introducción a la optimización en Python, para aprender aplicaciones prácticas del hessiano.

Aquí tienes el mismo ejemplo implementado en Python:

import sympy as sp

x, y = sp.symbols('x y')
f = x**3 - 2*x*y - y**6

# Compute gradient
grad_f = [sp.diff(f, var) for var in (x, y)]

# Compute Hessian
hessian_f = sp.hessian(f, (x, y))

# Evaluate at point (1,1)
eval_hessian = hessian_f.subs({x: 1, y: 1})
determinant = eval_hessian.det()

print("Gradient:")
sp.pprint(grad_f)
print("")
print("Hessian matrix:")
sp.pprint(hessian_f)
print("")
print("Hessian at (1,1):")
sp.pprint(eval_hessian)
print("")
print("Discriminant:", determinant)

Este código utiliza la diferenciación simbólica para calcular la matriz hessiana y evaluarla en un punto concreto. Herramientas como SymPy sirven como una práctica "calculadora de matrices hessianas" tanto para fines educativos como de investigación aplicada.

Prueba discriminante y segunda derivada

La prueba de la segunda derivada en múltiples dimensiones clasifica los puntos críticos utilizando la matriz hessiana:

Sea _X0 sea un punto crítico en el que esto es cierto.

Sea el hessiano

La interpretación depende de la definitividad del hessiano:

Definitiva positiva (todos los valores propios > 0): _X0 es un mínimo local.
Negativamente definida (todos los valores propios < 0): _X0 es un máximo local.
Indefinida (valores propios de signo mixto): _X0 es un punto de silla de montar.
Singular (determinante cero): La prueba es no concluyente.

Comprendámoslo con ejemplos de estos cuatro casos:

import numpy as np
import matplotlib.pyplot as plt
from sympy import symbols, diff, hessian, lambdify

# Define symbols
x, y = symbols('x y')

# List of 4 functions for different discriminant cases
functions = [
    ("x**2 + y**2", "Positive definite (local minimum)"),
    ("-x**2 - y**2", "Negative definite (local maximum)"),
    ("x**2 - y**2", "Indefinite (saddle point)"),
    ("x**4 + y**4", "Zero determinant (inconclusive)")
]

# Prepare plots
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
axes = axes.ravel()

for i, (func_str, title) in enumerate(functions):
    f = eval(func_str)
    
    # Compute gradients and Hessian
    fx = diff(f, x)
    fy = diff(f, y)
    H = hessian(f, (x, y))
    
    # Evaluate Hessian at (0,0) (critical point for all these functions)
    H0 = H.subs({x: 0, y: 0})
    det_H0 = H0.det()
    fxx0 = H0[0, 0]
    
    # Classification
    if det_H0 > 0 and fxx0 > 0:
        classification = "Local Minimum"
    elif det_H0 > 0 and fxx0 < 0:
        classification = "Local Maximum"
    elif det_H0 < 0:
        classification = "Saddle Point"
    else:
        classification = "Inconclusive"

    # Prepare function for plotting
    f_lamb = lambdify((x, y), f, 'numpy')
    X, Y = np.meshgrid(np.linspace(-2, 2, 100), np.linspace(-2, 2, 100))
    Z = f_lamb(X, Y)

    # Plot
    ax = axes[i]
    cp = ax.contourf(X, Y, Z, levels=50, cmap='coolwarm')
    ax.set_title(f"{title}\n{func_str}\nDet(H)={det_H0}, fxx={fxx0} → {classification}")
    ax.plot(0, 0, 'ko')  # critical point
    fig.colorbar(cp, ax=ax)

plt.tight_layout()
plt.show()

En el gráfico de contorno anterior, la altura aumenta desde "Azul", que es la más baja, hasta "Rojo", que es la más alta.

Esta prueba es una ampliación de la prueba de la segunda derivada para funciones de una sola variable y se trata junto a temas como las series de Taylor y la optimización convexa.

La matriz hessiana en la optimización

La matriz hessiana surge de forma natural en la expansión de Taylor de segundo orden de una función escalar:

Esta aproximación cuadrática permite a los métodos de tipo Newton encontrar puntos críticos de forma eficaz. El método de Newton actualiza las variables según:

En entornos de alta dimensión, calcular y almacenar el hessiano completo puede ser costoso desde el punto de vista informático. Por eso, los métodos cuasi-Newton, como el BFGS y el L-BFGS, aproximan el hessiano iterativamente mediante diferencias de gradiente.

Además, el producto vectorial hessiano _Hv puede aproximarse sin calcular la matriz completa mediante diferencias finitas:

Esta aproximación es especialmente útil en los marcos de aprendizaje profundo que aprovechan la diferenciación automática.

Aplicaciones en machine learning y ciencia de datos

En machine learning, la matriz hessiana proporciona información sobre la curvatura del panorama de pérdidas:

En las redes neuronales, el análisis del hessiano puede revelar la presencia de puntos de silla y regiones planas.
En los problemas de optimización convexa, el hessiano ayuda a verificar la convexidad y guía a los solucionadores de segundo orden.
En los modelos de ajuste fino, el conocimiento del hessiano ayuda a adaptar los ritmos de aprendizaje en función de la curvatura local.

Más allá de la optimización, el hessiano se utiliza en:

Diagnósticos estadísticos (por ejemplo, la matriz de información de Fisher en la estimación de máxima verosimilitud).
La visión por ordenador, como el detector de manchas Determinante de Hessian (DoH), se utiliza para la detección de rasgos.
Dinámica molecular, especialmente en el análisis de modos normales para espectros vibracionales.

Comprender el hessiano permite a los profesionales ir más allá del descenso de gradiente y aplicar algoritmos más sofisticados como el BFGS, utilizado en cursos como Fundamentos del machine learning en Python. Estas técnicas dependen de temas de cálculo avanzado como las series de Taylor y el álgebra matricial.

Conclusión

La matriz hessiana encapsula información de segundo orden sobre funciones de valor escalar y proporciona un rico marco para analizar la curvatura, identificar puntos críticos y resolver problemas de optimización. Mientras que los gradientes guían la dirección, el hessiano refina la comprensión de la forma y la nitidez, especialmente en problemas de alta dimensión comunes en machine learning.

Para los profesionales que ya se sienten cómodos con los jacobianos y los gradientes, dominar el hessiano ofrece una visión más completa del comportamiento del algoritmo y de la estructura del problema.

Author

Vidhi Chugh

¿Qué es la matriz hessiana y por qué es importante en la optimización?

¿En qué se diferencian el hessiano del gradiente y el jacobiano?

¿Cuándo es simétrica la matriz hessiana?

¿Cómo se utiliza el hessiano para clasificar los puntos críticos?

¿Se puede calcular y visualizar el hessiano utilizando Python?

Temas

Ciencia de datos

Aprende con DataCamp

Programa

Manipulación de datos en Python

0 min

Elimina el dolor de la manipulación de datos utilizando pandas. Aprenderás a transformar, ordenar y filtrar datos en Cuadros de datos, listos para un análisis rápido.

Ver detalles

Comienza el curso

Curso

Aprendizaje no supervisado en Python

4 h

166.8K

Aprende a agrupar en clústeres, transformar, visualizar y extraer información de conjuntos de datos no etiquetados con scikit-learn y scipy.

Ver detalles

Comienza el curso

Curso

Linear Algebra for Data Science in R

4 h

19.3K

This course is an introduction to linear algebra, one of the most important mathematical topics underpinning data science.

Ver detalles

Comienza el curso

Relacionado

blog

La maldición de la dimensionalidad en el aprendizaje automático: Retos, repercusiones y soluciones

Explore la maldición de la dimensionalidad en el análisis de datos y el aprendizaje automático, incluidos sus retos, efectos en los algoritmos y técnicas como PCA, LDA y t-SNE para combatirla.

Abid Ali Awan

7 min

Tutorial

Matriz de correlaciones en Excel: Guía completa para crear e interpretar

Aprende el concepto estadístico de correlación, y sigue el cálculo e interpretación de correlaciones para un conjunto de datos de muestra, en un tutorial paso a paso.

Arunn Thevapalan

Tutorial

Comprender la asimetría y la curtosis y cómo trazarlas

Una completa guía visual sobre la asimetría/curtosis y cómo afectan a las distribuciones y, en última instancia, a tu proyecto de ciencia de datos.

Bex Tuychiev

Tutorial

Comprender la deriva de los datos y la deriva de los modelos: Detección de deriva en Python

Navegue por los peligros de la deriva de modelos y explore nuestra guía práctica para la supervisión de la deriva de datos.

Moez Ali

Tutorial

Descomposición QR para el aprendizaje automático

Conoce la descomposición QR, la técnica de factorización de matrices que descompone la matriz A en el producto de una matriz ortogonal Q y una matriz triangular superior R. Practica el proceso de Gram-Schmidt en programación R.

Josef Waples

Tutorial

Prueba Chi-cuadrado en hojas de cálculo

En este tutorial, aprenderás a realizar la prueba chi-cuadrado en hojas de cálculo.

Avinash Navlani

Ver más Ver más

¿Qué es la matriz hessiana?

Ejemplo de matriz hessiana

Derivadas parciales de primer orden:

Derivadas parciales de segundo orden:

Matriz hessiana

Evalúa en (x,y) = (1,1)

Discriminante

Prueba discriminante y segunda derivada

La matriz hessiana en la optimización

Aplicaciones en machine learning y ciencia de datos

Conclusión

Preguntas frecuentes

¿Cuándo es simétrica la matriz hessiana?

¿Cómo se utiliza el hessiano para clasificar los puntos críticos?

¿Se puede calcular y visualizar el hessiano utilizando Python?

La maldición de la dimensionalidad en el aprendizaje automático: Retos, repercusiones y soluciones

Matriz de correlaciones en Excel: Guía completa para crear e interpretar

Comprender la asimetría y la curtosis y cómo trazarlas

Comprender la deriva de los datos y la deriva de los modelos: Detección de deriva en Python

Descomposición QR para el aprendizaje automático

Prueba Chi-cuadrado en hojas de cálculo

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Manipulación de datos en Python

Aprendizaje no supervisado en Python

Linear Algebra for Data Science in R

La maldición de la dimensionalidad en el aprendizaje automático: Retos, repercusiones y soluciones

Matriz de correlaciones en Excel: Guía completa para crear e interpretar

Comprender la asimetría y la curtosis y cómo trazarlas

Comprender la deriva de los datos y la deriva de los modelos: Detección de deriva en Python

Descomposición QR para el aprendizaje automático

Prueba Chi-cuadrado en hojas de cálculo

Manipulación de datos en Python