Matriz Hessiana: Um guia para derivados de segunda ordem em otimização e além

Compreender o papel da matriz Hessiana no cálculo multivariável e na otimização. Saiba como ele é usado para analisar a curvatura, localizar pontos críticos e orientar algoritmos em machine learning.

Atualizado 16 de jun. de 2025 · 5 min lido

Quando falamos de otimização, treinamento de modelos ou compreensão da curvatura de uma superfície de perda, geralmente nos vêm à mente funções de custo e gradientes. Embora a função de custo explique o desempenho do nosso modelo, o gradiente, que é sua primeira derivada, aponta na direção da mudança mais acentuada para reduzir a perda. Mas os gradientes nos informam apenas a inclinação e não como essa inclinação muda.

É nesse ponto que a matriz Hessiana, frequentemente negligenciada, torna-se importante. É uma matriz quadrada de derivadas parciais de segunda ordem de uma função de valor escalar que captura como o gradiente evolui, revelando a curvatura da superfície de perda. Na ciência de dados, ela se torna importante em tarefas que envolvem algoritmos de otimização avançados, diagnósticos de modelos, bem como para avaliar a estabilidade e a convergência de modelos de machine learning.

A matriz Hessiana generaliza o conceito da segunda derivada de funções de variável única para contextos multivariáveis. Ele codifica informações sobre a curvatura local de uma função para quantificar como a função se dobra ou se curva perto de um determinado ponto. Ele ajuda a analisar pontos críticos, como mínimos, máximos e pontos de sela, e orienta técnicas avançadas de otimização numérica.

O foco deste artigo é entender a matriz Hessiana, que ajuda a entender como os algoritmos de otimização se comportam e com que rapidez eles convergem. É particularmente útil ao lidar com modelos complexos que envolvem muitas variáveis. Para aqueles que estão familiarizados com vetores de gradiente e matrizes Jacobianas, o Hessiano é a próxima etapa. Ele informa a você como as funções se comportam no espaço de alta dimensão.

O que é a matriz Hessiana?

Dê uma olhada nessa equação comouma função escalar com valor duas vezes diferenciável:

Isso significa que essa função pode ser diferenciada duas vezes e retorna um número únicole. A matriz Hessiana de f, denominada _Hf(x), é umamatriz quadrada n x n que contém todas as derivadas parciais de segunda ordem de f.

Formalmente, cada elemento da matriz Hessiana é definido como:

Isso significa que o Hessiano nos informa como o gradiente (primeira derivada) de uma função muda em relação a cada variável de entrada.

Se todas as segundas derivadas parciais de f forem contínuas em alguma vizinhança ao redor de um ponto, o teorema de Clairaut (também chamado de teorema de Schwarz) nos diz que as derivadas parciais mistas são iguais, ou seja, a ordem de diferenciação não importa:

Essa propriedade de simetria significa que a matriz Hessiana é simétrica nesses casos.

É importante ressaltar que a matriz Hessiana só é definida para funções com valor escalar, ou seja, as funções que retornam um único número. Ao lidar com funções de valor vetorial, você pode fazer o seguinte:

então o conceito da segunda derivada se estende a um tenso de terceira ordemr em vez de uma matriz. Esse tensor captura como cada componente de saída de F muda com cada par de entradas.

Seja ^Rn -> R uma função de valor escalar duas vezes diferenciável. A matriz Hessiana de f é a matriz n x n definida como:

Cada elemento _Hij é a segunda derivada parcial:

Exemplo de matriz Hessiana

Considere a função:

Derivados parciais de primeira ordem:

Derivados parciais de segunda ordem:

Matriz Hessiana

Avalie em (x,y) = (1,1)

Discriminante

Um discriminante negativo implica que o ponto crítico é um ponto de sela. Confira a técnica do ponto de sela em nosso curso, Introduction to Optimization in Python, para ensinar aplicações práticas do Hessiano.

Aqui está o mesmo exemplo implementado em Python:

import sympy as sp

x, y = sp.symbols('x y')
f = x**3 - 2*x*y - y**6

# Compute gradient
grad_f = [sp.diff(f, var) for var in (x, y)]

# Compute Hessian
hessian_f = sp.hessian(f, (x, y))

# Evaluate at point (1,1)
eval_hessian = hessian_f.subs({x: 1, y: 1})
determinant = eval_hessian.det()

print("Gradient:")
sp.pprint(grad_f)
print("")
print("Hessian matrix:")
sp.pprint(hessian_f)
print("")
print("Hessian at (1,1):")
sp.pprint(eval_hessian)
print("")
print("Discriminant:", determinant)

Esse código usa diferenciação simbólica para calcular a matriz Hessiana e avaliá-la em um ponto específico. Ferramentas como o SymPy servem como uma "calculadora de matriz Hessiana" prática para fins educacionais e de pesquisa aplicada.

Teste discriminante e de segunda derivada

O teste da segunda derivada em várias dimensões classifica os pontos críticos usando a matriz Hessiana:

Seja _X0 um ponto crítico em que issoé verdadeiro.

Seja o Hessiano

A interpretação depende da definição do Hessiano:

Definição positiva (todos os valores próprios > 0): _X0 é um mínimo local.
Definição negativa (todos os valores próprios < 0): _X0 é um máximo local.
Indefinido (valores próprios de sinal misto): _X0 é um ponto de sela.
Singular (determinante zero): O teste é inconclusivo.

Vamos entender isso com exemplos desses quatro casos:

import numpy as np
import matplotlib.pyplot as plt
from sympy import symbols, diff, hessian, lambdify

# Define symbols
x, y = symbols('x y')

# List of 4 functions for different discriminant cases
functions = [
    ("x**2 + y**2", "Positive definite (local minimum)"),
    ("-x**2 - y**2", "Negative definite (local maximum)"),
    ("x**2 - y**2", "Indefinite (saddle point)"),
    ("x**4 + y**4", "Zero determinant (inconclusive)")
]

# Prepare plots
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
axes = axes.ravel()

for i, (func_str, title) in enumerate(functions):
    f = eval(func_str)
    
    # Compute gradients and Hessian
    fx = diff(f, x)
    fy = diff(f, y)
    H = hessian(f, (x, y))
    
    # Evaluate Hessian at (0,0) (critical point for all these functions)
    H0 = H.subs({x: 0, y: 0})
    det_H0 = H0.det()
    fxx0 = H0[0, 0]
    
    # Classification
    if det_H0 > 0 and fxx0 > 0:
        classification = "Local Minimum"
    elif det_H0 > 0 and fxx0 < 0:
        classification = "Local Maximum"
    elif det_H0 < 0:
        classification = "Saddle Point"
    else:
        classification = "Inconclusive"

    # Prepare function for plotting
    f_lamb = lambdify((x, y), f, 'numpy')
    X, Y = np.meshgrid(np.linspace(-2, 2, 100), np.linspace(-2, 2, 100))
    Z = f_lamb(X, Y)

    # Plot
    ax = axes[i]
    cp = ax.contourf(X, Y, Z, levels=50, cmap='coolwarm')
    ax.set_title(f"{title}\n{func_str}\nDet(H)={det_H0}, fxx={fxx0} → {classification}")
    ax.plot(0, 0, 'ko')  # critical point
    fig.colorbar(cp, ax=ax)

plt.tight_layout()
plt.show()

No gráfico de contorno acima, a altura aumenta de "Azul", que é a mais baixa, para "Vermelho", que é a mais alta.

Esse teste é uma extensão do teste da segunda derivada para funções de variável única e é discutido juntamente com tópicos como séries de Taylor e otimização convexa.

A matriz Hessiana na otimização

A matriz Hessiana surge naturalmente naexpansão de Taylorde segunda ordemde uma função escalar:

Essa aproximação quadrática permite que os métodos do tipo Newton encontrem pontos críticos com eficiência. O método de Newton atualiza as variáveis de acordo com:

Em configurações de alta dimensão, o cálculo e o armazenamento do Hessiano completo podem ser computacionalmente caros. Por esse motivo, os métodos quase-Newton, como o BFGS e o L-BFGS, aproximam o Hessiano iterativamente usando diferenças de gradiente.

Além disso, o produto vetorial Hessiano _Hv pode ser aproximado sem calcular a matriz completa usando diferenças finitas:

Essa aproximação é particularmente útil em estruturas de aprendizagem profunda que aproveitam a diferenciação automática.

Aplicações em machine learning e ciência de dados

No machine learning, a matriz Hessiana fornece informações sobre a curvatura do cenário de perdas:

Em redes neurais, a análise do Hessiano pode revelar a presença de pontos de sela e regiões planas.
Em problemas de otimização convexa, o Hessian ajuda a verificar a convexidade e orienta os solucionadores de segunda ordem.
Nos modelos de ajuste fino, o conhecimento do Hessiano ajuda a adaptar as taxas de aprendizado com base na curvatura local.

Além da otimização, o Hessiano é usado em:

Diagnósticos estatísticos (por exemplo, matriz de informações de Fisher na estimativa de máxima verossimilhança).
A visão computacional, como o detector de bolhas Determinant of Hessian (DoH), é usada para a detecção de recursos.
Dinâmica molecular, especialmente em análise de modo normal para espectros vibracionais.

Ao compreender o Hessiano, você pode ir além da descida de gradiente e aplicar algoritmos mais sofisticados, como o BFGS, usado em cursos como o Machine Learning Fundamentals in Python. Essas técnicas dependem de tópicos avançados de cálculo, como séries de Taylor e álgebra matricial.

Conclusão

A matriz Hessiana encapsula informações de segunda ordem sobre funções com valor escalar e fornece uma estrutura rica para analisar a curvatura, identificar pontos críticos e resolver problemas de otimização. Enquanto os gradientes orientam a direção, o Hessiano refina a compreensão da forma e da nitidez, especialmente em problemas de alta dimensão comuns no machine learning.

Para os profissionais que já estão familiarizados com jacobianos e gradientes, o domínio do Hessiano oferece uma visão mais completa do comportamento do algoritmo e da estrutura do problema.

Author

Vidhi Chugh

O que é a matriz Hessiana e por que ela é importante na otimização?

Qual é a diferença entre o Hessiano e o gradiente e o Jacobiano?

Quando a matriz Hessiana é simétrica?

Como o Hessiano é usado para classificar os pontos críticos?

Você pode calcular e visualizar o Hessiano usando Python?

Tópicos

Ciência de dados

Aprenda com a DataCamp

Programa

Manipulação de dados Em Python

0 min

Elimine a dificuldade de manipulação de dados usando pandas. Você aprenderá a transformar, classificar e filtrar dados em DataFrames, prontos para uma análise rápida.

Ver detalhes

Iniciar curso

Curso

Aprendizado não supervisionado em Python

4 h

168.6K

Saiba como agrupar, transformar, visualizar e extrair insights de conjuntos de dados não rotulados usando o scikit-learn e o scipy.

Ver detalhes

Iniciar curso

Curso

Linear Algebra for Data Science in R

4 h

19.4K

This course is an introduction to linear algebra, one of the most important mathematical topics underpinning data science.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

A maldição da dimensionalidade no aprendizado de máquina: Desafios, impactos e soluções

Explore a maldição da dimensionalidade na análise de dados e no aprendizado de máquina, incluindo seus desafios, efeitos nos algoritmos e técnicas como PCA, LDA e t-SNE para combatê-la.

Abid Ali Awan

7 min

Tutorial

Decomposição de QR para machine learning

Aprenda sobre a decomposição QR, a técnica de fatoração de matriz que decompõe a matriz A no produto de uma matriz ortogonal Q e uma matriz triangular superior R. Pratique o processo de Gram-Schmidt na programação em R.

Josef Waples

Tutorial

Entendendo a assimetria e a curtose e como traçá-las

Um guia visual abrangente sobre assimetria/curtose e como elas afetam as distribuições e, por fim, seu projeto de ciência de dados.

Bex Tuychiev

Tutorial

Guia do cientista de dados para processamento de sinais

Descubra insights acionáveis ocultos em dados de sinais complexos filtrando ruídos, escolhendo visualizações apropriadas, encontrando padrões no domínio do tempo e da frequência e muito mais usando o processamento de sinais.

Amberle McKee

Tutorial

Otimização em Python: Técnicas, pacotes e práticas recomendadas

Este artigo ensina a você sobre otimização numérica, destacando diferentes técnicas. Ele discute os pacotes Python, como SciPy, CVXPY e Pyomo, e fornece um notebook DataLab prático para você executar exemplos de código.

Kurtis Pykes

Tutorial

Introdução a modelos não lineares e percepções usando o R

Descubra as complexidades dos modelos não lineares em comparação com os modelos lineares. Saiba mais sobre suas aplicações, limitações e como ajustá-las usando conjuntos de dados do mundo real.

Somil Asthana

Ver mais Ver mais

O que é a matriz Hessiana?

Exemplo de matriz Hessiana

Derivados parciais de primeira ordem:

Derivados parciais de segunda ordem:

Matriz Hessiana

Avalie em (x,y) = (1,1)

Discriminante

Teste discriminante e de segunda derivada

A matriz Hessiana na otimização

Aplicações em machine learning e ciência de dados

Conclusão

Perguntas frequentes

Quando a matriz Hessiana é simétrica?

Como o Hessiano é usado para classificar os pontos críticos?

Você pode calcular e visualizar o Hessiano usando Python?

A maldição da dimensionalidade no aprendizado de máquina: Desafios, impactos e soluções

Decomposição de QR para machine learning

Entendendo a assimetria e a curtose e como traçá-las

Guia do cientista de dados para processamento de sinais

Otimização em Python: Técnicas, pacotes e práticas recomendadas

Introdução a modelos não lineares e percepções usando o R

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Manipulação de dados Em Python

Aprendizado não supervisionado em Python

Linear Algebra for Data Science in R

A maldição da dimensionalidade no aprendizado de máquina: Desafios, impactos e soluções

Decomposição de QR para machine learning

Entendendo a assimetria e a curtose e como traçá-las

Guia do cientista de dados para processamento de sinais

Otimização em Python: Técnicas, pacotes e práticas recomendadas

Introdução a modelos não lineares e percepções usando o R

Manipulação de dados Em Python