Hessische Matrix: Ein Leitfaden zu Derivaten zweiter Ordnung in der Optimierung und darüber hinaus

Die Rolle der Hess'schen Matrix in der Multivariablenrechnung und Optimierung verstehen. Hier erfährst du, wie man damit Krümmungen analysiert, kritische Punkte findet und Algorithmen beim maschinellen Lernen anleitet.

Aktualisierte 16. Juni 2025 · 5 Min. Lesezeit

Wenn wir über Optimierung, Modelltraining oder das Verständnis der Krümmung einer Verlustfläche sprechen, kommen uns normalerweise Kostenfunktionen und Gradienten in den Sinn. Während die Kostenfunktion erklärt, wie gut unser Modell abschneidet, zeigt der Gradient, also seine erste Ableitung, in die Richtung der steilsten Veränderung, um den Verlust zu verringern. Aber Steigungen sagen uns nur etwas über die Neigung und nicht darüber, wie sich die Neigung selbst verändert.

An dieser Stelle wird die oft übersehene Hessische Matrix wichtig. Es handelt sich um eine quadratische Matrix partieller Ableitungen zweiter Ordnung einer skalaren Funktion, die die Entwicklung des Gradienten erfasst und die Krümmung der Verlustfläche aufzeigt. In den Datenwissenschaften ist sie wichtig für fortgeschrittene Optimierungsalgorithmen, Modelldiagnosen sowie für die Bewertung der Stabilität und Konvergenz von Machine-Learning-Modellen.

Die Hessian-Matrix verallgemeinert das Konzept der zweiten Ableitung von einvariablen Funktionen auf multivariable Kontexte. Sie kodiert Informationen über die lokale Krümmung einer Funktion, um zu quantifizieren, wie sich die Funktion in der Nähe eines bestimmten Punktes krümmt oder krümmt. Es hilft bei der Analyse kritischer Punkte, wie Minima, Maxima und Sattelpunkte, und leitet fortgeschrittene numerische Optimierungstechniken an.

In diesem Artikel geht es darum, die Hessische Matrix zu verstehen, die dazu beiträgt, wie sich Optimierungsalgorithmen verhalten und wie schnell sie konvergieren. Sie ist besonders nützlich, wenn du mit komplexen Modellen arbeitest, die viele Variablen enthalten. Für diejenigen, die mit Gradientenvektoren und Jacobimatrizen vertraut sind, ist die Hessian der nächste Schritt. Sie sagt dir, wie sich Funktionen im hochdimensionalen Raum verhalten.

Was ist die Hessische Matrix?

Sieh dir diese Gleichung alszweifach differenzierbare skalare Funktion an:

Das bedeutet, dass diese Funktion zweimal differenziert werden kann und eine einzelnele Zahl zurückgibt. Die hessische Matrix von f( _Hf(x)) ist eine n x n Quadratmatrix, die alle partiellen Ableitungen zweiter Ordnung von f enthält.

Formal ist jedes Element der Hessischen Matrix wie folgt definiert:

Das bedeutet, dass die Hessian uns sagt, wie sich der Gradient (die erste Ableitung) einer Funktion in Bezug auf jede Eingangsvariable ändert.

Wenn alle zweiten partiellen Ableitungen von f in der Umgebung eines Punktes stetig sind, besagt das Clairaut-Theorem (auch Schwarz-Theorem genannt), dass die gemischten partiellen Ableitungen gleich sind, d.h. die Reihenfolge der Differenzierung spielt keine Rolle:

Diese Symmetrieeigenschaft bedeutet, dass die hessische Matrix in solchen Fällen symmetrisch ist.

Wichtig ist, dass die Hessian-Matrix nur für skalare Funktionen definiert ist, d.h. für Funktionen, die eine einzige Zahl zurückgeben. Wenn du mit vektorwertigen Funktionen arbeitest, zum Beispiel so:

dann erstreckt sich das Konzept der zweiten Ableitung auf eine Tensor dritter Ordnung und nicht auf eine Matrix. Dieser Tensor erfasst, wie sich jede Ausgangskomponente von F mit jedem Paar von Eingängen verändert.

Sei ^Rn -> R eine zweifach differenzierbare skalarwertige Funktion. Die Hessische Matrix von f ist die n x n Matrix, die wie folgt definiert ist:

Jedes Element _Hij ist die zweite partielle Ableitung:

Beispiel für eine hessische Matrix

Betrachte die Funktion:

Partielle Ableitungen erster Ordnung:

Partielle Ableitungen zweiter Ordnung:

hessische Matrix

Auswerten bei (x,y) = (1,1)

Diskriminierungsmerkmal

Eine negative Diskriminante bedeutet, dass der kritische Punkt ein Sattelpunkt ist. Schau dir die Sattelpunkttechnik in unseremrse, Introduction to Optimization in Python, an, um praktische Anwendungen der Hessian zu lernen .

Hier ist das gleiche Beispiel in Python implementiert:

import sympy as sp

x, y = sp.symbols('x y')
f = x**3 - 2*x*y - y**6

# Compute gradient
grad_f = [sp.diff(f, var) for var in (x, y)]

# Compute Hessian
hessian_f = sp.hessian(f, (x, y))

# Evaluate at point (1,1)
eval_hessian = hessian_f.subs({x: 1, y: 1})
determinant = eval_hessian.det()

print("Gradient:")
sp.pprint(grad_f)
print("")
print("Hessian matrix:")
sp.pprint(hessian_f)
print("")
print("Hessian at (1,1):")
sp.pprint(eval_hessian)
print("")
print("Discriminant:", determinant)

Dieser Code verwendet die symbolische Differenzierung, um die Hessian-Matrix zu berechnen und sie an einem bestimmten Punkt auszuwerten. Tools wie SymPy dienen als praktischer "Hessian-Matrix-Rechner" sowohl für die Ausbildung als auch für angewandte Forschungszwecke.

Diskriminanztest und zweite Ableitung

Der Test der zweiten Ableitung in mehreren Dimensionen klassifiziert kritische Punkte mithilfe der Hessischen Matrix:

_X0 sei ein kritischer Punkt, an dem diesder Fall ist.

Lass den Hessischen

Die Interpretation hängt von der Bestimmtheit des Hessischen Wertes ab:

Positiv definite (alle Eigenwerte > 0): _X0 ist ein lokales Minimum.
Negativ definite (alle Eigenwerte < 0): _X0 ist ein lokales Maximum.
Unbestimmt (Eigenwerte mit gemischtem Vorzeichen): _X0 ist ein Sattelpunkt.
Singular (Null-Determinante): Der Test ist nicht aussagekräftig.

Lass uns das anhand von Beispielen dieser vier Fälle verstehen:

import numpy as np
import matplotlib.pyplot as plt
from sympy import symbols, diff, hessian, lambdify

# Define symbols
x, y = symbols('x y')

# List of 4 functions for different discriminant cases
functions = [
    ("x**2 + y**2", "Positive definite (local minimum)"),
    ("-x**2 - y**2", "Negative definite (local maximum)"),
    ("x**2 - y**2", "Indefinite (saddle point)"),
    ("x**4 + y**4", "Zero determinant (inconclusive)")
]

# Prepare plots
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
axes = axes.ravel()

for i, (func_str, title) in enumerate(functions):
    f = eval(func_str)
    
    # Compute gradients and Hessian
    fx = diff(f, x)
    fy = diff(f, y)
    H = hessian(f, (x, y))
    
    # Evaluate Hessian at (0,0) (critical point for all these functions)
    H0 = H.subs({x: 0, y: 0})
    det_H0 = H0.det()
    fxx0 = H0[0, 0]
    
    # Classification
    if det_H0 > 0 and fxx0 > 0:
        classification = "Local Minimum"
    elif det_H0 > 0 and fxx0 < 0:
        classification = "Local Maximum"
    elif det_H0 < 0:
        classification = "Saddle Point"
    else:
        classification = "Inconclusive"

    # Prepare function for plotting
    f_lamb = lambdify((x, y), f, 'numpy')
    X, Y = np.meshgrid(np.linspace(-2, 2, 100), np.linspace(-2, 2, 100))
    Z = f_lamb(X, Y)

    # Plot
    ax = axes[i]
    cp = ax.contourf(X, Y, Z, levels=50, cmap='coolwarm')
    ax.set_title(f"{title}\n{func_str}\nDet(H)={det_H0}, fxx={fxx0} → {classification}")
    ax.plot(0, 0, 'ko')  # critical point
    fig.colorbar(cp, ax=ax)

plt.tight_layout()
plt.show()

Im obigen Konturdiagramm steigt die Höhe von "Blau", dem niedrigsten, bis zu "Rot", dem höchsten.

Dieser Test ist eine Erweiterung des Tests der zweiten Ableitung für Funktionen mit einer einzigen Variablen und wird zusammen mit Themen wie Taylorreihen und konvexer Optimierung diskutiert.

Die Hessische Matrix in der Optimierung

Die Hessian-Matrix entsteht natürlich bei der Taylor-Erweiterung zweiter Ordnungeiner skalaren Funktion:

Diese quadratische Annäherung ermöglicht es Newton-Methoden, kritische Punkte effizient zu finden. Die Newton-Methode aktualisiert die Variablen entsprechend:

In hochdimensionalen Umgebungen kann die Berechnung und Speicherung der vollständigen Hessian sehr rechenintensiv sein. Aus diesem Grund approximieren Quasi-Newton-Methoden wie BFGS und L-BFGS die Hessian iterativ mit Gradientendifferenzen.

Außerdem kann das Hessian-Vektorprodukt _Hv genähert werden, ohne dass die vollständige Matrix mit Hilfe von finiten Differenzen berechnet werden muss:

Diese Annäherung ist besonders nützlich in Deep Learning-Frameworks, die die automatische Differenzierung nutzen.

Anwendungen in maschinellem Lernen und Datenwissenschaft

Beim maschinellen Lernen gibt die Hessische Matrix Aufschluss über die Krümmung der Verlustlandschaft:

In neuronalen Netzen kann die Analyse der Hessian das Vorhandensein von Sattelpunkten und flachen Regionen aufdecken.
Bei konvexen Optimierungsproblemen hilft der Hessian bei der Überprüfung der Konvexität und leitet die Löser zweiter Ordnung an.
Bei Feinabstimmungsmodellen hilft die Kenntnis der Hessischen Kurve dabei, die Lernraten auf der Grundlage der lokalen Krümmung anzupassen.

Über die Optimierung hinaus wird die Hessian in:

Statistische Diagnosen (z. B. die Fisher-Informationsmatrix bei der Maximum-Likelihood-Schätzung).
Computer Vision, wie der Determinant of Hessian (DoH) Blob-Detektor, wird für die Merkmalserkennung verwendet.
Molekulardynamik, insbesondere in der Normalmodenanalyse für Schwingungsspektren.

Das Verständnis der Hessian ermöglicht es Praktikern, über den Gradientenabstieg hinauszugehen und anspruchsvollere Algorithmen wie BFGS anzuwenden, die in Kursen wie Machine Learning Fundamentals in Python verwendet werden. Diese Techniken basieren auf fortgeschrittenen Kalkulationsthemen wie Taylorreihen und Matrixalgebra.

Fazit

Die Hessian-Matrix enthält Informationen zweiter Ordnung über skalare Funktionen und bietet einen umfangreichen Rahmen für die Analyse von Krümmungen, die Identifizierung kritischer Punkte und die Lösung von Optimierungsproblemen. Während Gradienten die Richtung vorgeben, verfeinert die Hessian das Verständnis von Form und Schärfe, insbesondere bei hochdimensionalen Problemen, die beim maschinellen Lernen häufig auftreten.

Für Praktiker, die bereits mit Jacobianern und Gradienten vertraut sind, bietet die Beherrschung der Hessian einen vollständigeren Überblick über das Verhalten des Algorithmus und die Struktur des Problems.

Author

Vidhi Chugh

Was ist die Hessische Matrix und warum ist sie bei der Optimierung wichtig?

Wie unterscheidet sich die Hessian von der Steigung und der Jakobi?

Wann ist die hessische Matrix symmetrisch?

Wie wird die Hessian verwendet, um kritische Punkte zu klassifizieren?

Kann die Hessian mit Python berechnet und visualisiert werden?

Themen

Datenwissenschaft

Lernen mit DataCamp

Lernpfad

Datenbearbeitung in Python

0 Min.

Mit Pandas wird die Datenbearbeitung zum Kinderspiel. Du lernst, wie du Daten in DataFrames umwandeln, sortieren und filtern kannst, damit du sie schnell analysieren kannst.

Siehe Details

Kurs starten

Kurs

Unüberwachtes Lernen in Python

4 Std.

166.8K

Nutze scikit-learn und scipy, um unbeschriftete Daten zu clustern, zu transformieren, zu visualisieren und in Erkenntnisse zu überführen.

Siehe Details

Kurs starten

Kurs

Linear Algebra for Data Science in R

4 Std.

19.3K

This course is an introduction to linear algebra, one of the most important mathematical topics underpinning data science.

Siehe Details

Kurs starten

Verwandt

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.

Zoumana Keita

15 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigen Mehr anzeigen

Was ist die Hessische Matrix?

Beispiel für eine hessische Matrix

Partielle Ableitungen erster Ordnung:

Partielle Ableitungen zweiter Ordnung:

hessische Matrix

Auswerten bei (x,y) = (1,1)

Diskriminierungsmerkmal

Diskriminanztest und zweite Ableitung

Die Hessische Matrix in der Optimierung

Anwendungen in maschinellem Lernen und Datenwissenschaft

Fazit

FAQs

Wann ist die hessische Matrix symmetrisch?

Wie wird die Hessian verwendet, um kritische Punkte zu klassifizieren?

Kann die Hessian mit Python berechnet und visualisiert werden?

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Top 30 Generative KI Interview Fragen und Antworten für 2024

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

2022-2023 DataCamp Classrooms Jahresbericht

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Datenbearbeitung in Python

Unüberwachtes Lernen in Python

Linear Algebra for Data Science in R

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Top 30 Generative KI Interview Fragen und Antworten für 2024

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

2022-2023 DataCamp Classrooms Jahresbericht

Datenbearbeitung in Python