Direkt zum Inhalt

Hessische Matrix: Ein Leitfaden zu Derivaten zweiter Ordnung in der Optimierung und darüber hinaus

Die Rolle der Hess'schen Matrix in der Multivariablenrechnung und Optimierung verstehen. Hier erfährst du, wie man damit Krümmungen analysiert, kritische Punkte findet und Algorithmen beim maschinellen Lernen anleitet.
Aktualisierte 16. Juni 2025  · 5 Min. Lesezeit

Wenn wir über Optimierung, Modelltraining oder das Verständnis der Krümmung einer Verlustfläche sprechen, kommen uns normalerweise Kostenfunktionen und Gradienten in den Sinn. Während die Kostenfunktion erklärt, wie gut unser Modell abschneidet, zeigt der Gradient, also seine erste Ableitung, in die Richtung der steilsten Veränderung, um den Verlust zu verringern. Aber Steigungen sagen uns nur etwas über die Neigung und nicht darüber, wie sich die Neigung selbst verändert.

An dieser Stelle wird die oft übersehene Hessische Matrix wichtig. Es handelt sich um eine quadratische Matrix partieller Ableitungen zweiter Ordnung einer skalaren Funktion, die die Entwicklung des Gradienten erfasst und die Krümmung der Verlustfläche aufzeigt. In den Datenwissenschaften ist sie wichtig für fortgeschrittene Optimierungsalgorithmen, Modelldiagnosen sowie für die Bewertung der Stabilität und Konvergenz von Machine-Learning-Modellen.

Die Hessian-Matrix verallgemeinert das Konzept der zweiten Ableitung von einvariablen Funktionen auf multivariable Kontexte. Sie kodiert Informationen über die lokale Krümmung einer Funktion, um zu quantifizieren, wie sich die Funktion in der Nähe eines bestimmten Punktes krümmt oder krümmt. Es hilft bei der Analyse kritischer Punkte, wie Minima, Maxima und Sattelpunkte, und leitet fortgeschrittene numerische Optimierungstechniken an.

In diesem Artikel geht es darum, die Hessische Matrix zu verstehen, die dazu beiträgt, wie sich Optimierungsalgorithmen verhalten und wie schnell sie konvergieren. Sie ist besonders nützlich, wenn du mit komplexen Modellen arbeitest, die viele Variablen enthalten. Für diejenigen, die mit Gradientenvektoren und Jacobimatrizen vertraut sind, ist die Hessian der nächste Schritt. Sie sagt dir, wie sich Funktionen im hochdimensionalen Raum verhalten.

Was ist die Hessische Matrix?

Sieh dir diese Gleichung alszweifach differenzierbare skalare Funktion an:

Das bedeutet, dass diese Funktion zweimal differenziert werden kann und eine einzelnele Zahl zurückgibt. Die hessische Matrix von f( Hf(x)) ist eine n x n Quadratmatrix, die alle partiellen Ableitungen zweiter Ordnung von f enthält.

Formal ist jedes Element der Hessischen Matrix wie folgt definiert:

Das bedeutet, dass die Hessian uns sagt, wie sich der Gradient (die erste Ableitung) einer Funktion in Bezug auf jede Eingangsvariable ändert.

Wenn alle zweiten partiellen Ableitungen von f in der Umgebung eines Punktes stetig sind, besagt das Clairaut-Theorem (auch Schwarz-Theorem genannt), dass die gemischten partiellen Ableitungen gleich sind, d.h. die Reihenfolge der Differenzierung spielt keine Rolle:

Diese Symmetrieeigenschaft bedeutet, dass die hessische Matrix in solchen Fällen symmetrisch ist.

Wichtig ist, dass die Hessian-Matrix nur für skalare Funktionen definiert ist, d.h. für Funktionen, die eine einzige Zahl zurückgeben. Wenn du mit vektorwertigen Funktionen arbeitest, zum Beispiel so:

dann erstreckt sich das Konzept der zweiten Ableitung auf eine Tensor dritter Ordnung und nicht auf eine Matrix. Dieser Tensor erfasst, wie sich jede Ausgangskomponente von F mit jedem Paar von Eingängen verändert.

Sei Rn -> R eine zweifach differenzierbare skalarwertige Funktion. Die Hessische Matrix von f ist die n x n Matrix, die wie folgt definiert ist:

Jedes Element Hij ist die zweite partielle Ableitung:

Beispiel für eine hessische Matrix

Betrachte die Funktion:

Partielle Ableitungen erster Ordnung:

 

Partielle Ableitungen zweiter Ordnung:

hessische Matrix

Auswerten bei (x,y) = (1,1)

Diskriminierungsmerkmal

Eine negative Diskriminante bedeutet, dass der kritische Punkt ein Sattelpunkt ist. Schau dir die Sattelpunkttechnik in unseremrse, Introduction to Optimization in Python, an, um praktische Anwendungen der Hessian zu lernen .

Hier ist das gleiche Beispiel in Python implementiert:

import sympy as sp

x, y = sp.symbols('x y')
f = x**3 - 2*x*y - y**6

# Compute gradient
grad_f = [sp.diff(f, var) for var in (x, y)]

# Compute Hessian
hessian_f = sp.hessian(f, (x, y))

# Evaluate at point (1,1)
eval_hessian = hessian_f.subs({x: 1, y: 1})
determinant = eval_hessian.det()

print("Gradient:")
sp.pprint(grad_f)
print("")
print("Hessian matrix:")
sp.pprint(hessian_f)
print("")
print("Hessian at (1,1):")
sp.pprint(eval_hessian)
print("")
print("Discriminant:", determinant)

Dieser Code verwendet die symbolische Differenzierung, um die Hessian-Matrix zu berechnen und sie an einem bestimmten Punkt auszuwerten. Tools wie SymPy dienen als praktischer "Hessian-Matrix-Rechner" sowohl für die Ausbildung als auch für angewandte Forschungszwecke.

Diskriminanztest und zweite Ableitung

Der Test der zweiten Ableitung in mehreren Dimensionen klassifiziert kritische Punkte mithilfe der Hessischen Matrix:

X0 sei ein kritischer Punkt, an dem diesder Fall ist.

Lass den Hessischen

Die Interpretation hängt von der Bestimmtheit des Hessischen Wertes ab:

  • Positiv definite (alle Eigenwerte > 0): X0 ist ein lokales Minimum.
  • Negativ definite (alle Eigenwerte < 0): X0 ist ein lokales Maximum.
  • Unbestimmt (Eigenwerte mit gemischtem Vorzeichen): X0 ist ein Sattelpunkt.
  • Singular (Null-Determinante): Der Test ist nicht aussagekräftig.

Lass uns das anhand von Beispielen dieser vier Fälle verstehen:

import numpy as np
import matplotlib.pyplot as plt
from sympy import symbols, diff, hessian, lambdify

# Define symbols
x, y = symbols('x y')

# List of 4 functions for different discriminant cases
functions = [
    ("x**2 + y**2", "Positive definite (local minimum)"),
    ("-x**2 - y**2", "Negative definite (local maximum)"),
    ("x**2 - y**2", "Indefinite (saddle point)"),
    ("x**4 + y**4", "Zero determinant (inconclusive)")
]

# Prepare plots
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
axes = axes.ravel()

for i, (func_str, title) in enumerate(functions):
    f = eval(func_str)
    
    # Compute gradients and Hessian
    fx = diff(f, x)
    fy = diff(f, y)
    H = hessian(f, (x, y))
    
    # Evaluate Hessian at (0,0) (critical point for all these functions)
    H0 = H.subs({x: 0, y: 0})
    det_H0 = H0.det()
    fxx0 = H0[0, 0]
    
    # Classification
    if det_H0 > 0 and fxx0 > 0:
        classification = "Local Minimum"
    elif det_H0 > 0 and fxx0 < 0:
        classification = "Local Maximum"
    elif det_H0 < 0:
        classification = "Saddle Point"
    else:
        classification = "Inconclusive"

    # Prepare function for plotting
    f_lamb = lambdify((x, y), f, 'numpy')
    X, Y = np.meshgrid(np.linspace(-2, 2, 100), np.linspace(-2, 2, 100))
    Z = f_lamb(X, Y)

    # Plot
    ax = axes[i]
    cp = ax.contourf(X, Y, Z, levels=50, cmap='coolwarm')
    ax.set_title(f"{title}\n{func_str}\nDet(H)={det_H0}, fxx={fxx0} → {classification}")
    ax.plot(0, 0, 'ko')  # critical point
    fig.colorbar(cp, ax=ax)

plt.tight_layout()
plt.show()

Hessische Matrix in Python

Im obigen Konturdiagramm steigt die Höhe von "Blau", dem niedrigsten, bis zu "Rot", dem höchsten.

Dieser Test ist eine Erweiterung des Tests der zweiten Ableitung für Funktionen mit einer einzigen Variablen und wird zusammen mit Themen wie Taylorreihen und konvexer Optimierung diskutiert.

Die Hessische Matrix in der Optimierung

Die Hessian-Matrix entsteht natürlich bei der Taylor-Erweiterung zweiter Ordnungeiner skalaren Funktion:

Diese quadratische Annäherung ermöglicht es Newton-Methoden, kritische Punkte effizient zu finden. Die Newton-Methode aktualisiert die Variablen entsprechend:

In hochdimensionalen Umgebungen kann die Berechnung und Speicherung der vollständigen Hessian sehr rechenintensiv sein. Aus diesem Grund approximieren Quasi-Newton-Methoden wie BFGS und L-BFGS die Hessian iterativ mit Gradientendifferenzen.

Außerdem kann das Hessian-Vektorprodukt Hv genähert werden, ohne dass die vollständige Matrix mit Hilfe von finiten Differenzen berechnet werden muss:

Diese Annäherung ist besonders nützlich in Deep Learning-Frameworks, die die automatische Differenzierung nutzen.

Anwendungen in maschinellem Lernen und Datenwissenschaft

Beim maschinellen Lernen gibt die Hessische Matrix Aufschluss über die Krümmung der Verlustlandschaft:

  • In neuronalen Netzen kann die Analyse der Hessian das Vorhandensein von Sattelpunkten und flachen Regionen aufdecken.
  • Bei konvexen Optimierungsproblemen hilft der Hessian bei der Überprüfung der Konvexität und leitet die Löser zweiter Ordnung an.
  • Bei Feinabstimmungsmodellen hilft die Kenntnis der Hessischen Kurve dabei, die Lernraten auf der Grundlage der lokalen Krümmung anzupassen.

Über die Optimierung hinaus wird die Hessian in:

  • Statistische Diagnosen (z. B. die Fisher-Informationsmatrix bei der Maximum-Likelihood-Schätzung).
  • Computer Vision, wie der Determinant of Hessian (DoH) Blob-Detektor, wird für die Merkmalserkennung verwendet.
  • Molekulardynamik, insbesondere in der Normalmodenanalyse für Schwingungsspektren.

Das Verständnis der Hessian ermöglicht es Praktikern, über den Gradientenabstieg hinauszugehen und anspruchsvollere Algorithmen wie BFGS anzuwenden, die in Kursen wie Machine Learning Fundamentals in Python verwendet werden. Diese Techniken basieren auf fortgeschrittenen Kalkulationsthemen wie Taylorreihen und Matrixalgebra.

Fazit

Die Hessian-Matrix enthält Informationen zweiter Ordnung über skalare Funktionen und bietet einen umfangreichen Rahmen für die Analyse von Krümmungen, die Identifizierung kritischer Punkte und die Lösung von Optimierungsproblemen. Während Gradienten die Richtung vorgeben, verfeinert die Hessian das Verständnis von Form und Schärfe, insbesondere bei hochdimensionalen Problemen, die beim maschinellen Lernen häufig auftreten.

Für Praktiker, die bereits mit Jacobianern und Gradienten vertraut sind, bietet die Beherrschung der Hessian einen vollständigeren Überblick über das Verhalten des Algorithmus und die Struktur des Problems.


Vidhi Chugh's photo
Author
Vidhi Chugh
LinkedIn

Ich bin KI-Stratege und Ethiker und arbeite an der Schnittstelle von Datenwissenschaft, Produkt und Technik, um skalierbare maschinelle Lernsysteme zu entwickeln. Als einer der "Top 200 Business and Technology Innovators" der Welt bin ich auf der Mission, das maschinelle Lernen zu demokratisieren und den Fachjargon zu überwinden, damit jeder an diesem Wandel teilhaben kann.

FAQs

Was ist die Hessische Matrix und warum ist sie bei der Optimierung wichtig?

Die Hessische Matrix ist eine quadratische Matrix der partiellen Ableitungen zweiter Ordnung einer skalaren Funktion. Sie erfasst die Krümmung der Funktion und hilft dabei, die Art der kritischen Punkte zu bestimmen und Optimierungsalgorithmen für eine bessere Konvergenz anzuleiten.

Wie unterscheidet sich die Hessian von der Steigung und der Jakobi?

Während der Gradient die ersten Ableitungen (Richtung des steilsten Anstiegs) liefert und der Jacobian dies auf vektorwertige Funktionen ausdehnt, geht der Hessian noch weiter, indem er beschreibt, wie sich der Gradient selbst ändert, und so einen Einblick in die Krümmung der Funktion in mehreren Dimensionen bietet.

Wann ist die hessische Matrix symmetrisch?

Die Hessian-Matrix ist symmetrisch, wenn alle zweiten partiellen Ableitungen um einen Punkt herum stetig sind, wie es der Satz von Clairaut (oder Schwarz) besagt. Diese Symmetrie vereinfacht sowohl die theoretische Analyse als auch die Berechnungen.

Wie wird die Hessian verwendet, um kritische Punkte zu klassifizieren?

Nutze den Test der zweiten Ableitung:

  • Positiv definitiver Hessian → lokales Minimum
  • Negativ definitiver Hessian → lokales Maximum
  • Unbestimmter Hessian → Sattelpunkt
  • Null-Determinante → Test ist nicht schlüssig

Kann die Hessian mit Python berechnet und visualisiert werden?

Ja, mit symbolischen Mathematikbibliotheken wie SymPy kannst du die Hessian-Matrix an bestimmten Punkten berechnen und auswerten. Diese Werkzeuge sind sowohl für Lern- als auch für praktische Optimierungsaufgaben in der Datenwissenschaft und im maschinellen Lernen nützlich.

Themen

Lernen mit DataCamp

Lernpfad

Data Manipulation in Python

0 Min.
Take the pain out of data manipulation using pandas. You’ll learn how to transform, sort, and filter data in DataFrames, ready for quick analysis.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigenMehr anzeigen