URN zum Zitieren der Version auf EPub Bayreuth: urn:nbn:de:bvb:703-epub-9327-1
Titelangaben
Köhne, Frederik:
Adaptive Step Sizes for Stochastic Gradient Descent.
Bayreuth
,
2026
. - VII,126 S.
(
Dissertation,
2026
, Universität Bayreuth, Fakultät für Mathematik, Physik und Informatik)
Volltext
|
|||||||||
|
Download (4MB)
|
Angaben zu Projekten
| Projekttitel: |
Offizieller Projekttitel Projekt-ID Multilevel-Architekturen und -Algorithmen im Deep Learning 464103607 |
|---|---|
| Projektfinanzierung: |
Deutsche Forschungsgemeinschaft |
Abstract
Stochastic optimization problems arise in various applications. In recent years, the rapid development of machine learning techniques, and the associated training of artificial intelligence, has further increased interest in such problems. A widely used and conceptually very simple algorithm for solving such stochastic optimization problems is the Stochastic Gradient Descent (SGD) method. This method can be understood as an adaptation of the classical (deterministic) gradient method in which the gradient is replaced by a stochastic approximation of the gradient. Despite its similarity to its deterministic counterpart, the stochastic gradient method behaves in part quite differently. This is particularly true for the choice of step sizes. While constant step sizes are usually sufficient for convergence in the deterministic method, this is not the case for the stochastic gradient method. Here, depending on the situation, the step size control must take the uncertainty in the search directions into account and adjust the step sizes if necessary. To address this problem, this work deals with the construction and analysis of an adaptive step size control for the stochastic gradient method, which in particular aims to account for the uncertainty in the search direction. This adaptive step size control is based on a step size rule for which optimal convergence rates can be shown, but which is not computable in practice. As a solution to this problem, certain quantities are identified that can be observed during the execution of the algorithm and averaged by means of a suitable averaging process in order to provide reliable estimators for the step sizes to be used. In addition to the analysis of SGD using the theoretical, non-computable step sizes, this work focuses in particular on the analysis of the estimation processes and the behavior of the step sizes derived from the estimated quantities. This analysis is based, on the one hand, on a detailed convergence theory of the averaging process, and, on the other hand, on the long-term behavior of SGD with constant step sizes, which can be described using so-called invariant measures. In addition to the theoretical analysis, we demonstrate the adaptive character and the convergence behavior of SGD using the estimated step sizes in numerical experiments.
Abstract in weiterer Sprache
Stochastische Optimierungsprobleme treten in verschiedenen Anwendungsfällen auf. In den letzten Jahren hat die rasante Entwicklung von Techniken des maschinellen Lernens, und damit verbunden das Training von Künstlicher Intelligenz, das Interesse an solchen Problemen noch einmal verstärkt. Ein weit verbreiteter und konzeptionell sehr einfacher Algorithmus zum Lösen solcher stochastischen Optimierungsprobleme ist das stochastische Gradientenverfahren (Stochastic Gradient Descent (SGD)). Dieses Verfahren kann als eine Adaption des klassischen (deterministischen) Gradientenverfahren verstanden werden, bei dem der Gradient mit einer stochastischen Approximation an den Gradienten ersetzt wird. Trotz seiner Ähnlichkeit zum deterministischen Gegenpart, verhält sich das stochastische Gradientenverfahren teils deutlich anders. Dies gilt insbesondere bei der Wahl der Schrittweiten. Während beim deterministischen Verfahren konstante Schrittweiten für Konvergenz in der Regel ausreichend sind, ist dies beim stochastischen Gradientenverfahren nicht der Fall. Hier muss, je nach Fall, die Schrittweitensteuerung die Unsicherheit in den Suchrichtungen berücksichtigen und Schrittweiten gegebenenfalls anpassen. Um diesem Problem zu begegnen, befasst sich diese Arbeit mit der Konstruktion und Analyse einer adaptiven Schrittweitensteuerung für das stochastische Gradientenverfahren, welche insbesondere auf die Unsicherheit in der Suchrichtung versucht einzugehen. Diese adaptive Schrittweitensteuerung beruht auf einer Schrittweitenwahl, für die sich zwar optimale Konvergenzraten zeigen lassen, die allerdings in der Praxis nicht berechenbar ist. Als Lösung dieses Problems werden bestimmte Größen identifiziert, die während des Durchlaufs des Algorithmus beobachtet und mittels eines geeigneten Mittelungsprozess gemittelt werden, um verlässliche Schätzer für die zu verwendenden Schrittweiten zu erhalten. Neben der Analyse von SGD unter Verwendung der theoretischen, nicht berechenbaren Schrittweiten, befasst sich diese Arbeit insbesondere mit der Analyse der Schätzungsprozesse und dem Verhalten der aus den geschätzten Größen ermittelten Schrittweiten. Diese Analyse beruht zum einen auf einer detaillierten Konvergenztheorie des Mittelungsprozesses, zum anderen auf dem Langzeitverhalten von SGD mit konstanten Schrittweiten, welches mit Hilfe so-genannter invarianter Maße beschrieben werden kann. Neben der theoretischen Analyse zeigen wir in numerischen Experimenten den adaptiven Charakter und das Konvergenzverhalten von SGD unter Verwendung der geschätzten Schrittweiten.

im Publikationsserver
bei Google Scholar
Download-Statistik