Suche nach Personen

plus im Publikationsserver
plus bei Google Scholar

Bibliografische Daten exportieren
 

On Consistency and Stability of Support Vector Machines and Localized Support Vector Machines

DOI zum Zitieren der Version auf EPub Bayreuth: https://doi.org/10.15495/EPub_UBT_00008345
URN zum Zitieren der Version auf EPub Bayreuth: urn:nbn:de:bvb:703-epub-8345-8

Titelangaben

Köhler, Hannes:
On Consistency and Stability of Support Vector Machines and Localized Support Vector Machines.
Bayreuth , 2025 . - VIII,179 S.
( Dissertation, 2025 , Universität Bayreuth, Fakultät für Mathematik, Physik und Informatik)

Volltext

[thumbnail of KoehlerHannes_Diss.pdf]
Format: PDF
Name: KoehlerHannes_Diss.pdf
Version: Veröffentlichte Version
Verfügbar mit der Lizenz Creative Commons BY 4.0: Namensnennung
Download (2MB)

Abstract

In recent years, the demand for machine learning and artificial intelligence has grown rapidly. This has manifested itself in a drastic increase in the number of existing applications as well as in the pervasiveness of these applications. In these, different machine learning methods have shown enormous empirical success in accurately capturing relations between input and output variables that are far too complex to model them by hand or by classic statistical methods. The present work takes a more analytical approach by mathematically investigating what guarantees can be given for the behavior of one special type of machine learning methods, namely kernel-based minimizers of a regularized risk functional. These minimizers are also known as support vector machines (SVMs) in the literature. In recent years, SVMs have been investigated in much detail, but there still remain open questions. The present work examines two properties of SVMs. First, SVMs are proven to exhibit different types of consistency---namely risk consistency, Lp-consistency and consistency with respect to the norm in the underlying reproducing kernel Hilbert space---under mild conditions. Surprising negative results occur when transitioning to so-called shifted loss functions, which in many cases helps to eliminate certain conditions regarding the underlying (and in practice unknown) probability measure. It is shown that this elimination is in general not possible for some of the results on consistency, but at the same time it is also shown that alternative and in a certain sense less restrictive conditions regarding the probability measure do in some cases suffice when using shifted loss functions. Secondly, total stability of SVMs is investigated, which is related to classic statistical robustness. Whereas the latter concept however only considers the effect of changes in the probability measure P (respectively an empirical probability measure Dn in applications) on the resulting SVM, total stability additionally takes into account the regularization parameter lambda and the kernel k of the SVM and gives bounds on how much the resulting SVM can in the worst case scenario change based on simultaneous variations in the whole triple (P,lambda,k) respectively (Dn,lambda,k). As SVMs can in practice suffer from their super-linear requirements regarding computation time as well as computer memory, localized SVMs are examined as well. The principal idea behind localized SVMs is to not learn a single global SVM on the whole input space, but to instead divide the input space into different regions and learn one local SVM in each of these regions and then plug them together to obtain a predictor on the whole input space. This approach reduces the number of data points used for computing each single of the local SVMs and hence---because of the super-linear computational requirements---reduces the overall computation time and space. Additionally, it can also yield advantages regarding the quality of the resulting predictions. Results on consistency as well as on total stability are transferred to localized SVMs. Notably, the consistency results also allow for regions that change as the size of the data set increases, and the total stability results also consider the effect of changes in the regions.

Abstract in weiterer Sprache

In den letzten Jahren ist die Nachfrage nach maschinellem Lernen und künstlicher Intelligenz rasant angestiegen. Dies hat sich in einer drastischen Zunahme der Zahl der bestehenden Anwendungen sowie in der Verbreitung dieser Anwendungen niedergeschlagen. Hierbei haben verschiedene Verfahren des maschinellen Lernens enorme empirische Erfolge beim akkuraten Erfassen von Beziehungen zwischen Eingabe- und Ausgabevariablen gezeigt, die deutlich zu komplex sind, um sie von Hand oder mittels klassischer statistischer Methoden zu modellieren. Die vorliegende Arbeit verfolgt einen analytischeren Ansatz, indem sie mathematisch untersucht, welche Garantien für das Verhalten einer speziellen Art von Verfahren des maschinellen Lernens gegeben werden können, nämlich kernbasierten Minimierern eines regularisiertes Risikofunktionals. Diese Minimierer sind in der Literatur auch als Support Vector Machines (SVMs) bekannt. In den letzten Jahren wurden SVMs detailliert untersucht, aber es gibt weiterhin offene Fragen. Die vorliegende Arbeit untersucht zwei Eigenschaften von SVMs. Erstens wird bewiesen, dass SVMs unter schwachen Voraussetzungen verschiedene Arten der Konsistenz aufweisen -- nämlich Risiko-Konsistenz, Lp-Konsistenz und Konsistenz bezüglich der Norm im zugrunde liegenden reproduzierenden Kern-Hilbertraum. Beim Übergang zu sogenannten geshifteten Verlustfunktionen, welche in vielen Fällen beim Eliminieren gewisser Voraussetzungen an das zugrunde liegende (und in der Praxis unbekannte) Wahrscheinlichkeitsmaß helfen, treten überraschende negative Resultate auf. Es wird gezeigt, dass dieses Eliminieren bei manchen der Konsistenzresultate im Allgemeinen nicht möglich ist, aber gleichzeitig wird auch gezeigt, dass in manchen Fällen alternative und in einem gewissen Sinn weniger restriktive Voraussetzungen bezüglich des Wahrscheinlichkeitsmaßes bei der Verwendung von geshifteten Verlustfunktionen genügen. Zweitens wird totale Stabilität von SVMs untersucht, welche verwandt mit klassicher statistischer Robustheit ist. Während letzteres Konzept jedoch nur den Effekt von Änderungen im Wahrscheinlichkeitsmaß P (beziehungsweise in einem empirischen Wahrscheinlichkeitsmaß Dn in Anwendungen) auf die resultierende SVM betrachtet, berücksichtigt totale Stabilität zusätzlich auch den Regularisierungsparameter lambda und den Kern k der SVM und gibt Abschätzungen dafür, wie stark die resultierende SVM sich bei gleichzeitiger Änderung des gesamten Tripels (P,lambda,k) beziehungsweise (Dn,lambda,k) schlimmstenfalls ändern kann. Da SVMs in der Praxis unter ihren superlinearen Anforderungen hinsichtlich Rechenzeit und Computerspeicher leiden können, werden zusätzlich lokalisierte SVMs untersucht. Die grundsätzliche Idee hinter lokalisierten SVMs besteht darin, nicht eine einzelne globale SVM auf dem kompletten Eingaberaum zu lernen, sondern den Eingaberaum stattdessen in verschiedene Regionen aufzuteilen und in jeder dieser Regionen eine lokale SVM zu lernen und diese dann zusammenzufügen, um einen Prädiktor auf dem gesamten Eingaberaum zu erhalten. Dieser Ansatz verringert die Anzahl der Datenpunkte, die für die Berechnung jeder einzelnen lokalen SVM verwendet werden und reduziert somit -- wegen der superlinearen Rechenanforderungen -- die Gesamtrechenzeit sowie den Platzbedarf. Zusätzlich kann er auch Vorteile hinsichtlich der Qualität der resultierenden Vorhersagen liefern. Resultate zur Konsistenz sowie zur totalen Stabilität werden auf lokalisierte SVMs übertragen. Hierbei werden bei den Konsistenzresultaten insbesondere auch Regionen zugelassen, welche sich bei Zunahme der Größe des Datensatzes verändern, und bei den Resultaten zur totalen Stabilität wird insbesondere auch der Effekt von Änderungen in den Regionen betrachtet.

Weitere Angaben

Publikationsform: Dissertation (Ohne Angabe)
Keywords: support vector machines; localized learning; machine learning; regression; statistical robustness; stability; consistency; kernel methods
Themengebiete aus DDC: 500 Naturwissenschaften und Mathematik > 510 Mathematik
Institutionen der Universität: Fakultäten
Fakultäten > Fakultät für Mathematik, Physik und Informatik
Fakultäten > Fakultät für Mathematik, Physik und Informatik > Mathematisches Institut
Fakultäten > Fakultät für Mathematik, Physik und Informatik > Mathematisches Institut > Lehrstuhl Mathematik VII - Stochastik und maschinelles Lernen
Fakultäten > Fakultät für Mathematik, Physik und Informatik > Mathematisches Institut > Lehrstuhl Mathematik VII - Stochastik und maschinelles Lernen > Lehrstuhl Mathematik VII - Stochastik und maschinelles Lernen - Univ.-Prof. Dr. Andreas Christmann
Sprache: Deutsch
Titel an der UBT entstanden: Ja
URN: urn:nbn:de:bvb:703-epub-8345-8
Eingestellt am: 28 Mrz 2025 10:12
Letzte Änderung: 28 Mrz 2025 10:13
URI: https://epub.uni-bayreuth.de/id/eprint/8345

Downloads

Downloads pro Monat im letzten Jahr