Kurs:Maschinelles Lernen/Grundbegriffe des maschinellen Lernens

Vorherige Seite: K0 - Matrizen
Nächste Seite : K1 - Hypothesen aus Daten Ableiten

Zeil von maschinellem Lernen

Beim maschinellen Lernen geht es darum, aus vorliegenden Daten Vorhersagemodelle, Entscheidungsregeln oder Mustererkennungen zu erstellen, um daraus Entscheidungen unter dem Auftreten neuer Daten zu treffen. Dazu gibt es verschiedene Methoden, die für verschiedene Probleme besser oder schlechter geeignet sind.

Abgrenzen von Begriffen

Künstliche Intelligenz (KI): Unter künstlicher Intelligenz werden Algorithmen verstanden, die menschlisches Denken immitieren können. Es wird unterschieden in schwache KIs, die nur spezielle Aufgaben lösen können, und starke KIs, die mehrere Aufgaben bearbeiten können.
Maschinelles Lernen (ML): Unter maschinellem Lernen werden verschiedene Methoden gesammelt, die das Erlernen zum Lösen expliziter Aufgaben erlauben. Methoden des ML, erlauben es KIs zu programmieren. Das Themenfeld ML ist damit ein Teilaspekt des Themenfeldes der KIs.
Deep Learning (DL): Unter Deep Learning werden Algorithmen verstanden, die auf Neuronalen Netzen basieren. "Deep" bezieht sich dabei auf die größere Anzahl an Netzwerkschichten, die hintereinandergeschaltet Teilaufgaben der Informationsverarbeitung übernehmen (siehe auch Feedforwardnetze Arbeits Neuronale Netze sind eine spezielle Methode des MLs und damit handelt es sich beim Themenfeld DL um einen Teilaspekt des MLs.
Überwachtes Lernen: Beim überwachten Lernen liegen zum Trainieren Datenpaare aus Eingabedaten der Menge $X$ $X$ und Ausgabedaten der Menge $Y$ $Y$ vor. Ein Datensatz aus $N$ $N$ solcher Paare wird mit $D=\{(x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{N},y_{N})\}$ $D=\{(x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{N},y_{N})\}$ beschrieben. In einem solchen Fall wird bei den Werten $y_{k}$ $y_{k}$ von Labels und insgesamt von gelabelten Daten gesprochen. Typischerweise stammen die Eingabedaten aus der Menge $X=\mathbb {R} ^{d}$ $X=\mathbb {R} ^{d}$ , während für die Ausgabedaten in zwei Fälle unterschieden wird:
- Regression: Handelt es sich beim Raum der Ausgabedaten um ein Intervall oder gar die reellen Zahlen, so wird von einer Regression gesprochen. Der Ergebnisraum ist damit durch $Y=\mathbb {R}$ bestimmt und behandelt kontinuierliche Werte als Ausgabe. Das Ziel ist es dann, einem Eingabevektor ${\vec {x}}\in \mathbb {R} ^{d}$ eine reelle Zahl zuzuordnen.
- Klassifikation: Handelt es sich beim Raum der Ausgabedaten um eine endliche Menge und somit um diskrete Werte, so wird von einer Klassifikation gesprochen. Das Ziel ist es dann, einem Eingabevektor ${\vec {x}}\in \mathbb {R} ^{d}$ eines der Elemente in $Y$ zuzuordnen. Bei binären Entscheidungen wird bspw. der Ergebnisraum $Y=\{0,1\}$ verwendet.
Unüberwachtes Lernen: Beim unüberwachten Lernen liegen nur die Eingabedaten aus der Menge $X$ vor. Die Daten sind also nicht gelabelt. Dann besteht die Aufgabe meist darin, Anhäufungen von Daten (sog. Cluster) zu finden. (s. Hierzu auch Kapitel 5 dieses Kurses)

Mathematische Formulierung des überwachten maschinellen Lernens

Darstellung der Daten

Aus den einzelnen Eingabedaten aus $X=\mathbb {R} ^{d}$ , lässt sich für einen Datenpunkt der Vektor

 ${\vec {x}}_{i}^{T}={\begin{pmatrix}x_{i1}&x_{i2}&\cdots &x_{id}\end{pmatrix}}$

aufschreiben. Hieraus wird die sogenannte Datenmatrix

 ${\underline {X}}={\begin{pmatrix}x_{11}&x_{12}&\cdots &x_{1d}\\x_{21}&x_{22}&\cdots &x_{2d}\\\vdots &\vdots &\ddots &\vdots \\x_{N1}&x_{N2}&\cdots &x_{Nd}\end{pmatrix}}\in \mathbb {R} ^{N\times d}$

gebildet. In ihren Zeilen stehen die $d$ dimensionalen Eingabevektoren der einzelnen Datenpunkte, während die Spalten bestimmte Komponenten aller $N$ Datenpunkte beinhalten.

Daneben wird oft die erweiterte Datenmatrix

 ${\underline {X}}'={\begin{pmatrix}1&x_{11}&x_{12}&\cdots &x_{1d}\\1&x_{21}&x_{22}&\cdots &x_{2d}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{N1}&x_{N2}&\cdots &x_{Nd}\end{pmatrix}}\in \mathbb {R} ^{N\times (d+1)}$

mit einer zusätzlichen Spalte an Einsen definiert. Sie erlaubt es, vielen Algorithemen durch das Anwenden von Matrizen auf Vektoren zu beschreiben. Daneben ist es oft angebracht, die Ausgabedaten eines Datensatzes in einem Vektor der Form

 ${\vec {y}}={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{N}\end{pmatrix}}$

zusammenzufassen, der als Ergebnisvektor bezeichnet wird.

Formulierung des Problems

Wird nun angenommen, die Daten folgten einer perfekte Zuordnung, die als Zielfunktion (engl. target function)

 $t:X\to Y$

bezeichnet wird, so ist das grundlegende Ziel, diese Funktion zu bestimmen.

Da dies aber praktisch nicht möglich ist, wird versucht, durch Hypothesen

 $h:X\to Y$

diese Zielfunktion möglichst gut anzunäheren, so dass eine spezielle Funktion

 ${\hat {h}}:X\to Y$

gefunden wird, für die (salopp formuliert) ${\hat {h}}\approx t$ gilt. Die Menge aller Hypothesen wird als Hypothesenraum $H$ bezeichnet. In der Praxis können aber auch nicht alle Hypothesen berücksichtigt werden, so dass bspw. nur lineare oder polynome Funktionen betrachtet werden und so der Hypothesenraum mit dem Raum aller linearen Funktionen oder dem Raum aller Polynome zusammenfällt.

Versionsraum und Güte von Modellen

Im Idealfall sollte die gefundene Hypothese ${\hat {h}}$ in der Lage sein, alle Daten im passenden Rahmen richtig vorherzusagen. Wird dazu eine binäre Klassifikation herangezogen, gibt es die möglichen Ausgänge der folgenden Tabelle

Tatsächlich / Ergebnis von ${\hat {h}}$	0	1
0	richtig negativ	falsch positiv
1	falsch negativ	richtig positiv

Für eine vollständig richtige Klassifikation dürfen weder falsch positive Ergebnisse noch falsch negtive Ergebnisse auftreten. Wenn keine falsch Negative auftreten, wird die Hypothese als vollständig bezeichnet. Wenn keine falsch Positive auftreten, wird die Hypothese als konsistent bezeichnet. Bei binären Klassifiaktionen wird also idealerweise nach Hypothesen gesucht, die konsistent und vollständig sind. Es gibt verschiedene Maße, mit denen die Güte bzgl. einer binären Klassifiaktion gemessen werden, die bspw. bei Wikipedia - Beurteilung eines binären Klassifikators eingesehen werden können. Da es in der Regel mehrere Hypothesen gibt, die diese Bedingung erfüllen werden, spannen sie einen eigenen Raum auf, der als Versionsraum (engl. version space) $V$ bezeichnet wird. Auch innerhalb von $V$ gibt es Hypothesen, die als besser bzw. als schlechter bewertet werden können. So ist für eine binäre Entscheidung, die aus einem Satz vorliegender Daten gewonnen wurde, eine Entscheidungsregel besser, die den Abstand zu den einzelnen Datenpunkten maximiert (s. Support Vector Machines). Ebenso ist eine Hypothese mit weniger Parametern durch ihre Einfachheit zu bevorzugen (s. Wikipedia - Ockhams Rasiermesser)