Kurs:Maschinelles Lernen/Grundbegriffe des maschinellen Lernens

Aus Wikiversity

Vorherige Seite: K0 - Matrizen
Nächste Seite : K1 - Hypothesen aus Daten Ableiten

Zeil von maschinellem Lernen[Bearbeiten]

Beim maschinellen Lernen geht es darum, aus vorliegenden Daten Vorhersagemodelle, Entscheidungsregeln oder Mustererkennungen zu erstellen, um daraus Entscheidungen unter dem Auftreten neuer Daten zu treffen. Dazu gibt es verschiedene Methoden, die für verschiedene Probleme besser oder schlechter geeignet sind.

Abgrenzen von Begriffen[Bearbeiten]

  • Künstliche Intelligenz (KI): Unter künstlicher Intelligenz werden Algorithmen verstanden, die menschlisches Denken immitieren können. Es wird unterschieden in schwache KIs, die nur spezielle Aufgaben lösen können, und starke KIs, die mehrere Aufgaben bearbeiten können.
  • Maschinelles Lernen (ML): Unter maschinellem Lernen werden verschiedene Methoden gesammelt, die das Erlernen zum Lösen expliziter Aufgaben erlauben. Methoden des ML, erlauben es KIs zu programmieren. Das Themenfeld ML ist damit ein Teilaspekt des Themenfeldes der KIs.
  • Deep Learning (DL): Unter Deep Learning werden Algorithmen verstanden, die auf Neuronalen Netzen basieren. "Deep" bezieht sich dabei auf die größere Anzahl an Netzwerkschichten, die hintereinandergeschaltet Teilaufgaben der Informationsverarbeitung übernehmen (siehe auch Feedforwardnetze Arbeits Neuronale Netze sind eine spezielle Methode des MLs und damit handelt es sich beim Themenfeld DL um einen Teilaspekt des MLs.
  • Überwachtes Lernen: Beim überwachten Lernen liegen zum Trainieren Datenpaare aus Eingabedaten der Menge und Ausgabedaten der Menge vor. Ein Datensatz aus solcher Paare wird mit beschrieben. In einem solchen Fall wird bei den Werten von Labels und insgesamt von gelabelten Daten gesprochen. Typischerweise stammen die Eingabedaten aus der Menge , während für die Ausgabedaten in zwei Fälle unterschieden wird:
    • Regression: Handelt es sich beim Raum der Ausgabedaten um ein Intervall oder gar die reellen Zahlen, so wird von einer Regression gesprochen. Der Ergebnisraum ist damit durch bestimmt und behandelt kontinuierliche Werte als Ausgabe. Das Ziel ist es dann, einem Eingabevektor eine reelle Zahl zuzuordnen.
    • Klassifikation: Handelt es sich beim Raum der Ausgabedaten um eine endliche Menge und somit um diskrete Werte, so wird von einer Klassifikation gesprochen. Das Ziel ist es dann, einem Eingabevektor eines der Elemente in zuzuordnen. Bei binären Entscheidungen wird bspw. der Ergebnisraum verwendet.
  • Unüberwachtes Lernen: Beim unüberwachten Lernen liegen nur die Eingabedaten aus der Menge vor. Die Daten sind also nicht gelabelt. Dann besteht die Aufgabe meist darin, Anhäufungen von Daten (sog. Cluster) zu finden. (s. Hierzu auch Kapitel 5 dieses Kurses)

Mathematische Formulierung des überwachten maschinellen Lernens[Bearbeiten]

Darstellung der Daten[Bearbeiten]

Aus den einzelnen Eingabedaten aus , lässt sich für einen Datenpunkt der Vektor


aufschreiben. Hieraus wird die sogenannte Datenmatrix


gebildet. In ihren Zeilen stehen die dimensionalen Eingabevektoren der einzelnen Datenpunkte, während die Spalten bestimmte Komponenten aller Datenpunkte beinhalten.

Daneben wird oft die erweiterte Datenmatrix


mit einer zusätzlichen Spalte an Einsen definiert. Sie erlaubt es, vielen Algorithemen durch das Anwenden von Matrizen auf Vektoren zu beschreiben. Daneben ist es oft angebracht, die Ausgabedaten eines Datensatzes in einem Vektor der Form


zusammenzufassen, der als Ergebnisvektor bezeichnet wird.

Formulierung des Problems[Bearbeiten]

Wird nun angenommen, die Daten folgten einer perfekte Zuordnung, die als Zielfunktion (engl. target function)


bezeichnet wird, so ist das grundlegende Ziel, diese Funktion zu bestimmen.

Da dies aber praktisch nicht möglich ist, wird versucht, durch Hypothesen


diese Zielfunktion möglichst gut anzunäheren, so dass eine spezielle Funktion


gefunden wird, für die (salopp formuliert) gilt. Die Menge aller Hypothesen wird als Hypothesenraum bezeichnet. In der Praxis können aber auch nicht alle Hypothesen berücksichtigt werden, so dass bspw. nur lineare oder polynome Funktionen betrachtet werden und so der Hypothesenraum mit dem Raum aller linearen Funktionen oder dem Raum aller Polynome zusammenfällt.

Versionsraum und Güte von Modellen[Bearbeiten]

Im Idealfall sollte die gefundene Hypothese in der Lage sein, alle Daten im passenden Rahmen richtig vorherzusagen. Wird dazu eine binäre Klassifikation herangezogen, gibt es die möglichen Ausgänge der folgenden Tabelle

Tatsächlich / Ergebnis von 0 1
0 richtig negativ falsch positiv
1 falsch negativ richtig positiv

Für eine vollständig richtige Klassifikation dürfen weder falsch positive Ergebnisse noch falsch negtive Ergebnisse auftreten. Wenn keine falsch Negative auftreten, wird die Hypothese als vollständig bezeichnet. Wenn keine falsch Positive auftreten, wird die Hypothese als konsistent bezeichnet. Bei binären Klassifiaktionen wird also idealerweise nach Hypothesen gesucht, die konsistent und vollständig sind. Es gibt verschiedene Maße, mit denen die Güte bzgl. einer binären Klassifiaktion gemessen werden, die bspw. bei Wikipedia - Beurteilung eines binären Klassifikators eingesehen werden können. Da es in der Regel mehrere Hypothesen gibt, die diese Bedingung erfüllen werden, spannen sie einen eigenen Raum auf, der als Versionsraum (engl. version space) bezeichnet wird. Auch innerhalb von gibt es Hypothesen, die als besser bzw. als schlechter bewertet werden können. So ist für eine binäre Entscheidung, die aus einem Satz vorliegender Daten gewonnen wurde, eine Entscheidungsregel besser, die den Abstand zu den einzelnen Datenpunkten maximiert (s. Support Vector Machines). Ebenso ist eine Hypothese mit weniger Parametern durch ihre Einfachheit zu bevorzugen (s. Wikipedia - Ockhams Rasiermesser)