Zum Inhalt springen

Open Community Approach/Offenes Maschinelles Lernen

Aus Wikiversity

Einleitung

[Bearbeiten]

Diese Seite kann als Wiki2Reveal Folien angezeigt werden. Einzelne Abschnitte werden als Folien betrachtet und Änderungen an den Folien wirken sich sofort auf den Inhalt der Folien aus.

Zielsetzung

[Bearbeiten]

Diese Lernressource in der Wikiversity hat das Ziel, offene Prinzipien, die aus dem Bereichen

stammen.

Zielgruppe

[Bearbeiten]

Die Zielgruppe der Lernressource sind Studierende, die sich maschinellem Lernen im Kontext der eigenen Disziplin beschäftigen.

Reproduzierbarkeit

[Bearbeiten]

Bei der Reproduzierbarkeit von maschinellem Lernen betrachtet man die Quellen, die dafür notwendig sind, um ein existierendes lernfähiges System nach Möglichkeit reproduzieren zu können (Digital Public Good[1]). Dazu gehören die

  • Algorithmen, die das Verhalten des lernfähigen Systems definiert,
  • Trainingsdaten, die ebenfalls das Verhalten des Systems bestimmen und verändern und
  • Maschinenzustandsdaten, die den Zustand des lernfähigen System zum Zeitpunkt beschreibt.

Reproduzierbarkeit für Algorithmen

[Bearbeiten]

Lernalgorithmen definieren, wie sich der Maschinenzustand in Abhängigkeit von der Eingabedaten bzw. Trainingsdaten verändert. Für offenes maschinelles Lernen müssen diese als Open-Source-Code zur Verfügung stehen, damit den Code nicht nur genutzt, sondern auch von der wissenschaftlichen Gemeinschaft überprüft und verbessert werden kann. Als einführendes Beispiel kann das Gradientenabstiegsverfahren nennen, das für Lernalgorithmus von Backpropagation-Netzen zur Fehlerminimierung verwendet wird.

Traingsdaten als Teil der Programmierung

[Bearbeiten]

Zwei lernfähige Systeme und können z.B. das gleiche neuronale künstliche neuronale Netz für das maschinelle Lernen mit dem gleichen Startzustand verwenden, aber es mit komplett anderen Trainingsdatensätzen "füttern" und damit zu einem späteren Zeitpunkt ein komplett unterschiedliches Verhalten zeigen. Beim einem offenen reprodzierbaren System sind die verwendeten Trainingsdaten offen nach dem FAIR-Data-Prinzip zugänglich.

Beispiel - Textgenerierung und offenen Lizensierung

[Bearbeiten]

Wenn man zum Beispiel Textdaten mit einer spezifizischen Creative-Commons-Lizenz für das Maschinelle Lernen als Trainingsdatensatz verwendet, so bestimmt die Lizenz der Trainingsdaten beim offenen maschinellen Lernen (Open ML) auch die Lizenz des generierten Textproduktes.

Versionierung und Offene Trainingsdatensätze und

[Bearbeiten]

Trainingsdatensätze können sich durch weitere Datensammlung stetig verändern. Daher macht Sinn für die Trainingsdatensätze analog zum Quellcode Versionierungssysteme einzusetzen, die durch effziente Speichung von Versionen die zeitliche Entwicklung der Trainingsdatensätze reproduzierbar machen.

Aufgaben für Lernende / Studierende

[Bearbeiten]

Lernaktivitäten konzentrieren sich auf die Rolle von Trainingsdaten für die maschinellen Lernalgorithmen:

  • (Einsteiger:innen ML) Wenn Sie neu zu Maschinelles Lernen (ML) sind, wird empfohlen, mit einer Erkundung des Konzepts und der Grundlagen des maschinellen Lernens zu beginnen.
  • (Überwachtes, unüberwachtes ML) Erläutern Sie die Unterschiede zwischen überwachtem und unüberwachtem maschinellen Lernen und wenden Sie diese auf Texterzeugung mit Trainingsdaten an, die dann neue Textdokumente unter einer offenen Lizenz für die Trainingsdaten an.
  • (Open-Source-Code als Trainingsdaten) Im Kontext von OpenML wurde bereits die Open-Source-Lizensierung von Lernalgorithmen angesprochen. Betrachten Sie nun Assistenzsysteme, die auf maschinellem Lernen beruhen, die Open-Source-Code als Trainingsdaten vewenden. Analysieren Sie die Herausforderung für die Trainingsdaten, damit bei OpenML auch der erzeugte Code im Assistenzsystem von den Nutzer:innen eindeutig einer Lizenz zugeordnet werden kann.
  • (Verkehrmanagement und Maschinelles Lernen) Wenn eine Kommune oder Landkreis in Bezug auf Nachhaltigkeit Verkehrmanagement mit den eigenen anonymsierten Daten umsetzen möchte, kann maschinelles Lernen auf den Nutzer:innendaten aufbauen, um eine Verbesserung der Verkehrsituation zu erzielen. Beschreiben Sie die Möglichkeiten und Herausforderungen für die Umsetzung!
  • (Optimierung von ML für Nachhaltigkeit) Betrachten Sie die Nachhaltigkeitsziele und eine datengetriebene Entscheidungsunterstützung, die machinelles Lernen nutzt, um nachhaltigere Entscheidungen für eine Gemeinschaft zu treffen. Identifizieren Sie ein Nachhaltigkeitsziele, in dessen Domäne Sie sich auskennen. Welche Entscheidungen bedingen die Nachhaltigkeit von bestimmten Prozessen und welche Möglichkeiten gibt prinzipiell, bessere Entscheidungen im Śinne der Nachhaltigkeit zu treffen? Wie kann man die Nachhaltigkeit messen? Wie können diese Messung ggf. in einen überwachten Lernprozess für das maschinelle Lernen einfließen? Welche Lernalgorithmen/Modelle sind geeignet um diese Aufgabe zu erfüllen?

Lernaktivitäten - abgeleitete Resultate - Derivate

[Bearbeiten]

Um die Lizenzierung von abgeleiteten Resultaten anzugehen, betrachten man in dieser Lernressource offene Lizenzmodelle, die verwendet werden, um den Zugang der Gemeinschaft in einem evolutionären Entwicklungsprozess auch für abgeleitete Produkte (engl. "derivative work") zu gewährleisten. Die Gemeinschaft kann auf die Ressourcen zugreifen, die Ressourcen modifizieren und die Ressourcen für die Gemeinschaft bewahren, zu denen die Menschen vorher in einem evolutionären Prozess beigetragen haben.

  • (Open Data) Was sind die Herausforderungen und Einschränkungen für den Umgang mit offenen Daten, die für Maschinelles Lernen (ML) verwendet werden? Können Benutzer:innen Datensätze in einem öffentlich administrierten digitalen Infrastruktur (Repository) verfügbar machen?
  • (Transparente Lizenzketten) Nehmen Sie an, dass eine Maschine mit einem ersten Zustand mit Trainingsdaten trainiert wird die unter einer bestimmten offenen Lizenz ausgestellt wird. Die Lizenz ermöglicht Derivatisierung. Wenn maschinelles Lernen generativ ist, vergeben die Kettenlizenzen dem generierten Text dieselbe Lizenz.
  • (Versionen der Trainingsdatensätze) Trainingsdatensätze können sich im Laufe der Zeit ändern. Daher erhalten die Trainingsdaten einen Zeitindex haben , um diese Zeithängigkeit formal kenntlich zu machen.
  • (Multiple Lizenzen in Trainingsdatensätze) Wenn Trainingsdatensätze aus verschiedenen Quellen aggregiert werden, können sich auch unterschiedliche beteiligte Lizenzen ändern (z.B. bedeutet, dass zum Zeitpunkt Datensatz aus Trainingsdaten mit den Lizenzen und aggregiert wurde.
  • (Lernalgorithmus) Der verwendete Lernalgorithmus definiert, wie sich der Maschinenzustand je nach Trainingsdaten entwickelt. Mit einem diskreten iterativen Schritt von bis und den Trainingsdaten zum Zeitpunkt . Dies bedeutet, dass der Lernalgorithmus den aktuellen Maschinenzustand zusammen mit den Trainingsdaten zum neuen Maschinenzustand verändert. Der nächste Lernschritt erzeugt dann induktiv den nächsten Maschinenzustand . Wir können definieren, was bedeutet, dass der Maschinenzustand unverändert bleibt, wenn keine Trainingsdaten bereitgestellt werden.
  • (Datenquellen, experimentelles Design, Metadaten) Für wissenschaftliche Zwecke ist es wichtig, dass geklärt werden kann, wer die Daten gesammelt hat und wie das experimentelle Design für die Datenerhebung gewählt worden war. Identifizieren und benennen Sie die Anforderungen für eine Datenerhebung und die damit verbundenen wissenschaftlichen Standards. Diskutieren Sie die Ähnlichkeiten und Unterschiede im Kontext von Trainingsdaten für das maschinelle Lernen. Nun nehmen wir an, dass auch Herkunft, durchführende Institution (Wissenschaftler:innen) und das experimentelle Design als Metadaten für den Trainingsdatensatz zur Verfügung stehen. Welche andere Metadaten sind für Sie relevant, um die Qualität der Daten zu bewerten, die für das Training im Kontext von Maschinellem Lernen verwendet wird?
  • (Transparenz für trainierte Modelle) Sollten Trainingsdaten aufgrund von Datenschutzbestimmungen (z.B. für medizinische Daten) nicht offen zur Verfügung stehen, könnten die detaillierten Lizenzinformationen mit Metadaten zusammen mit den Informationen zur wissenschaftlichen Einrichtung, die das Modell trainiert hat, zu einer Bewertung eines Maschinenzustands zum Zeitpunkt beitragen.
  • (Machinenzustände) Wenn wir die obigen Überlegungen zusammenfassen, können wir einen Verweis auf den Maschinenzustand erstellen, wobei die Maschine mit dem Lernalgorithmus mit den Trainingsdaten trainiert wurde. Zur Zeit nutzte der maschinelle Lernprozess die in der Liste angegebenen Lizenzen. Ergänzt werden diese Informationen durch weitere optionale Metadaten (für Reproduzierbarkeit). Die Ein-Ausgabepaare definieren, dass bei der Eingabe von mit die Ausgabe generiert. So definiert das Tupel , wie , mit und den beteiligten Lizenzen mit den Metadaten zu generiert wurde. Da es bei dem Training um einen evolutionären Prozess des Maschinenzustands handelt, können Verweise auf eine entsprechende Versionen in einem Versionierungssystem verwendet werden, um eine Transparenz über den evolutionären Entwicklungsprozess herzustellen. Diskutieren Sie die Vorteile und Einschränkungen eines solchen Ansatzes, insbesondere wenn eine sehr große Menge von Daten für das Training verwendet wird und ständig mit einem Eingabestrom von Daten trainiert wird.
  • (Generative künstliche Intelligenz) Angenommen, Benutzer:innen verwenden generative KI zur Texterzeugung, dann sind einige Komponenten des Tupels vielleicht nicht bekannt. Ggf. sind die verwendeten Trainingsdaten und noch nicht einmal die Lizenzbestimmungen der verwendeten Trainingsdaten bekannt. Um ein Minimum an Transparenz der Textgenerierung herzustellen, kann man zumindest die Reihenfolge der Texteingabe für die Textgenerierung mit dem entsprechenden generierten Ausgaben kenntlich machen. Dies kann ggf. verpflichtend für Studierende sein, um die Eigenleistung von generierten Textausgaben dokumentieren zu können. Dies ermöglicht es, den Mehrwert der Lernende zu identifizieren, der über das Resultat der generativen KI hinaus. Kernfragen für eine Bewertung der Leistung im Bildungskontext sind:
    • War die logische Struktur des Textbausteine, die durch die generative KI geliefert wurde, zielführend für die Aufgabenstellung einer wissenschaftlichen Arbeit? Was sind die Gründe für Studierende, die bereitgestellte generierte logische Struktur zu ändern? Wie haben die Änderungen der Studierenden die logische Struktur der KI-generierten Resultate verbessert?
    • Sind Zitate/Referenzen im generierten Dokument enthalten? Belegen die Zitate tatsächlich die diskutierten Inhalt in der wissenschaftlichen Arbeit?
    • Ist der Stand der Technik in der Wissenschaft richtig in der wissenschaftlichen Arbeit integriert worden oder erfordert die gegebene Forschungsfrage noch andere relevante wissenschaftliche Ergebnisse, um den aktuelle für das gegebene Thema erforderlichen wissenschaftlichen Kenntnisstand abzudecken?
    • Haben die Studierenden weitere Referenzen hinzugefügt und wissenschaftliche Argumente geliefert, warum diese Zitate fehlen bzw. die zustäzlichen Resultate in die Arbeit gehören?
    • Die Verwendung von generativem KI in einer Dissertation in Bezug auf Transparenz erfordert 3 Komponenten
      • (Prompt-Ergebnisse) Prompt-Ergebnisse sind Ergebnispaare ,
      • (Manuelle Änderungen) manuelle Änderungen von durch die Studierenden zu und
      • (Metadiskussion) Metadiskussion, warum Änderungen an notwendig sind, um die Anforderungen in einer wissenschaftlichen Arbeit zu erfüllen.
  • (Lizenzketten) Mit Lizenzierungsketten ist es möglich, Transparenz über die verschiedenen Lizenzmodellen herzustellen, um zusammen mit den Trainingsdaten die generierten Ausgaben zu klären. Durch diese Transparenz von Lizenzierung in Trainingsdaten kann man ggf. zu einer Teilmenge von Trainingsdaten übergehen, da nicht die kompletten Trainingsdaten einer erforderlichen Lizenz entsprechen. Anstatt die Maschine mit zu trainieren wird nun der reduzierte Trainingsdatensatz verwendet. Damit wird der Maschinenzustand mit einer lizenzkonformen Teilmenge von Trainingsdaten trainiert und es entsteht mit ein neuer lizenzkonformen Maschinezustand .
    • Diskutieren Sie Anwendungen dieses Szenarios und diskutieren Sie PRO und CONTRA einer reduzierten Anzahl von Trainingsdaten für den Trainingsprozess zum Zeitpunkt !
    • Welche Möglichkeiten ergeben bei diesem Vorgehen, Trainingsdatensätze auf transparenten Lizenz- und Herkunftsinformationen beschränken, die den wissenschaftlichen Anforderung der Datenerhebung genügen?

Beispiele - Derivative Arbeit für Daten

[Bearbeiten]

Betrachten Sie die folgenden Beispiele als Einführung und diskutieren Sie Unterschiede und Ähnlichkeiten von Machinellen Lernen, die auf dem Trainingsdatensatz basiert:

  • (Neue Daten) Aufgrund einer neuen empirischen Studie wird ein bestehender Trainingsdatensatzes zum Zeitpunkt mit zusätzlichen Daten erweitert und ein neuer Datensatz ,
  • (Fehlende Daten in Datensätzen) im vorhandenen Trainingsdatensatz werden zum Zeitpunkt fehlende Werte hinzugefügt und sind die korrigierten Daten.
  • (Korrigiere Daten) Eingabefehler in einem Trainingsdatensatz werden korrigiert z.B. Eingabedaten über die Temperatur wurde auf geändert.
  • (Training mit fehlerhaften oder unzureichenden Daten) Das Training mit dem Trainingsdatensatz führte zu einem neuen Maschinenzustand .

Beschreiben Sie das Vorgehen, damit die Ausgabe der Maschine nun die verbesserte Datenlage wiedergibt!


Aufgaben zu offenen Daten

[Bearbeiten]

Übertragen Sie das Konzept der abgeleiteten Arbeit, um Daten zu öffnen und zu diskutieren, wie Veränderungen und Modifikationen von Daten in einer transparenten Infrastruktur von einer wissenschaftlichen Gemeinschaft verwaltet werden können.

Lernaufgaben - Trainingsdaten

[Bearbeiten]

Analysieren Sie offenen Lizenzmodelle (wie GNU Public License, Creative Commons, ...) wie abgeleitete Arbeit und Ergänzungen von digitalen Beiträge erfolgen können und die Derivate weiterhin für die Gemeinschaft offen nutzbar bleiben können? Wie trägt das Lizenzierungsmodell zu offenen Ökosystem für Innovationen mit digitalen öffentlichen Gütern[1] arbeiten? Bewerben Sie dieses Konzept, um Daten für Open Machine Learning zu trainieren und die Anforderungen und Zwänge zu diskutieren. Offene Daten räumliches Risikomanagement z.B. im Rahmen der Straßenverkehrssicherheit[2]. Was sind die Vorteile, Herausforderungen, Anforderungen und Rahmenbedingungen, wenn man in diesem Zusammenhang maschinelles Lernen nutzen möchte?

Lernaufgaben - Offenes Maschinelles Lernen - Lizenzierungsketten

[Bearbeiten]

Als Voraussetzung nehmen wir an, dass Trainingsdaten unter einer offenen Lizenz vorliegen, die abgeleitete Arbeiten erlauben (z.B. Textdokumente unter einer Creative-Commons-Lizenz) und trainieren eine Maschine zu einem Zeitpunkt mit einem Open Source-Lernalgorithmus, der von der wissenschaftlichen Gemeinschaft transparent zur Verfügung gestellt wird. Ein neuer Systemzustand der Maschine ändert das Ein-Ausgabeverhalten (In-Out-Behaviour - IOB) durch den Trainingsprozess. Jetzt generiert die Maschine die Ausgabe mit Eingabedaten mit . Welches Lizenzierungsmodell sollte dem Ausgang zugewiesen werden, wenn die Trainingsdaten unter der Lizenz bereitgestellt werden? Diskutieren Sie verschiedene Aspekte bezüglich einer Lizenzierungskette, die die Ausgabe der Maschine wiederum als Trainingsdaten verwendet, um einen neuen Maschinenzustand zu generieren!

Lernaufgaben - Gleiches maschinelles Lernverfahrenen mit unterschiedlichen Trainingsdaten

[Bearbeiten]

Nehmen wir an, wir haben zwei verschiedene offene Trainingsdatensätze und . Weiterhin verwenden Sie ein neuronales Netzwerkmodell (z.B. Backpropagationsnetzwerk und eine vordefinierte Topologie des Netzwerks (d.h. Anzahl der Neuronen, Verbindungen zwischen Neuronen, Neuronenschichten, ...) in einem künstlichen neuronalen Netz und eine festgelegte Aktivierungsfunktionen der Neuronen. Ferner ist initiale Ausgangszustände von zwei Maschinen mit und zur Zeit gleich.

Verwenden Sie verschiedene Trainingsdatensätze

[Bearbeiten]

Mit den beiden unterschiedlichen Datensätzen werden nun in einer offenen transparenten und reproduzierbare Weise die Abbildung und trainiert. Die Maschinen entwickeln sich damit auf unterschiedlichen Pfaden bzgl. des Zeitindexes .

Training des Ein-Ausgabeverhaltens

[Bearbeiten]

Im Allgemeinen wird das Ein-Ausgabeverhalten (In-Output-Behaviour - IOB) zum Zeitpunkt für die Maschinen und zum Zeitpunkt trotz gleichem Startzustands und gleichem Lernalgorithmus unterschiedlich sein. Diskutieren Sie die Rolle Trainingsdaten und als Teil der "Programmierung" des IOB beim Maschinellen Lernen.

Bias in Trainingsdaten

[Bearbeiten]

Was ist ein Bias? Diskutieren Sie einen Beispieltrainingsdatensatz Ihrer Wahl, die einen Bias (z.B. im Kontext der Menschenrechte, hinzugefügt gefälschte Nachrichtendaten, fehlende Daten, unzuverlässige Datenquellen,...) beinhaltet und erklären Sie, wie der Bias in den Trainingsdaten einen Einfluss auf das Ein-Ausgabeverhalten (IOB) der Maschine hat, die für die Entscheidungsfindung z.B. in der medizinischen Domain [3] verwendet wird. Wie kann Transparenz und Offenheit für die Trainingsdaten dazu beitragen, eine Bias[4] zu identifizieren. Was sind die Herausforderungen, Anforderungen und Einschränkungen (z.B. Datenschutzbestimmungen)?

Literatur/Quellennachweise

[Bearbeiten]
  1. 1,0 1,1 Nordhaug, L. M., & Harris, L. (2021). Digital public goods: Enablers of digital sovereignty. DOI: 10.1787/c023cb2e-en - In book: Development Co-operation Report 2021
  2. Najjar, A., Kaneko, S. I., & Miyanaga, Y. (2017, February). Combining satellite imagery and open data to map road safety. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 31, No. 1).
  3. Mac Namee, B., Cunningham, P., Byrne, S., & Corrigan, O. I. (2002). The problem of bias in training data in regression problems in medical decision support. Artificial intelligence in medicine, 24(1), 51-70.
  4. Khosla, A., Zhou, T., Malisiewicz, T., Efros, A. A., & Torralba, A. (2012). Undoing the damage of dataset bias. In Computer Vision–ECCV 2012: 12th European Conference on Computer Vision, Florence, Italy, October 7-13, 2012, Proceedings, Part I 12 (pp. 158-171). Springer Berlin Heidelberg.

Externe Referenzen

[Bearbeiten]

Siehe auch

[Bearbeiten]

Seiteninformation

[Bearbeiten]

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

[Bearbeiten]

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Open Community Approach' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.