Kurs Diskussion:Natürliche Sprachverarbeitung
Abschnitt hinzufügenAllgemeines
[Bearbeiten]Hi René,
du hast ja schon ziemlich viel online gestellt. Wie handhaben wir edits? Darf ich die Seiten einfach bearbeiten? (Gerade sind mir vor allem ae / ä aufgefallen, aber da kommen hoffentlich noch produktive Beiträge.)
Grüße, --MartinThoma (Diskussion) 20:28, 12. Jun. 2014 (CEST)
- ja editier einfach alles was du willst. ich muss mir mal wieder normale Umlaute angewoehnen (: --Renepick (Diskussion) 21:44, 12. Jun. 2014 (CEST)
POS-Modelle
[Bearbeiten]Was sind POS-Modelle? --MartinThoma (Diskussion) 03:05, 13. Jun. 2014 (CEST)
- POS steht fuer part of speech tagging. es ist eine spezielle form von classed based models und eine aktuelle forschungsarbeit von mir. ich glaube ich hatte das auch mit nem fragezeichen drin. --Renepick (Diskussion) 09:54, 13. Jun. 2014 (CEST)
Programmiersprache und Editor
[Bearbeiten]Ich denke bei der Wahl der Programmiersprache sollte man eventuell auf die Teilnehmer eingehen.
Ich benutze seit ca. einem halben Jahr nur noch Sublime Text (vgl. Liebeserklärung), für Java ist aber Eclipse einfach sehr bekannt und vermutlich auch deutlich besser geeignet. Sublime hat einfach eine sehr niedrige Einstiegsschwelle und eine steile Lernkurve.
- Wir haben in der letzten DSA emacs verwendet und hier auf wikiversity einige der wichtigsten Befehlen mit den Schuelern zusammen gestellt: Emacs tutorial. Wir haben vor allem erstaundlich gute Erfahrungen damit gemacht. Ich mag da ehrlich keinen Glaubenskrieg fuehren, ich selbst verwende Emacs nur gelegentlich. Von daher koennen wir auch gerne was anderes verwenden. Ich denke aber es ist ein sehr gute Idee, einen komplexen Editor vorzustellen, da es einfach ein implizites Lernziel ist zu sehen, was fuer eine Power in solchen tools steckt. --Renepick (Diskussion) 10:05, 13. Jun. 2014 (CEST)
Heutzutage haben einige Schüler Java in der Schule. Ich bin mir nicht sicher ob man das als pro- oder contra-Argument sehen soll.
- du bekommst so oder so keine 100% homogenitaet. Wir werden schueler haben, die bei uns erst programmieren lernen. und selbst wenn schueler vorerfahrung haben, hast du in der Regel nur 3 bis 6 Schueler die wirklich schon programmieren koennen. --Renepick (Diskussion) 10:05, 13. Jun. 2014 (CEST)
Wichtiger sind vermutlich Bibliotheken / Toolkits die wir nutzen wollen. Außerdem denke ich sollte man sich auf eine Sprache beschränken. --MartinThoma (Diskussion) 03:10, 13. Jun. 2014 (CEST)
- Jep bin total bei dir. deswegen hatt eich java und python vorgeschlagen. Fuer python gibt es NLTK und fuer javan gibt es die ganzen Stanford libraries. Alles was in c geschrieben ist (z.b. MOSES) bindet man eh ueber die konsole ein. --Renepick (Diskussion) 10:05, 13. Jun. 2014 (CEST)
Anwendung und Ausblick
[Bearbeiten]Willst du alles davon selbst programmieren / nutzen oder einfach nur erwähnen?
Ich denke allein für die Nutzung von CMU-Sphinx würde man schon einen Tag benötigen. Wenn man dann noch verstehen will wie / warum es funktioniert, geht lockern nochmals ein Tag drauf.
Zur Handschrifterkennung: Da kann ich vermutlich ein paar Dinge dazu sagen:
Wünschenswertes Vorwissen: Bayes-Rule, Sprachmodelle, (cubic) splines
- Vorverarbeitung: Slant correction, baseline correction, scaling / shifting, interpolation, lowpass-filter, wild-point detection
- Features:
- Local: coordinates, writing direction, speed, (binary) pressure,
- Global: context-bitmap, number of lines
- Segmentation: Hier mach ich momentan noch eher wenig. Ich glaube da kommen häufig HMMs ins Spiel(?)
- Evaluating: Sobald man features hat, kann man eine ganze Menge an ML-Zeug draufwerfen (z.B. neuronale Netze)
- "Nachverarbeitung": (Auch hier kann ich wenig dazu sagen.) In diesem Schritt kann man Sprachmodelle verwenden, um die Wahrscheinlichkeiten aus dem "Evaluating"-Schritt anzupassen.
Geht das in die Richtung handschrifterkennung, die du meinst?
Grüße, --MartinThoma (Diskussion) 00:43, 14. Jun. 2014 (CEST)