Kurs Diskussion:Natürliche Sprachverarbeitung

Allgemeines

Letzter Kommentar: vor 10 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Hi René,

du hast ja schon ziemlich viel online gestellt. Wie handhaben wir edits? Darf ich die Seiten einfach bearbeiten? (Gerade sind mir vor allem ae / ä aufgefallen, aber da kommen hoffentlich noch produktive Beiträge.)

Grüße, --MartinThoma (Diskussion) 20:28, 12. Jun. 2014 (CEST)Beantworten

ja editier einfach alles was du willst. ich muss mir mal wieder normale Umlaute angewoehnen (: --Renepick (Diskussion) 21:44, 12. Jun. 2014 (CEST)Beantworten

POS-Modelle

Letzter Kommentar: vor 10 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Was sind POS-Modelle? --MartinThoma (Diskussion) 03:05, 13. Jun. 2014 (CEST)Beantworten

POS steht fuer part of speech tagging. es ist eine spezielle form von classed based models und eine aktuelle forschungsarbeit von mir. ich glaube ich hatte das auch mit nem fragezeichen drin. --Renepick (Diskussion) 09:54, 13. Jun. 2014 (CEST)Beantworten

Programmiersprache und Editor

Letzter Kommentar: vor 10 Jahren4 Kommentare2 Personen sind an der Diskussion beteiligt

Ich denke bei der Wahl der Programmiersprache sollte man eventuell auf die Teilnehmer eingehen.

Ich benutze seit ca. einem halben Jahr nur noch Sublime Text (vgl. Liebeserklärung), für Java ist aber Eclipse einfach sehr bekannt und vermutlich auch deutlich besser geeignet. Sublime hat einfach eine sehr niedrige Einstiegsschwelle und eine steile Lernkurve.

Wir haben in der letzten DSA emacs verwendet und hier auf wikiversity einige der wichtigsten Befehlen mit den Schuelern zusammen gestellt: Emacs tutorial. Wir haben vor allem erstaundlich gute Erfahrungen damit gemacht. Ich mag da ehrlich keinen Glaubenskrieg fuehren, ich selbst verwende Emacs nur gelegentlich. Von daher koennen wir auch gerne was anderes verwenden. Ich denke aber es ist ein sehr gute Idee, einen komplexen Editor vorzustellen, da es einfach ein implizites Lernziel ist zu sehen, was fuer eine Power in solchen tools steckt. --Renepick (Diskussion) 10:05, 13. Jun. 2014 (CEST)Beantworten

Heutzutage haben einige Schüler Java in der Schule. Ich bin mir nicht sicher ob man das als pro- oder contra-Argument sehen soll.

du bekommst so oder so keine 100% homogenitaet. Wir werden schueler haben, die bei uns erst programmieren lernen. und selbst wenn schueler vorerfahrung haben, hast du in der Regel nur 3 bis 6 Schueler die wirklich schon programmieren koennen. --Renepick (Diskussion) 10:05, 13. Jun. 2014 (CEST)Beantworten

Wichtiger sind vermutlich Bibliotheken / Toolkits die wir nutzen wollen. Außerdem denke ich sollte man sich auf eine Sprache beschränken. --MartinThoma (Diskussion) 03:10, 13. Jun. 2014 (CEST)Beantworten

Jep bin total bei dir. deswegen hatt eich java und python vorgeschlagen. Fuer python gibt es NLTK und fuer javan gibt es die ganzen Stanford libraries. Alles was in c geschrieben ist (z.b. MOSES) bindet man eh ueber die konsole ein. --Renepick (Diskussion) 10:05, 13. Jun. 2014 (CEST)Beantworten

Anwendung und Ausblick

Letzter Kommentar: vor 10 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Willst du alles davon selbst programmieren / nutzen oder einfach nur erwähnen?

Ich denke allein für die Nutzung von CMU-Sphinx würde man schon einen Tag benötigen. Wenn man dann noch verstehen will wie / warum es funktioniert, geht lockern nochmals ein Tag drauf.

Zur Handschrifterkennung: Da kann ich vermutlich ein paar Dinge dazu sagen:

Wünschenswertes Vorwissen: Bayes-Rule, Sprachmodelle, (cubic) splines

Vorverarbeitung: Slant correction, baseline correction, scaling / shifting, interpolation, lowpass-filter, wild-point detection
Features:
- Local: coordinates, writing direction, speed, (binary) pressure,
- Global: context-bitmap, number of lines
Segmentation: Hier mach ich momentan noch eher wenig. Ich glaube da kommen häufig HMMs ins Spiel(?)
Evaluating: Sobald man features hat, kann man eine ganze Menge an ML-Zeug draufwerfen (z.B. neuronale Netze)
"Nachverarbeitung": (Auch hier kann ich wenig dazu sagen.) In diesem Schritt kann man Sprachmodelle verwenden, um die Wahrscheinlichkeiten aus dem "Evaluating"-Schritt anzupassen.

Geht das in die Richtung handschrifterkennung, die du meinst?

Grüße, --MartinThoma (Diskussion) 00:43, 14. Jun. 2014 (CEST)Beantworten