-
Liebe Community, Jetzt frage ich mich, ob ich bereits mit der kleinen zur Zeit vorhandenen Textmenge beginne zu trainieren und das Modell dann jeweils mit den alten und den neu eingetroffenen Texten dazu weiter trainiere oder ob ich auf alle Teile der GT warte, bevor ich mit dem Training beginne. Hat dazu vielleicht jemand Erfahrungen gemacht? Viele Grüße, Hans-Peter |
Beta Was this translation helpful? Give feedback.
Replies: 2 comments
-
Ja, es lohnt sich, bereits mit einer kleineren Menge zu trainieren. So erhält man ein neues Modell, das eine bessere Ausgangsbasis für die menuelle Korrektur bietet. Ein typischer Ablauf für mich ist wie folgt:
Mit einem nachtrainierten MYMODEL sollte man auch versuchen, die unvermeidlichen menschlichen Fehler zu finden und zu korrigieren. Dafür lässt transkribiert man die manuell korrigierten Seiten auch noch automatisch mit MYMODEL, aber lässt das Ergebnis unter dem Namen "mymodel" sichern. Danach vergleicht man dieses Ergebnis mit dem Ergebnis "manuel" und korrigiert letzteres bei Bedarf. Mit dem so korrigierten "manual" kann man dann ein weiteres Mal ein neues MYMODEL auf Basis von BASEMODEL nachtrainieren. Wichtig: Man sollte immer mit dem gleichen Ausgangsmodell BASEMODEL und einer wachsenden Anzahl von manuell korrigierten Seiten trainieren, also nicht bei jedem neuen Training das Modell aus dem vorhergehenden Training als Ausgangsmodell nehmen. |
Beta Was this translation helpful? Give feedback.
-
Und noch ein Nachtrag: gute Trainingsdaten insbesondere für Handschriften sind immer noch rar und gesucht. Wenn sie frei nachnutzbar publiziert werden (idealerweise auf GitHub, wo man sie einfach korrigieren und erweitern kann), dann kann ich sie für das Training unserer generischen Modelle verwenden. |
Beta Was this translation helpful? Give feedback.
Ja, es lohnt sich, bereits mit einer kleineren Menge zu trainieren. So erhält man ein neues Modell, das eine bessere Ausgangsbasis für die menuelle Korrektur bietet.
Ein typischer Ablauf für mich ist wie folgt: