Preprocessing
Bevor ein Korpus für das Training der AI übergeben werden kann, müssen einige Vorverarbeitungsschritte ausgeführt werden. Unerwünschte Inhalte zum Beispiel werden entfernt, Normalisierungen ausgeführt und die Texte an Modellspezifika angepasst. Wenn ein Modell im Pretraining zum Beispiel nur eine Art Anführungszeichen kennengelernt hat, sollten diese Anführungszeichen im Trainingskorpus für das Finetuning die gleichen sein, damit sie sofort richtig erkannt werden.