Use pydantic for training sample and prediction sample

gabriel-piles · gabriel-piles · commit b1f40441e7b6 · 2025-03-21T18:44:10.000+01:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "trainable-entity-extractor"
-version = "2025.03.20.04"
+version = "2025.03.20.05"
 description = "This tool is a trainable text/PDF to entity extractor"
 license = { file = "LICENSE" }
 authors = [{ name = "HURIDOCS" }]
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_can_be_used.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_can_be_used.py
@@ -49,14 +49,22 @@ def setUp(self):
         pdf_data_8 = PdfData.from_texts(["point 8"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[self.options[0]], language_iso="en")),
-            TrainingSample(pdf_data_2, LabeledData(values=[self.options[1], self.options[2]], language_iso="es")),
-            TrainingSample(pdf_data_3, LabeledData(values=[self.options[2], self.options[3]], language_iso="en")),
-            TrainingSample(pdf_data_4, LabeledData(values=[self.options[3]], language_iso="fr")),
-            TrainingSample(pdf_data_5, LabeledData(values=[self.options[4], self.options[0]], language_iso="en")),
-            TrainingSample(pdf_data_6, LabeledData(values=[self.options[5]], language_iso="en")),
-            TrainingSample(pdf_data_7, LabeledData(values=[self.options[6], self.options[5]], language_iso="ru")),
-            TrainingSample(pdf_data_8, LabeledData(values=[self.options[7]], language_iso="ru")),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[self.options[0]], language_iso="en")),
+            TrainingSample(
+                pdf_data=pdf_data_2, labeled_data=LabeledData(values=[self.options[1], self.options[2]], language_iso="es")
+            ),
+            TrainingSample(
+                pdf_data=pdf_data_3, labeled_data=LabeledData(values=[self.options[2], self.options[3]], language_iso="en")
+            ),
+            TrainingSample(pdf_data=pdf_data_4, labeled_data=LabeledData(values=[self.options[3]], language_iso="fr")),
+            TrainingSample(
+                pdf_data=pdf_data_5, labeled_data=LabeledData(values=[self.options[4], self.options[0]], language_iso="en")
+            ),
+            TrainingSample(pdf_data=pdf_data_6, labeled_data=LabeledData(values=[self.options[5]], language_iso="en")),
+            TrainingSample(
+                pdf_data=pdf_data_7, labeled_data=LabeledData(values=[self.options[6], self.options[5]], language_iso="ru")
+            ),
+            TrainingSample(pdf_data=pdf_data_8, labeled_data=LabeledData(values=[self.options[7]], language_iso="ru")),
         ]
 
         self.extraction_data_english_multi = ExtractionData(
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_setfit_english.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_setfit_english.py
@@ -44,11 +44,11 @@ def test_train_and_predict(self):
         pdf_data_5 = PdfData.from_texts(["point 5"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1], options[2]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2]])),
-            TrainingSample(pdf_data_4, LabeledData(values=[options[3], options[0]])),
-            TrainingSample(pdf_data_5, LabeledData(values=[options[4]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1], options[2]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_4, labeled_data=LabeledData(values=[options[3], options[0]])),
+            TrainingSample(pdf_data=pdf_data_5, labeled_data=LabeledData(values=[options[4]])),
         ]
 
         samples = samples * 2
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_setfit_multilingual.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_setfit_multilingual.py
@@ -44,11 +44,11 @@ def test_train_and_predict(self):
         pdf_data_5 = PdfData.from_texts(["point 5"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1], options[2]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2]])),
-            TrainingSample(pdf_data_4, LabeledData(values=[options[3], options[0]])),
-            TrainingSample(pdf_data_5, LabeledData(values=[options[4]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1], options[2]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_4, labeled_data=LabeledData(values=[options[3], options[0]])),
+            TrainingSample(pdf_data=pdf_data_5, labeled_data=LabeledData(values=[options[4]])),
         ]
 
         extraction_data = ExtractionData(
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_single_label_setfit_english.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_single_label_setfit_english.py
@@ -36,9 +36,9 @@ def test_train_and_predict(self):
         pdf_data_3 = PdfData.from_texts(["point 3"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2]])),
         ]
 
         extraction_data = ExtractionData(
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_single_label_setfit_multilingual.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_labels_methods/test_single_label_setfit_multilingual.py
@@ -36,9 +36,9 @@ def test_train_and_predict(self):
         pdf_data_3 = PdfData.from_texts(["point 3"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2]])),
         ]
 
         extraction_data = ExtractionData(
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_option_extraction_methods/test_fast_segment_selector_fuzzy_commas.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/multi_option_extraction_methods/test_fast_segment_selector_fuzzy_commas.py
@@ -28,10 +28,10 @@ def test_performance_100(self):
         pdf_data_4 = PdfData.from_texts(["2, 3"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0], options[1]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2], options[0]])),
-            TrainingSample(pdf_data_4, LabeledData(values=[options[1], options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0], options[1]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2], options[0]])),
+            TrainingSample(pdf_data=pdf_data_4, labeled_data=LabeledData(values=[options[1], options[2]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -52,10 +52,10 @@ def test_performance_83(self):
         pdf_data_4 = PdfData.from_texts(["4"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0], options[1]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2], options[0]])),
-            TrainingSample(pdf_data_4, LabeledData(values=[options[1], options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0], options[1]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2], options[0]])),
+            TrainingSample(pdf_data=pdf_data_4, labeled_data=LabeledData(values=[options[1], options[2]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -82,10 +82,10 @@ def test_predictions(self):
         pdf_data_5 = PdfData.from_texts(["4, 3"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0], options[1]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2], options[0]])),
-            TrainingSample(pdf_data_4, LabeledData(values=[options[1], options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0], options[1]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2], options[0]])),
+            TrainingSample(pdf_data=pdf_data_4, labeled_data=LabeledData(values=[options[1], options[2]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -96,8 +96,8 @@ def test_predictions(self):
         fast_segment_selector_fuzzy_commas.train(multi_option_data)
 
         prediction_samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[])),
-            TrainingSample(pdf_data_5, LabeledData(values=[])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[])),
+            TrainingSample(pdf_data=pdf_data_5, labeled_data=LabeledData(values=[])),
         ]
         prediction_multi_option_data = ExtractionData(
             multi_value=True, options=options, samples=prediction_samples, extraction_identifier=self.extraction_identifier
@@ -122,9 +122,9 @@ def test_predictions_when_empy_data(self):
         pdf_data_3 = PdfData.from_texts(["3, 1"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0], options[1]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2], options[0]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0], options[1]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2], options[0]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -135,10 +135,10 @@ def test_predictions_when_empy_data(self):
         fast_segment_selector_fuzzy_commas.train(multi_option_data)
 
         prediction_samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[])),
-            TrainingSample(PdfData(), LabeledData(values=[])),
-            TrainingSample(PdfData.from_texts([]), LabeledData(values=[])),
-            TrainingSample(PdfData.from_texts([""]), LabeledData(values=[])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[])),
+            TrainingSample(pdf_data=PdfData(), labeled_data=LabeledData(values=[])),
+            TrainingSample(pdf_data=PdfData.from_texts([]), labeled_data=LabeledData(values=[])),
+            TrainingSample(pdf_data=PdfData.from_texts([""]), labeled_data=LabeledData(values=[])),
         ]
         prediction_multi_option_data = ExtractionData(
             multi_value=True, options=options, samples=prediction_samples, extraction_identifier=self.extraction_identifier
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/test_filter_segments.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/test_filter_segments.py
@@ -35,9 +35,9 @@ def get_data(self) -> ExtractionData:
         pdf_data_3 = PdfData.from_texts(["point 3", "point 3", "point 3"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -53,7 +53,7 @@ def get_data_for_context(self) -> ExtractionData:
         pdf_data = PdfData.from_texts(["point 1"] * 3000)
 
         samples = [
-            TrainingSample(pdf_data, LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data, labeled_data=LabeledData(values=[options[0]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -69,7 +69,7 @@ def get_empty_segments(self):
         pdf_data_1 = PdfData.from_texts([""])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -84,7 +84,7 @@ def get_no_segments(self):
         pdf_data_1 = PdfData()
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
         ]
 
         multi_option_data = ExtractionData(
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/test_fuzzy_methods.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/test_fuzzy_methods.py
@@ -35,9 +35,9 @@ def test_fuzzy_all_100(self):
         pdf_data_3 = PdfData.from_texts(["blah. item 10, item 1. blah"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[2]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[0], options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[0], options[2]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -61,8 +61,8 @@ def test_fuzzy_commas(self):
         pdf_data_2 = PdfData.from_texts(["blah, 10 item, item 1, blah"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[2]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -93,7 +93,7 @@ def test_fuzzy_commas_aliases(self):
         pdf_data_1.pdf_data_segments[0].ml_label = 1
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -119,9 +119,9 @@ def test_fast_segment_selector_fuzzy_95(self):
         pdf_data_3 = PdfData.from_texts(["foo", "var", "mark 1", "item 10", text])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0], options[1], options[2]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0], options[1], options[2]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2]])),
         ] * 5
 
         multi_option_data = ExtractionData(
@@ -160,7 +160,7 @@ def test_fuzzy_all_75(self):
         pdf_data_1 = PdfData.from_texts(["blah. item 1. blah"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -183,9 +183,9 @@ def test_fuzzy_first(self):
         pdf_data_3 = PdfData.from_texts(["blah. item 10, item 1. blah"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[2]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[0], options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[0], options[2]])),
         ]
 
         multi_option_data = ExtractionData(
diff --git a/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/test_pdf_to_multi_option_extraction.py b/src/tests/trainable_entity_extractor/use_cases/extractors/pdf_to_multi_option_extractor/test_pdf_to_multi_option_extraction.py
@@ -24,9 +24,9 @@ def test_single_value(self):
         pdf_data_3 = PdfData.from_texts(["point 3"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -53,9 +53,9 @@ def test_multi_value(self):
         pdf_data_3 = PdfData.from_texts(["point 3 point 1"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0], options[1]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2], options[0]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0], options[1]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2], options[0]])),
         ]
 
         multi_option_data = ExtractionData(
@@ -86,9 +86,9 @@ def test_no_prediction_data(self):
         pdf_data_3 = PdfData.from_texts(["point three point one"])
 
         samples = [
-            TrainingSample(pdf_data_1, LabeledData(values=[options[0]])),
-            TrainingSample(pdf_data_2, LabeledData(values=[options[1]])),
-            TrainingSample(pdf_data_3, LabeledData(values=[options[2]])),
+            TrainingSample(pdf_data=pdf_data_1, labeled_data=LabeledData(values=[options[0]])),
+            TrainingSample(pdf_data=pdf_data_2, labeled_data=LabeledData(values=[options[1]])),
+            TrainingSample(pdf_data=pdf_data_3, labeled_data=LabeledData(values=[options[2]])),
         ]
 
         multi_option_data = ExtractionData(
diff --git a/src/trainable_entity_extractor/domain/PredictionSample.py b/src/trainable_entity_extractor/domain/PredictionSample.py
@@ -1,13 +1,14 @@
-from dataclasses import dataclass
+from typing import Optional
+
+from pydantic import BaseModel
 
 from trainable_entity_extractor.domain.PdfData import PdfData
 from trainable_entity_extractor.domain.PdfDataSegment import PdfDataSegment
 
 
-@dataclass
-class PredictionSample:
-    pdf_data: PdfData = None
-    segment_selector_texts: list[str] = None
+class PredictionSample(BaseModel):
+    pdf_data: Optional[PdfData] = None
+    segment_selector_texts: Optional[list[str]] = None
     source_text: str = ""
     entity_name: str = ""
 
diff --git a/src/trainable_entity_extractor/domain/TrainingSample.py b/src/trainable_entity_extractor/domain/TrainingSample.py
@@ -1,21 +1,19 @@
-from dataclasses import dataclass
 from pathlib import Path
+from typing import Optional
 
 from pdf_features.PdfFeatures import PdfFeatures
-from pdf_features.Rectangle import Rectangle
+from pydantic import BaseModel
 
 from trainable_entity_extractor.domain.LabeledData import LabeledData
 from trainable_entity_extractor.domain.Option import Option
 from trainable_entity_extractor.domain.PdfData import PdfData
-from trainable_entity_extractor.domain.SegmentBox import SegmentBox
 from trainable_entity_extractor.domain.SegmentationData import SegmentationData
 
 
-@dataclass
-class TrainingSample:
-    pdf_data: PdfData = None
-    labeled_data: LabeledData = None
-    segment_selector_texts: list[str] = None
+class TrainingSample(BaseModel):
+    pdf_data: Optional[PdfData] = None
+    labeled_data: Optional[LabeledData] = None
+    segment_selector_texts: Optional[list[str]] = None
 
     def get_text(self):
         texts = list()
diff --git a/src/trainable_entity_extractor/use_cases/extractors/ToTextExtractorMethod.py b/src/trainable_entity_extractor/use_cases/extractors/ToTextExtractorMethod.py