fix: current status before merging and trying to upgrade for eurobert

zanussbaum · zanussbaum · commit ef4e12a1fbc0 · 2025-04-15T19:10:52.000Z
diff --git a/FlagEmbedding/inference/auto_embedder.py b/FlagEmbedding/inference/auto_embedder.py
@@ -58,8 +58,8 @@ def from_finetuned(
             AbsEmbedder: The model class to load model, which is child class of :class:`AbsEmbedder`.
         """
         model_name = os.path.basename(model_name_or_path)
-        if "nomic" in model_name_or_path:
-            model_name = "nomic"
+        # if "nomic" in model_name_or_path:
+        #     model_name = "nomic"
         if model_name.startswith("checkpoint-"):
             model_name = os.path.basename(os.path.dirname(model_name_or_path))
 
diff --git a/FlagEmbedding/inference/embedder/encoder_only/nomic.py b/FlagEmbedding/inference/embedder/encoder_only/nomic.py
@@ -28,7 +28,7 @@ def _transform_func(tokenizer,
 
 # Triton is not thread safe AFAICT so using naive DataParallel fails
 class EncoderWorker(mp.Process):
-    def __init__(self, rank, world_size, input_queue, output_queue, model_name, tokenizer_name, batch_size, master_port=12345):
+    def __init__(self, rank, world_size, input_queue, output_queue, model_name, tokenizer_name, batch_size, master_port=12344):
         super().__init__()
         self.rank = rank
         self.world_size = world_size
@@ -99,7 +99,7 @@ def run(self):
 
                 local_embeds = []
                 with torch.no_grad():
-                    for batch_dict in tqdm(loader, desc=f"Rank {self.rank}"):
+                    for batch_dict in tqdm(loader, desc=f"Rank {self.rank}", disable=True):
                         batch_dict = {k: v.cuda(self.rank) for k, v in batch_dict.items()}
                         with torch.autocast(device_type="cuda", dtype=torch.bfloat16):
                             outputs = encoder(**batch_dict)
@@ -215,11 +215,15 @@ def encode_corpus(self, corpus: List[Dict[str, str]], **kwargs) -> np.ndarray:
     def encode_single_device(
         self,
         sentences: Union[List[str], str],
-        batch_size: int = 256,
+        batch_size: int = 512,
         max_length: int = 512,
         convert_to_numpy: bool = True,
         device: Optional[str] = None,
     ):
+        if isinstance(sentences, str):
+            sentences = [sentences]
+        
+        # Initialize workers if not already initialized
         if len(self.workers) == 0:
             for rank in range(self.world_size):
                 worker = EncoderWorker(
@@ -234,17 +238,41 @@ def encode_single_device(
                 worker.start()
                 self.workers.append(worker)
 
-        if isinstance(sentences, str):
-            sentences = [sentences]
-
-        for _ in range(self.world_size):
-            self.input_queue.put(sentences)
-        result = self.output_queue.get()
-
-        if isinstance(result, Exception):
-            raise result
-
-        return result
+        # Calculate number of batches
+        total_samples = len(sentences)
+        batch_size = 65536
+        num_batches = (total_samples + batch_size - 1) // batch_size
+        
+        all_results = []
+        
+        # Process sentences in batches
+        for batch_idx in tqdm(range(num_batches)):
+            start_idx = batch_idx * batch_size
+            end_idx = min((batch_idx + 1) * batch_size, total_samples)
+            batch_sentences = sentences[start_idx:end_idx]
+            
+            # Distribute batch to workers
+            for _ in range(self.world_size):
+                self.input_queue.put(batch_sentences)
+            
+            # Get results for this batch
+            batch_result = self.output_queue.get()
+            
+            if isinstance(batch_result, Exception):
+                raise batch_result
+            
+            all_results.append(batch_result)
+        
+        # Concatenate results from all batches
+        if len(all_results) > 1:
+            if isinstance(all_results[0], np.ndarray):
+                final_result = np.concatenate(all_results, axis=0)
+            else:  # Assuming torch.Tensor
+                final_result = torch.cat(all_results, dim=0)
+        else:
+            final_result = all_results[0]
+        
+        return final_result
 
     def __del__(self):
         # Send poison pills to workers
diff --git a/FlagEmbedding/inference/embedder/model_mapping.py b/FlagEmbedding/inference/embedder/model_mapping.py
@@ -234,9 +234,14 @@ class EmbedderConfig:
         EmbedderConfig(FlagModel, PoolingMethod.CLS, trust_remote_code=True)
     ),
     (
-        'nomic',
-        EmbedderConfig(NomicModel, None)
-    )
+        'eurobert-210m-2e4-128sl-subset',
+        EmbedderConfig(FlagModel, PoolingMethod.MEAN, trust_remote_code=True)
+    ),
+    # (
+    #     'nomic',
+    #     EmbedderConfig(NomicModel, None)
+    # )
+    # TODO: Add more models, such as Jina, Stella_v5, NV-Embed, etc.
 ])
 
 # Combine all mappings
diff --git a/examples/evaluation/miracl/e5.md b/examples/evaluation/miracl/e5.md
@@ -0,0 +1,3 @@
+| Model | Reranker | average | ar-dev | bn-dev | de-dev | en-dev | es-dev | fa-dev | fi-dev | fr-dev | hi-dev | id-dev | ja-dev | ko-dev | ru-dev | sw-dev | te-dev | th-dev | yo-dev | zh-dev |
+| :---- | :---- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
+| multilingual-e5-base | NoReranker | 39.219 | 51.822 | 52.237 | 23.059 | 31.310 | 26.891 | 32.108 | 56.341 | 20.316 | 29.566 | 36.206 | 43.846 | 46.233 | 34.874 | 54.593 | 61.314 | 56.953 | 20.704 | 27.565 | 
diff --git a/examples/evaluation/miracl/eval_miracl.sh b/examples/evaluation/miracl/eval_miracl.sh
@@ -2,10 +2,12 @@ if [ -z "$HF_HUB_CACHE" ]; then
     export HF_HUB_CACHE="$HOME/.cache/huggingface/hub"
 fi
 
-dataset_names="ar bn de en es fa fi fr hi id ja ko ru sw te th yo zh"
+# pass in language via cli, default is all languages
+#"ar bn de en es fa fi fr hi id ja ko ru sw te th yo zh"
+#                     0 0  1  1  2  2  3   3  3 4   4  5  5 6   6  7  7
+dataset_names=(${1:-"ar bn de en es fa fi fr hi id ja ko ru sw te th yo zh"})
+device=${2:-"cuda:0 cuda:1 cuda:2 cuda:3 cuda:4 cuda:5 cuda:6 cuda:7"}
 
-VENV="/home/ubuntu/contrastors-dev/env/"
-source $VENV/bin/activate
 
 eval_args="\
     --eval_name miracl \
@@ -24,16 +26,18 @@ eval_args="\
 "
 
 model_args="\
-    --embedder_name_or_path /home/ubuntu/contrastors-dev/src/contrastors/ckpts/nomic-multi-finetune-bge-bge-m3-filtered-data-512tokens/epoch_0_model \
-    --devices cuda:1 \
+    --embedder_name_or_path nomic-ai/eurobert-210m-2e4-128sl-subset \
+    --devices $device \
     --trust_remote_code \
     --query_instruction_for_retrieval 'search_query: ' \
     --passage_instruction_for_retrieval 'search_document: ' \
-    --embedder_batch_size 32 \
+    --embedder_batch_size 512 \
+    --embedder_query_max_length 128 \
+    --embedder_passage_max_length 128 \
     --cache_dir $HF_HUB_CACHE 
 "
 
-cmd="/home/ubuntu/contrastors-dev/env/bin/python -m FlagEmbedding.evaluation.miracl \
+cmd="uv run python -W ignore -m FlagEmbedding.evaluation.miracl \
     $eval_args \
     $model_args \
 "
diff --git a/examples/evaluation/miracl/miracl/miracl_eval_results.md b/examples/evaluation/miracl/miracl/miracl_eval_results.md
@@ -2,21 +2,25 @@
 
 | Model | Reranker | average | ar-dev | bn-dev | de-dev | en-dev | es-dev | fa-dev | fi-dev | fr-dev | hi-dev | id-dev | ja-dev | ko-dev | ru-dev | sw-dev | te-dev | th-dev | yo-dev | zh-dev |
 | :---- | :---- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
+| finetune_256_tokens | NoReranker | 65.756 | 76.435 | 72.657 | 57.761 | 56.709 | **57.068** | 58.854 | 77.334 | 55.999 | 60.278 | 54.011 | 67.139 | 66.395 | 64.520 | 64.530 | 82.571 | 77.493 | 77.345 | 56.514 | 
+| finetune_512_tokens | NoReranker | 65.644 | 76.229 | 72.891 | 57.554 | 56.727 | 56.677 | 58.892 | 77.359 | 55.832 | 60.038 | 54.137 | 66.875 | 65.942 | 64.612 | 64.461 | 82.553 | 77.309 | 76.302 | 57.209 | 
 | snowflake-arctic-embed-l-v2.0 | NoReranker | 66.263 | 76.046 | 74.416 | **58.565** | 53.688 | 55.598 | 60.288 | 77.079 | 56.658 | 58.368 | 52.254 | 66.452 | 66.248 | 67.071 | 70.756 | 83.489 | 77.520 | 78.317 | 59.917 | 
-| gte-multilingual-base | NoReranker | 63.560 | 71.407 | 72.908 | 49.722 | 54.030 | 51.779 | 54.007 | 73.497 | 54.490 | 51.888 | 50.315 | 65.798 | 62.862 | 63.244 | 69.925 | 83.076 | 74.037 | 79.332 | 61.765 | 
-| multilingual-e5-base | NoReranker | 39.219 | 51.822 | 52.237 | 23.059 | 31.310 | 26.891 | 32.108 | 56.341 | 20.316 | 29.566 | 36.206 | 43.846 | 46.233 | 34.874 | 54.593 | 61.314 | 56.953 | 20.704 | 27.565 | 
+| epoch_0_model | NoReranker | 65.996 | 76.675 | 73.627 | 56.597 | 54.657 | 56.303 | 59.219 | 77.095 | 55.831 | **60.485** | 54.281 | 67.037 | 65.898 | 65.148 | 66.303 | 82.615 | 78.366 | 78.260 | 59.529 | 
 | snowflake-arctic-embed-m-v2.0 | NoReranker | 60.604 | 69.689 | 67.648 | 56.645 | 55.739 | 55.416 | 52.611 | 68.359 | 54.035 | 53.662 | 48.267 | 58.268 | 59.696 | 58.766 | 52.289 | 81.711 | 74.249 | 75.559 | 48.270 | 
 | bge-m3 | NoReranker | **69.202** | **78.445** | **79.941** | 56.764 | **56.888** | 56.080 | **60.866** | **78.619** | **58.228** | 59.458 | **56.020** | **72.802** | **69.624** | **70.109** | **78.607** | **86.156** | **82.619** | **81.794** | **62.616** | 
-| epoch_0_model | NoReranker | 65.756 | 76.435 | 72.657 | 57.761 | 56.709 | **57.068** | 58.854 | 77.334 | 55.999 | **60.278** | 54.011 | 67.139 | 66.395 | 64.520 | 64.530 | 82.571 | 77.493 | 77.345 | 56.514 | 
+| multilingual-e5-base | NoReranker | - | 57.134 | 52.770 | 27.977 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 
+| gte-multilingual-base | NoReranker | 63.560 | 71.407 | 72.908 | 49.722 | 54.030 | 51.779 | 54.007 | 73.497 | 54.490 | 51.888 | 50.315 | 65.798 | 62.862 | 63.244 | 69.925 | 83.076 | 74.037 | 79.332 | 61.765 | 
 
 ## recall_at_100
 
 | Model | Reranker | average | ar-dev | bn-dev | de-dev | en-dev | es-dev | fa-dev | fi-dev | fr-dev | hi-dev | id-dev | ja-dev | ko-dev | ru-dev | sw-dev | te-dev | th-dev | yo-dev | zh-dev |
 | :---- | :---- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
+| finetune_256_tokens | NoReranker | 94.843 | **97.891** | 98.174 | **92.072** | 90.887 | **92.019** | 93.590 | 97.832 | 93.921 | 92.519 | 89.337 | 96.291 | 94.549 | 95.254 | 92.732 | 98.027 | 98.722 | **99.160** | 94.201 | 
+| finetune_512_tokens | NoReranker | 94.824 | 97.891 | 97.991 | 91.409 | **91.150** | 91.534 | 93.627 | 97.367 | 93.970 | 93.044 | 89.109 | 96.638 | 94.653 | 95.141 | 92.383 | 98.209 | 98.636 | 98.739 | 95.349 | 
 | snowflake-arctic-embed-l-v2.0 | NoReranker | 94.278 | 97.241 | 97.121 | 91.970 | 89.552 | 91.000 | 92.760 | 96.891 | 93.017 | 94.062 | 86.110 | 96.118 | 92.769 | 95.455 | 94.470 | 98.732 | 98.224 | 97.479 | 94.028 | 
-| gte-multilingual-base | NoReranker | 92.247 | 95.043 | 96.225 | 86.854 | 88.911 | 86.107 | 88.971 | 96.083 | 91.727 | 88.495 | 84.238 | 94.870 | 89.577 | 92.710 | 94.238 | 98.168 | 97.195 | 96.218 | 94.820 | 
-| multilingual-e5-base | NoReranker | 73.026 | 81.777 | 88.929 | 56.858 | 67.272 | 59.417 | 69.016 | 87.301 | 56.573 | 63.666 | 68.083 | 84.659 | 79.308 | 70.050 | 85.076 | 92.029 | 90.767 | 42.577 | 71.105 | 
+| epoch_0_model | NoReranker | 94.849 | 97.762 | 97.986 | 91.433 | 90.256 | 91.463 | 93.298 | 97.623 | **93.994** | 92.669 | 89.585 | 96.594 | 95.188 | 95.061 | 93.675 | 98.390 | 98.754 | 98.319 | 95.228 | 
 | snowflake-arctic-embed-m-v2.0 | NoReranker | 90.959 | 93.378 | 95.647 | 91.043 | 89.698 | 90.084 | 88.826 | 92.640 | 92.619 | 88.746 | 83.466 | 92.040 | 87.793 | 91.541 | 84.051 | 97.967 | 96.123 | 96.078 | 85.514 | 
 | bge-m3 | NoReranker | **95.539** | 97.645 | **98.702** | 91.021 | 90.685 | 91.130 | **93.836** | **97.914** | 93.800 | **94.434** | **90.463** | **97.444** | **95.456** | **95.870** | **97.206** | **99.396** | **99.095** | 98.739 | **96.862** | 
-| epoch_0_model | NoReranker | 94.843 | **97.891** | 98.174 | **92.072** | **90.887** | **92.019** | 93.590 | 97.832 | **93.921** | 92.519 | 89.337 | 96.291 | 94.549 | 95.254 | 92.732 | 98.027 | 98.722 | **99.160** | 94.201 | 
+| multilingual-e5-base | NoReranker | - | 86.559 | 87.519 | 62.369 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 
+| gte-multilingual-base | NoReranker | 92.247 | 95.043 | 96.225 | 86.854 | 88.911 | 86.107 | 88.971 | 96.083 | 91.727 | 88.495 | 84.238 | 94.870 | 89.577 | 92.710 | 94.238 | 98.168 | 97.195 | 96.218 | 94.820 | 
 

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+\| Model \| Reranker \| average \| ar-dev \| bn-dev \| de-dev \| en-dev \| es-dev \| fa-dev \| fi-dev \| fr-dev \| hi-dev \| id-dev \| ja-dev \| ko-dev \| ru-dev \| sw-dev \| te-dev \| th-dev \| yo-dev \| zh-dev \|`
	`2`	`+\| :---- \| :---- \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \| :---: \|`
	`3`	`+\| multilingual-e5-base \| NoReranker \| 39.219 \| 51.822 \| 52.237 \| 23.059 \| 31.310 \| 26.891 \| 32.108 \| 56.341 \| 20.316 \| 29.566 \| 36.206 \| 43.846 \| 46.233 \| 34.874 \| 54.593 \| 61.314 \| 56.953 \| 20.704 \| 27.565 \|`