meta-llama · zeelsheladiya · Aug 8, 2023 · Sep 7, 2023 · Sep 7, 2023 · ruanslv
diff --git a/llama/tokenizer.py b/llama/tokenizer.py
@@ -3,7 +3,7 @@
 
 import os
 from logging import getLogger
-from typing import List
+from typing import List, Optional
 
 from sentencepiece import SentencePieceProcessor
 
@@ -13,29 +13,32 @@
 
 class Tokenizer:
  """tokenizing and encoding/decoding text using SentencePiece."""
- def __init__(self, model_path: str):
+ def __init__(self, model_path: Optional[str] = None):
  """
  Initializes the Tokenizer with a SentencePiece model.
 
  Args:
  model_path (str): The path to the SentencePiece model file.
  """
- # reload tokenizer
- assert os.path.isfile(model_path), model_path
- self.sp_model = SentencePieceProcessor(model_file=model_path)
- logger.info(f"Reloaded SentencePiece model from {model_path}")
+ if model_path is not None:
+ # reload tokenizer if possible
+ if not os.path.isfile(model_path):
+ raise FileNotFoundError(f"Model file not found: {model_path}")
+ self.sp_model = SentencePieceProcessor(model_file=model_path)
+ logger.info(f"Reloaded SentencePiece model from {model_path}")
 
- # BOS / EOS token IDs
- self.n_words: int = self.sp_model.vocab_size()
- self.bos_id: int = self.sp_model.bos_id()
- self.eos_id: int = self.sp_model.eos_id()
- self.pad_id: int = self.sp_model.pad_id()
- logger.info(
- f"#words: {self.n_words} - BOS ID: {self.bos_id} - EOS ID: {self.eos_id}"
- )
- assert self.sp_model.vocab_size() == self.sp_model.get_piece_size()
+ # BOS / EOS / PAD / UNK token IDs
+ self.n_words: int = self.sp_model.vocab_size()
+ self.bos_id: int = self.sp_model.bos_id()
+ self.eos_id: int = self.sp_model.eos_id()
+ self.pad_id: int = self.sp_model.pad_id()
+ self.unk_id: int = self.sp_model.unk_id()
+ logger.info(
+ f"#words: {self.n_words} - BOS ID: {self.bos_id} - EOS ID: {self.eos_id}"
+ )
+ assert self.sp_model.vocab_size() == self.sp_model.get_piece_size()
 
- def encode(self, s: str, bos: bool, eos: bool) -> List[int]:
+ def encode(self, s: str, bos: bool = False, eos: bool = False) -> List[int]:
  """
  Encodes a string into a list of token IDs.
 
@@ -47,8 +50,15 @@ def encode(self, s: str, bos: bool, eos: bool) -> List[int]:
  Returns:
  List[int]: A list of token IDs.
  """
- assert type(s) is str
- t = self.sp_model.encode(s)
+ assert isinstance(s, str), "Input 's' must be a string"
+ try:
+ t = self.sp_model.encode(s)
+ except Exception as e:
+ raise ValueError(f"Error during tokenization: {e}")
+
+ # Handle unknown tokens
+ t = [token_id if token_id in range(self.n_words) else self.unk_id for token_id in t]
+
  if bos:
  t = [self.bos_id] + t
  if eos: