forked from huggingface/course
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Merge pull request huggingface#264 from kambizG/main
[FA] - Ch3 - P3.1 and P3.2
- Loading branch information
Showing
3 changed files
with
471 additions
and
7 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,221 @@ | ||
<FrameworkSwitchCourse {fw} /> | ||
|
||
<div dir="rtl"> | ||
|
||
# کوک کردن مدلها با استفاده از API `Trainer` | ||
|
||
<DocNotebookDropdown | ||
classNames="absolute z-10 right-0 top-0" | ||
options={[ | ||
{label: "Google Colab", value: "https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/chapter3/section3.ipynb"}, | ||
{label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/chapter3/section3.ipynb"}, | ||
]} /> | ||
|
||
<Youtube id="nvBXf7s7vTI"/> | ||
|
||
ترنسفورمرهای هاگینگفِیس کلاسی به نام `Trainer` دارند که برای کمک به کوک کردن هر مدل از پیش تعلیم دیدهای که روی داده شما ارائه میدهد به کار میرود. به محض اینکه همه کارهای پیشپردازش داده در بخش آخر را انجام دادید، فقط چند مرحله باقیمانده تا تعریف `Trainer` دارید. سخت ترین قسمت، احتمالا آمادهسازی محیط جهت اجراي <span dir="ltr">`Trainer.train()`</span> میباشد، چرا که این تابع روی CPU بسیار کند اجرا میشود. اگر GPU ندارید، میتوانید از GPU یا TPUهای مجانی روی [گوگل کولَب](https://colab.research.google.com/) استفاده کنید. | ||
|
||
نمونه کدهای زیر فرض میکنند که شما مثالهای بخش قبل را از پیش اجرا کردهاید. این یک خلاصه کوتاه است جهت یادآوری آنچه نیاز دارید: | ||
|
||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
from datasets import load_dataset | ||
from transformers import AutoTokenizer, DataCollatorWithPadding | ||
|
||
raw_datasets = load_dataset("glue", "mrpc") | ||
checkpoint = "bert-base-uncased" | ||
tokenizer = AutoTokenizer.from_pretrained(checkpoint) | ||
|
||
|
||
def tokenize_function(example): | ||
return tokenizer(example["sentence1"], example["sentence2"], truncation=True) | ||
|
||
|
||
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True) | ||
data_collator = DataCollatorWithPadding(tokenizer=tokenizer) | ||
``` | ||
|
||
</div> | ||
|
||
### تعلیم | ||
|
||
قبل از این که بتوانیم `Trainer` مان را تعریف کنیم اولین مرحله تعریف کلاس `TrainingArguments` میباشد که شامل همه پارامترهای سطح بالایی است که `Trainer` برای `Training` و `Evaluation` استفاده خواهد کرد. تنها آرگومانی که شما باید ارائه کنید آدرسی است که مدل تعلیم دیده به همراه نقاط تعلیم در آن ذخیره خواهند شد. بقیه پارامترها را میتوانید به حالت پیشفرض رها کنید، که برای کوک کردن پایه به خوبی کار خواهد کرد. | ||
|
||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
from transformers import TrainingArguments | ||
|
||
training_args = TrainingArguments("test-trainer") | ||
``` | ||
|
||
</div> | ||
|
||
<Tip> | ||
|
||
💡 اگر مایلید مدلتان را به صورت خودکار در حین تعلیم در هاب بارگذاری کنید، پارامتر `push_to_hub=True` را در `TrainingArguments` ارسال کنید. در [فصل ۴](/course/chapter4/3) در این باره بیشتر خواهیم آموخت. | ||
|
||
</Tip> | ||
|
||
مرحله دوم تعریف مدلمان میباشد. مانند [فصل قبل](/course/chapter2)، از کلاس `AutoModelForSequenceClassification` با دو برچسب کلاس استفاده خواهیم کرد: | ||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
from transformers import AutoModelForSequenceClassification | ||
|
||
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2) | ||
``` | ||
|
||
</div> | ||
|
||
شما متوجه خواهید شد که برخلاف [فصل ۲](/course/chapter2)، بعد از ساختن این مدل از پیش تعلیم دیده یک هشدار دریافت میکنید. این به این خاطر است که BERT برای دستهبندی دو جملهها از پیش تعلیم ندیده است، بنابراین لایه سَر مدل از پیش تعلیم دیده حذف شده و یک لایه سَر مناسب جهت دسته بندی رشتهها به جای آن قرار گرفته است. هشدارها نشان میدهند که برخی از وزنهای مدل استفاده نشدهاند (آنهایی که مربوط به لایه سَر حذف شده مدل از پیش تعلیم دیده هستند) و برخی دیگر به صورت تصادفی مقدار دهی شدهاند (آنهایی که مربوط به لایه سَر جدید هستند). در نتیجه این امر شما را تشویق به تعلیم مدل میکند، که دقیقا همان کاری است که میخواهیم اکنون انجام دهیم. | ||
|
||
به محض اینکه مدلمان مشخص شد میتوانیم `Trainer` را با ارسال همه اشیائی که تا کنون ساخته شدهاند - <span dir="ltr">`model`</span>، <span dir="ltr">`training_args`</span>، دیتاسِتهای <span dir="ltr">`training`</span> و <span dir="ltr">`validation`</span>، <span dir="ltr">`data_collator`</span> و <span dir="ltr">`tokenizer`</span> به داخل آن تعریف کنیم: | ||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
from transformers import Trainer | ||
|
||
trainer = Trainer( | ||
model, | ||
training_args, | ||
train_dataset=tokenized_datasets["train"], | ||
eval_dataset=tokenized_datasets["validation"], | ||
data_collator=data_collator, | ||
tokenizer=tokenizer, | ||
) | ||
``` | ||
|
||
</div> | ||
|
||
توجه داشته باشید زمانی که `tokenizer` را ارسال میکنید، مثل کاری که ما در اینجا انجام دادیم، `data_collator` پیشفرض مورد استفاده `Trainer`، همانطور که قبلا تعریف کردیم، `DataCollatorWithPadding` خواهد بود، در تنیجه شما میتوانید خط `data_collator=data_collator` را در این فراخوانی نادیده بگیرید. این هنوز مهم بود که این بخش از پردازش را در بخش ۲ به شما نشان دهیم! | ||
|
||
برای کوک کردن مدل روی دیتاسِتمان ما فقط باید تابع <span dir="ltr">`train()`</span> از `Trainer`مان را صدا بزنیم: | ||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
trainer.train() | ||
``` | ||
|
||
</div> | ||
|
||
این کار، کوک کردن را شروع میکند (که باید چند دقیقه روی GPU طول بکشد) و هزینه تعلیم را هر ۵۰۰ مرحله یکبار گزارش میکند. با این حال به شما نمیگوید که مدلتان چقدر خوب (یا بد) عمل میکند. این به این خاطر است که: | ||
|
||
۱. ما به `Trainer` نگفتیم که در حین تعلیم کیفیت مدل را اندازهگیری کند. کاری که میتوانستیم با مقداردهی پارامتر `evaluation_strategy` به `"steps"` (برای ارزیابی در هر `eval_steps`) یا به `"epoch"` (برای ارزیابی در انتهای هر epoch) انجام دهیم. | ||
|
||
۲. ما تابع <span dir="ltr">`compute_metrics()`</span> را برای `Trainer` فراهم نکردیم تا بتواند معیارها را در حین اصطلاحا ارزیابی محاسبه کند (که در غیر این صورت، ارزیابی فقط هزینه را چاپ میکند که عدد چندان گویایی هم نیست) . | ||
|
||
### ارزیابی | ||
|
||
اجازه دهید ببینیم چگونه میتوانیم تابع <span dir="ltr">`compute_metrics()`</span> مفیدی بسازیم و در تعلیم بعدی از آن استفاده کنیم. تابع باید یک شیء `EvalPrediction` دریافت کند (که تاپلی است شامل فیلدهای `predictions` و `label_ids`) و یک دیکشنری باز گرداند که رشتههای متنی را به اعداد حقیقی تبدیل میکند (رشتههای متنی نام معیارهای بازگردانده شونده و اعداد حقیقی مقادیر آنها می باشند). برای استخراج چند پیشبینی از مدلمان، میتوانیم از دستور <span dir="ltr">`Trainer.predict()`</span> استفاده کنیم: | ||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
predictions = trainer.predict(tokenized_datasets["validation"]) | ||
print(predictions.predictions.shape, predictions.label_ids.shape) | ||
``` | ||
|
||
```python out | ||
(408, 2) (408,) | ||
``` | ||
|
||
</div> | ||
|
||
خروجی تابع <span dir="ltr">`predict()`</span> تاپل نام گذاری شده دیگری شامل سه فیلد: `predictions`، `label_ids` و `metrics` میباشد. فیلد `metrics` فقط شامل هزینه داده عبور کرده و برخی معیارهای زمان (پیشبینی، در مجموع و به طور میانگین، چقدر طول کشیده) میباشد. به محض این که تابع <span dir="ltr">`compute_metrics()`</span> را کامل کرده و آن را به `Trainer` ارسال کنیم، آن فیلد متریکهای بازگشتی از <span dir="ltr">`compute_metrics()`</span> را نیز در بر خواهد داشت. | ||
|
||
همانطور که میبینید، `predictions` آرایهای دو بعدی است با شکل <span dir="ltr">۴۰۸ x ۲</span> (که ۴۰۸ تعداد عناصر در دیتاسِت مورد استفاده ما میباشد). این ها logits مربوط به هریک از عناصر دیتاسِتی هستند که ما به تابع <span dir="ltr">`predict()`</span> ارسال کردیم (همانطور که در [فصل قبل](/course/chapter2) دیدید، همه مدلهای ترَنسفورمِر logits را باز میگردانند). برای تبدیل logits به پیشبینیهایی که بتوانیم با برچسبهایمان مقایسه کنیم، نیاز داریم اندیس مقدار بیشینه روی بعد دوم را برداریم: | ||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
import numpy as np | ||
|
||
preds = np.argmax(predictions.predictions, axis=-1) | ||
``` | ||
|
||
</div> | ||
|
||
اکنون میتوانیم `preds` را با برچسبها مقایسه کنیم. برای ساختن تابع <span dir="ltr">`compute_metric()`</span>، به متریکهای کتابخانه دادههای هاگینگفِیس تکیه خواهیم کرد. ما میتوانیم متریکهای وابسته به دیتاسِت MRPC را به راحتی خود دیتاسِت، اما این بار با استفاده از تابع <span dir="ltr">`load_metric()`</span>، بارگذاری کنیم. شیء بازگردانده شده تابعی به نام <span dir="ltr">`compute()`</span> دارد که میتوانیم برای محاسبه متریک از آن استفاده کنیم: | ||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
from datasets import load_metric | ||
|
||
metric = load_metric("glue", "mrpc") | ||
metric.compute(predictions=preds, references=predictions.label_ids) | ||
``` | ||
|
||
```python out | ||
{'accuracy': 0.8578431372549019, 'f1': 0.8996539792387542} | ||
``` | ||
|
||
</div> | ||
|
||
از آنجایی که مقداردهی تصادفی اولیه مدل میتواند متریکهای نهایی را تغییر دهد، نتایج دقیقی که شما بدست میآورید ممکن است متفاوت باشد. در اینجا میتوانیم ببینیم که مدل ما `accuracy` معادل ۸۵.۷۸٪ و `F1 Score` معادل ۸۹.۹۷٪ روی مجموعه `validation` بدست میآورد. آنها دو متریک برای ارزیابی نتایج محک GLUE روی دیتاسِت MRPC هستند. جدول نتایج در مقاله [BERT](https://arxiv.org/pdf/1810.04805.pdf)، برای مدل پایه، `F1 Score` معادل ۸۸.۹ را گزارش میکند. توجه داشته باشید که آن مدل `uncased` بود، حال آن که در اینجا ما از مدل `cased` استفاده میکنیم، که دستیابی به نتایج بهتر را توضیح میدهد. | ||
|
||
اکنون با قرار دادن همه چیز کنارهم تابع <span dir="ltr">`compute_metrics()`</span> را بدست خواهیم آورد: | ||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
def compute_metrics(eval_preds): | ||
metric = load_metric("glue", "mrpc") | ||
logits, labels = eval_preds | ||
predictions = np.argmax(logits, axis=-1) | ||
return metric.compute(predictions=predictions, references=labels) | ||
``` | ||
|
||
</div> | ||
|
||
و در اینجا نشان میدهیم که چگونه یک `Trainer` جدید با استفاده از تابع <span dir="ltr">`compute_metrics()`</span> تعریف میکنیم، تا بتوانیم عملکرد آن را در حین گزارش متریکها در پایان هر epoch مشاهده کنیم: | ||
|
||
<div dir="ltr"> | ||
|
||
```py | ||
training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch") | ||
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2) | ||
|
||
trainer = Trainer( | ||
model, | ||
training_args, | ||
train_dataset=tokenized_datasets["train"], | ||
eval_dataset=tokenized_datasets["validation"], | ||
data_collator=data_collator, | ||
tokenizer=tokenizer, | ||
compute_metrics=compute_metrics, | ||
) | ||
``` | ||
|
||
</div> | ||
|
||
توجه داشته باشید که ما مدلی جدید و `TrainingArguments` جدیدی که `evaluation_strategy` آن `"epoch"` است میسازیم - در غیر این صورت فقط تعلیم مدلی که از پیش تعلیم دیده بود را ادامه میدادیم. برای راهاندازی دور جدید تعلیم، دستور زیر را اجرا میکنیم: | ||
|
||
<div dir="ltr"> | ||
|
||
``` | ||
trainer.train() | ||
``` | ||
|
||
</div> | ||
|
||
این بار هزینه validation و متریکها را در پایان هر epoch و در بالای هزینه تعلیم گزارش میکنیم. دوباره، به خاطر مقدار دهی تصادفی اولیه لایه سر مدل، مقادیر دقیق <span dir="ltr">accuracy/F1 score</span> که شما بدست میآورید ممکن است کمی متفاوت از آنچه ما بدست آوردهایم باشد، اما این مقادیر باید در محدوده تخمینی یکسانی باشند. | ||
|
||
به صورت پیش فرض، `Trainer` روی چندین GPU یا TPU کار خواهد کرد و گزینههای فراوانی، مثل تعلیم mixed-precision (از مقدار `fp16 = True` در آرگومانهای تعلیم استفاده کنید) فراهم میکند. در فصل ۱۰ همه حالتهایی که پشتیبانی میکند را مرور خواهیم کرد. | ||
|
||
این پایان مقدمهای بر کوک کردن با استفاده از `Trainer` API میباشد. در [فصل ۷](/course/chapter7) مثالی برای نشان دادن چگونگی انجام این کار برای معمولترین مسئلههای NLP ارائه خواهیم کرد، اما اکنون اجازه دهید ببینیم چگونه همین کار را صرفا با استفاده از PyTorch انجام دهیم. | ||
|
||
<Tip> | ||
|
||
✏️ **اتحان کنید!** با استفاده از پردازش دادهای که در بخش ۲ انجام دادید، مدلی را روی دیتاسِت GLUE SST-2 کوک کنید. | ||
|
||
</Tip> | ||
|
||
</div> |
Oops, something went wrong.