Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Full translation of chapter 6 of the course. #647

Merged
merged 31 commits into from
Jan 8, 2024
Merged
Show file tree
Hide file tree
Changes from 20 commits
Commits
Show all changes
31 commits
Select commit Hold shift + click to select a range
3def036
Фиксация текущих результатов.
artyomboyko Dec 12, 2023
5097c17
Фиксирую текущее состояние.
artyomboyko Dec 16, 2023
ab2a8b5
Fixing the transfer results for today.
artyomboyko Dec 17, 2023
11f30d1
Translated files 3b and partially 4. Fixing the result.
artyomboyko Dec 18, 2023
6450802
Fixing today's translation.
artyomboyko Dec 19, 2023
198d352
Fixing today's translation. Files: 6.mdx, 7.mdx and half of 8.mdx.
artyomboyko Dec 20, 2023
c27def4
Merge branch 'huggingface:main' into main
artyomboyko Dec 21, 2023
3113713
The translation of chapter 6 has been completed.
artyomboyko Dec 21, 2023
2be3db1
Delete chapters/en/.ipynb_checkpoints/_toctree-checkpoint.yml
artyomboyko Dec 21, 2023
32c9ad0
Delete chapters/en/chapter5/.ipynb_checkpoints/8-checkpoint.mdx
artyomboyko Dec 21, 2023
72e6779
Delete chapters/en/chapter6/.ipynb_checkpoints/1-checkpoint.mdx
artyomboyko Dec 21, 2023
c2f871b
Delete chapters/en/chapter6/.ipynb_checkpoints/2-checkpoint.mdx
artyomboyko Dec 21, 2023
ce3ac4d
Delete chapters/en/chapter6/.ipynb_checkpoints/8-checkpoint.mdx
artyomboyko Dec 21, 2023
8f7520a
Delete chapters/en/chapter6/.ipynb_checkpoints/9-checkpoint.mdx
artyomboyko Dec 21, 2023
73855b0
Delete chapters/ru/.ipynb_checkpoints/TRANSLATING-checkpoint.txt
artyomboyko Dec 21, 2023
02395c1
Delete chapters/ru/.ipynb_checkpoints/_toctree-checkpoint.yml
artyomboyko Dec 21, 2023
849d5dd
Delete chapters/ru/chapter5/.ipynb_checkpoints/8-checkpoint.mdx
artyomboyko Dec 21, 2023
be33220
Update 10.mdx
artyomboyko Dec 21, 2023
e9552b0
Update 10.mdx
artyomboyko Dec 21, 2023
5cffa31
Update 10.mdx
artyomboyko Dec 21, 2023
d11fc34
Update chapters/ru/chapter6/4.mdx
artyomboyko Dec 22, 2023
ccbae71
Update chapters/ru/chapter6/4.mdx
artyomboyko Dec 22, 2023
22bde78
Update chapters/ru/chapter6/3.mdx
artyomboyko Dec 22, 2023
eaafdc5
Update chapters/ru/chapter6/3.mdx
artyomboyko Dec 22, 2023
ea57588
Update chapters/ru/chapter6/3b.mdx
artyomboyko Dec 22, 2023
0d34014
Update chapters/ru/chapter6/3.mdx
artyomboyko Dec 22, 2023
8a9bbbc
Update 3.mdx
artyomboyko Dec 22, 2023
b5b2da8
Update 7.mdx
artyomboyko Dec 22, 2023
c67bdb0
Update 3.mdx
artyomboyko Dec 22, 2023
4b4f711
Update chapters/ru/chapter6/3b.mdx
artyomboyko Dec 22, 2023
f00418f
Update chapters/ru/chapter6/5.mdx
artyomboyko Dec 25, 2023
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
31 changes: 27 additions & 4 deletions chapters/ru/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -53,6 +53,7 @@
- local: chapter3/6
title: Итоговый тест по главе
quiz: 3

- title: 4. Hugging Face Hub
sections:
- local: chapter4/1
Expand All @@ -68,6 +69,7 @@
- local: chapter4/6
title: Итоговый тест по главе
quiz: 4

- title: 5. Библиотека 🤗 Datasets
sections:
- local: chapter5/1
Expand All @@ -83,14 +85,35 @@
- local: chapter5/7
title: 🤗 Datasets, итоги!
- local: chapter5/8
title: Тест по главе 5
title: Тест по главе 5

- title: 6. Бибилиотека 🤗 Tokenizers
sections:
sections:
- local: chapter6/1
title: Введение
- local: chapter6/2
title: Обучение токенизатора на основе существующего
title: Обучение нового токенизатора на основе старого
- local: chapter6/3
title: Особые возможности быстрых токенизаторов
- local: chapter6/3b
title: Быстрые токенизаторы в QA конвейере
- local: chapter6/4
title: Нормализация и предварительная токенизация
- local: chapter6/5
title: Токенизация Byte-Pair Encoding
- local: chapter6/6
title: Токенизация WordPiece
- local: chapter6/7
title: Токенизация Unigram
- local: chapter6/8
title: Создание токенизатора, блок за блоком
- local: chapter6/9
title: Токенизаторы, проверка!
- local: chapter6/10
title: Тест в конце главы
quiz: 6

- title: Глоссарий
sections:
- local: glossary/1
title: Глоссарий
title: Глоссарий
16 changes: 8 additions & 8 deletions chapters/ru/chapter6/1.mdx
artyomboyko marked this conversation as resolved.
Show resolved Hide resolved
Original file line number Diff line number Diff line change
@@ -1,19 +1,19 @@
# Введение
# Введение[[introduction]]

artyomboyko marked this conversation as resolved.
Show resolved Hide resolved
<CourseFloatingBanner
chapter={6}
classNames="absolute z-10 right-0 top-0"
/>

В [главе 3](/course/ru/chapter3), мы рассмотрели, как настроить модель под конкретную задачу. Когда мы это делаем, мы используем тот же токенизатор, с помощью которого была предварительно обучена модель, но что нам делать, когда мы хотим обучить модель с нуля? В этих случаях использование токенизатора, предварительно обученного на корпусе из другого домена или языка, обычно неоптимально. Например, токенизатор, обученный на английском корпусе, будет плохо работать с корпусом японских текстов, поскольку использование пробелов и пунктуации в этих двух языках сильно различается.
В [Главе 3](/course/chapter3) мы рассмотрели, как дообучить модель для конкретной задачи. При этом мы используем тот же токенизатор, на котором была предварительно обучена модель, но что делать, когда мы хотим обучить модель с нуля? В таких случаях использование токенизатора, который был предварительно обучен на корпусе из другой области или языка, как правило, является неоптимальным. Например, токенизатор, обученный на корпусе английских текстов, будет плохо работать на корпусе японских текстов, поскольку использование пробелов и знаков препинания в этих двух языках сильно отличается.

artyomboyko marked this conversation as resolved.
Show resolved Hide resolved
В этой главе вы узнаете, как обучить совершенно новый токенизатор на корпусе текстов, чтобы затем его можно было использовать для предобучения языковой модели. Все это будет сделано с помощью библиотеки [🤗 Tokenizers](https://github.com/huggingface/tokenizers), которая предоставляет «быстрые» токенизаторы в [🤗 Transformers](https://github.com/huggingface/transformers). Мы внимательно рассмотрим функции, предоставляемые этой библиотекой, и выясним, чем быстрые токенизаторы отличаются от «медленных» версий.
В этой главе вы узнаете, как обучить совершенно новый токенизатор на корпусе текстов, чтобы затем использовать его для предварительного обучения языковой модели. Все это будет сделано с помощью библиотеки [🤗 Tokenizers](https://github.com/huggingface/tokenizers), которая предоставляет "быстрые" токенизаторы в библиотеке [🤗 Transformers](https://github.com/huggingface/transformers). Мы подробно рассмотрим возможности, которые предоставляет эта библиотека, и выясним, чем быстрые токенизаторы отличаются от "медленных" версий.

Темы, которые мы рассмотрим:
Мы рассмотрим следующие темы:

* Как обучить новый токенизатор, аналогичный тому, который используется конкретной моделью, на новом корпусе текстов
* Как обучить новый токенизатор, аналогичный тому, который используется в данной контрольной точке, на новом корпусе текстов
* Особенности быстрых токенизаторов
* Различия между тремя основными алгоритмами токенизации составных частей слов, используемыми сегодня в NLP.
* Как создать токенизатор с нуля с помощью библиотеки 🤗 Tokenizers и обучить его на собственных данных
* Различия между тремя основными алгоритмами токенизации по подсловам, используемыми в NLP сегодня
* Как создать токенизатор с нуля с помощью библиотеки 🤗 Tokenizers и обучить его на некоторых данных

Методы, представленные в этой главе, подготовят вас к разделу [главы 7](/course/ru/chapter7/6), где мы рассмотрим создание языковой модели для исходного кода Python. Давайте начнем с рассмотрения того, что значит «обучить» токенизатор.
Техники, представленные в этой главе, подготовят вас к разделу в [Главе 7](/course/chapter7/6), где мы рассмотрим создание языковой модели по исходному коду Python. Для начала давайте разберемся, что значит "обучить" токенизатор.
Loading
Loading