Merge pull request #135 from blademoon/main

Translating additional material for Unit 6 to Russian.
huggingface · Sep 5, 2023 · 4711103 · 4711103
2 parents 4399498 + e0ee209
commit 4711103
Show file tree

Hide file tree

Showing 2 changed files with 161 additions and 0 deletions.
diff --git a/chapters/ru/chapter6/pre-trained_models.mdx b/chapters/ru/chapter6/pre-trained_models.mdx
@@ -181,6 +181,161 @@ Audio(speech, rate=16000)
  height="450">
 </iframe>
 
+## Bark
+
+Bark - это модель преобразования текста в речь на основе трансформера, предложенная компанией Suno AI в [suno-ai/bark](https://github.com/suno-ai/bark).
+
+В отличие от SpeechT5, Bark генерирует непосредственно "сырые" формы волны речи, что избавляет от необходимости использования отдельного вокодера при инференсе - он уже интегрирован. Такая эффективность достигается за счет использования [`Encodec`](https://huggingface.co/docs/transformers/main/en/model_doc/encodec), который служит одновременно и кодеком, и инструментом сжатия.
+
+С помощью `Encodec` можно сжимать звук в облегченный формат для уменьшения занимаемой памяти и впоследствии распаковывать его для восстановления исходного звучания. Процесс сжатия осуществляется с помощью 8 кодовых книг (codebook), каждая из которых состоит из целочисленных векторов. Эти кодовые книги можно рассматривать как представления или эмбеддинги звука в целочисленной форме. Важно отметить, что каждая последующая кодовая книга улучшает качество восстановления звука из предыдущих кодовых книг. Поскольку кодовые книги являются целочисленными векторами, они могут быть выучены с помощью трансформерных моделей, которые очень эффективно справляются с этой задачей. Именно для этого и был специально обучен Bark. 
+
+Если говорить более конкретно, то Bark состоит из 4 основных моделей:
+
+- `BarkSemanticModel` (также называемая 'текстовой' моделью): каузальная авторегрессионная трансформерная модель, принимающая на вход токены из текста и предсказывающая семантические токены, отражающие смысл текста.
+- `BarkCoarseModel` (также называемая моделью 'грубой акустики'): каузальный авторегрессионный трансформер, принимающий на вход результаты работы модели `BarkSemanticModel`. Его цель - предсказать первые две кодовые книги, необходимые для работы [EnCodec](https://github.com/facebookresearch/encodec).
+- `BarkFineModel` (модель 'тонкой акустики'), на этот раз некаузальный автоэнкодерный трансформер, который итеративно предсказывает последние кодовые книги на основе суммы эбеддингов предыдущих кодовых книг.
+- спрогнозировав все каналы кодовой книги из `EncodecModel`, Bark использует ее для декодирования выходного звукового массива.
+
+Следует отметить, что каждый из первых трех модулей может поддерживать условные эмбеддинги диктора, обусловливающие выходной звук в соответствии с определенным заранее заданным голосом.
+
+Bark - это высокоуправляемая модель преобразования текста в речь, то есть ее можно использовать с различными настройками, в чем мы сейчас убедимся.
+
+Прежде всего, загрузите модель и ее процессор.
+
+Роль процессора здесь двухсторонняя:
+1. Он используется для токенизации входного текста, т.е. для разбиения его на небольшие фрагменты, понятные модели.
+2. В нем хранятся эбеддинги дикторов, т.е. голосовые предустановки, которые могут обуславливать генерацию.
+
+```python
+from transformers import BarkModel, BarkProcessor
+
+model = BarkModel.from_pretrained("suno/bark-small")
+processor = BarkProcessor.from_pretrained("suno/bark-small")
+```
+
+Bark очень универсален и может генерировать звук, обусловленный [библиотекой эбеддингов дикторов](https://suno-ai.notion.site/8b8e8749ed514b0cbf3f699013548683?v=bc67cff786b04b50b3ceb756fd05f68c) которая может быть загружена через процессор.
+
+```python
+# add a speaker embedding
+inputs = processor("This is a test!", voice_preset="v2/en_speaker_3")
+
+speech_output = model.generate(**inputs).cpu().numpy()
+```
+
+<audio controls> 
+ <source src="https://huggingface.co/datasets/ylacombe/hf-course-audio-files/resolve/main/first_sample.wav" type="audio/wav"> 
+Your browser does not support the audio element. 
+</audio> 
+
+Он также может генерировать готовую многоязычную речь, например, на французском и китайском языках. Список поддерживаемых языков можно найти [здесь](https://huggingface.co/suno/bark). В отличие от MMS, о котором речь пойдет ниже, здесь не нужно указывать используемый язык, а достаточно просто адаптировать входной текст к соответствующему языку.
+
+```python
+# try it in French, let's also add a French speaker embedding
+inputs = processor("C'est un test!", voice_preset="v2/fr_speaker_1")
+
+speech_output = model.generate(**inputs).cpu().numpy()
+```
+
+<audio controls> 
+ <source src="https://huggingface.co/datasets/ylacombe/hf-course-audio-files/resolve/main/second_sample.wav" type="audio/wav"> 
+Your browser does not support the audio element. 
+</audio> 
+
+
+Модель также может генерировать **невербальные коммуникации**, такие как смех, вздох и плач. Для этого достаточно модифицировать входной текст соответствующими подсказками, такими как `[clears throat]`, `[laughter]` или `...`.
+
+```python
+inputs = processor(
+ "[clears throat] This is a test ... and I just took a long pause.",
+ voice_preset="v2/fr_speaker_1",
+)
+
+speech_output = model.generate(**inputs).cpu().numpy()
+```
+
+<audio controls> 
+ <source src="https://huggingface.co/datasets/ylacombe/hf-course-audio-files/resolve/main/third_sample.wav" type="audio/wav"> 
+Your browser does not support the audio element. 
+</audio> 
+
+
+Bark может даже генерировать музыку. Вы можете помочь, добавив ♪ музыкальные ноты ♪ вокруг ваших слов.
+
+```python
+inputs = processor(
+ "♪ In the mighty jungle, I'm trying to generate barks.",
+)
+
+speech_output = model.generate(**inputs).cpu().numpy()
+```
+
+<audio controls> 
+ <source src="https://huggingface.co/datasets/ylacombe/hf-course-audio-files/resolve/main/fourth_sample.wav" type="audio/wav"> 
+Your browser does not support the audio element. 
+</audio> 
+
+В отличие от SpeechT5, Bark напрямую генерирует форму волны сырой речи. Это означает, что для инференса не нужно добавлять вокодер, он уже "встроен".
+
+Кроме того, Bark поддерживает пакетную обработку, то есть можно одновременно обрабатывать несколько текстовых записей за счет более интенсивных вычислений.
+На некоторых аппаратных средствах, таких как GPU, пакетная обработка позволяет ускорить общую генерацию, что означает, что генерация всех образцов одновременно может быть быстрее, чем генерация их по одному.
+
+Попробуем сгенерировать несколько примеров:
+
+```python
+input_list = [
+ "[clears throat] Hello uh ..., my dog is cute [laughter]",
+ "Let's try generating speech, with Bark, a text-to-speech model",
+ "♪ In the jungle, the mighty jungle, the lion barks tonight ♪",
+]
+
+# также добавляем эмбеддинги диктора
+inputs = processor(input_list, voice_preset="v2/en_speaker_3")
+
+speech_output = model.generate(**inputs).cpu().numpy()
+```
+
+Давайте прослушаем выводы по очереди.
+
+Первый:
+```python
+from IPython.display import Audio
+
+sampling_rate = model.generation_config.sample_rate
+Audio(speech_output[0], rate=sampling_rate)
+```
+
+<audio controls> 
+ <source src="https://huggingface.co/datasets/ylacombe/hf-course-audio-files/resolve/main/batch_1.wav" type="audio/wav"> 
+Your browser does not support the audio element. 
+</audio> 
+
+
+Второй:
+```python
+Audio(speech_output[1], rate=sampling_rate)
+```
+
+<audio controls> 
+ <source src="https://huggingface.co/datasets/ylacombe/hf-course-audio-files/resolve/main/batch_2.wav" type="audio/wav"> 
+Your browser does not support the audio element. 
+</audio> 
+
+Третий:
+```python
+Audio(speech_output[2], rate=sampling_rate)
+```
+
+<audio controls> 
+ <source src="https://huggingface.co/datasets/ylacombe/hf-course-audio-files/resolve/main/batch_3.wav" type="audio/wav"> 
+Your browser does not support the audio element. 
+</audio> 
+
+<Tip>
+
+Bark, как и другие 🤗 модели трансформеров, могут быть оптимизированы всего в нескольких строках кода в отношении скорости и потребления памяти. Чтобы узнать, как это сделать, нажмите на [этот демонстрационный блокнот Colab](https://colab.research.google.com/github/ylacombe/notebooks/blob/main/Benchmark_Bark_HuggingFace.ipynb).
+
+</Tip>
+
 ## Massive Multilingual Speech (MMS)
 
 Что делать, если вам нужна предварительно обученная модель на языке, отличном от английского? Массивная многоязыковая речь (Massive Multilingual Speech, MMS) - это 

diff --git a/chapters/ru/chapter7/voice-assistant.mdx b/chapters/ru/chapter7/voice-assistant.mdx
@@ -47,6 +47,12 @@
 
 Опять же, мы делали это уже несколько раз, так что процесс будет очень знакомым!
 
+<Tip>
+ Следующий раздел требует использования микрофона для записи голосового ввода. Поскольку машины Google Colab не совместимы с микрофоном,
+ рекомендуется выполнять этот раздел локально, либо на CPU, либо на GPU, если у вас есть доступ к локальным ресурсам. Размеры контрольных точек
+ были выбраны достаточно малыми для достаточно быстрой работы на CPU, поэтому Вы получите хорошую производительность и без GPU.
+</Tip>
+
 ## Обнаружение слова активации
 
 Первым этапом работы голосового помощника является определение того, было ли произнесено слово активации, для решения этой задачи нам необходимо найти подходящую