Skip to content

Commit

Permalink
Merge pull request #124 from blademoon/main
Browse files Browse the repository at this point in the history
Completion of the stage of translation of the course into Russian
  • Loading branch information
MKhalusova authored Aug 31, 2023
2 parents 35b6d38 + c3ca325 commit 177da91
Show file tree
Hide file tree
Showing 15 changed files with 2,077 additions and 48 deletions.
96 changes: 48 additions & 48 deletions chapters/ru/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -57,64 +57,64 @@
- local: chapter4/introduction
title: Чему вы научитесь и что создадите
- local: chapter4/classification_models
title: Предварительно обученные модели классификации аудио
title: Предварительно обученные модели классификации звука
- local: chapter4/fine-tuning
title: Дообучение модели классификации музыки
- local: chapter4/demo
title: Создание демо с помощью Gradio
- local: chapter4/hands_on
title: Практическое занятие

- title: Раздел 5. Автоматическое распознавание речи
- title: Раздел 5. Automatic Speech Recognition
sections:
- local: chapter5/introduction
title: Чему вы научитесь и что создадите
- local: chapter5/asr_models
title: Предварительно обученные модели для распознавания речи
- local: chapter5/choosing_dataset
title: Выбор набора данных
- local: chapter5/evaluation
title: Оценка и метрики для распознавания речи
- local: chapter5/fine-tuning
title: Как дообучить ASR-систему с помощью Trainer API
- local: chapter5/demo
title: Создание демо
- local: chapter5/hands_on
title: Практическое занятие
- local: chapter5/supplemental_reading
title: Дополнительные материалы и ресурсы
- local: chapter5/introduction
title: Чему вы научитесь и что создадите
- local: chapter5/asr_models
title: Предварительно обученные модели для распознавания речи
- local: chapter5/choosing_dataset
title: Выбор набора данных
- local: chapter5/evaluation
title: Оценка и метрики для распознавания речи
- local: chapter5/fine-tuning
title: Как дообучить ASR-систему с помощью Trainer API
- local: chapter5/demo
title: Создание демо
- local: chapter5/hands_on
title: Практическое занятие
- local: chapter5/supplemental_reading
title: Дополнительные материалы и ресурсы

# - title: Раздел 6. От текста к речи
# sections:
# - local: chapter6/introduction
# title: Чему вы научитесь и что создадите
# - local: chapter6/tts_datasets
# title: Наборы данных Text-to-speech
# - local: chapter6/pre-trained_models
# title: Предварительно обученные модели text-to-speech
# - local: chapter6/fine-tuning
# title: Дообучение SpeechT5
# - local: chapter6/evaluation
# title: Оценка моделей text-to-speech
# - local: chapter6/hands_on
# title: Практическое занятие
# - local: chapter6/supplemental_reading
# title: Дополнительные материалы и ресурсы
- title: Раздел 6. От текста к речи
sections:
- local: chapter6/introduction
title: Чему вы научитесь и что создадите
- local: chapter6/tts_datasets
title: Наборы данных Text-to-speech
- local: chapter6/pre-trained_models
title: Предварительно обученные модели text-to-speech
- local: chapter6/fine-tuning
title: Дообучение SpeechT5
- local: chapter6/evaluation
title: Оценка моделей text-to-speech
- local: chapter6/hands_on
title: Практическое занятие
- local: chapter6/supplemental_reading
title: Дополнительные материалы и ресурсы

# - title: Раздел 7. Собираем все воедино
# sections:
# - local: chapter7/introduction
# title: Чему вы научитесь и что создадите
# - local: chapter7/speech-to-speech
# title: Перевод Speech-to-speech
# - local: chapter7/voice-assistant
# title: Создание голосового ассистента
# - local: chapter7/transcribe-meeting
# title: Транскрибирование встречи
# - local: chapter7/hands-on
# title: Практическое занятие
# - local: chapter7/supplemental_reading
# title: Дополнительные материалы и ресурсы
- title: Раздел 7. Собираем все воедино
sections:
- local: chapter7/introduction
title: Чему вы научитесь и что создадите
- local: chapter7/speech-to-speech
title: Перевод Speech-to-speech
- local: chapter7/voice-assistant
title: Создание голосового ассистента
- local: chapter7/transcribe-meeting
title: Транскрибирование встречи
- local: chapter7/hands-on
title: Практическое занятие
- local: chapter7/supplemental_reading
title: Дополнительные материалы и ресурсы

- title: Раздел 8. Финишная прямая
sections:
Expand Down
24 changes: 24 additions & 0 deletions chapters/ru/chapter6/evaluation.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
# Оценка моделей text-to-speech

В процессе обучения модели преобразования текста в речь оптимизируются по среднеквадратичной ошибке (mean-square error, MSE) (или средней абсолютной ошибке (mean absolute error, MAE)) между
спрогнозированными значениями спектрограмм и сгенерированными. Как MSE, так и MAE способствуют минимизации разности
между прогнозируемой и целевой спектрограммами. Однако, поскольку TTS - это проблема отображения "один ко многим", т.е. выходная спектрограмма для данного текста может быть представлена множеством
различных способов, оценка полученных моделей преобразования текста в речь (TTS) значительно сложнее.

В отличие от многих других вычислительных задач, которые могут быть объективно измерены с помощью количественных показателей,
таких как accuracy или precision, оценка TTS в значительной степени зависит от субъективного человеческого анализа.

Одним из наиболее часто используемых методов оценки систем TTS является качественная оценка с использованием cредней экспертной оценки (Mean Opinion Scores, MOS).
MOS - это субъективная система оценки, которая позволяет людям оценить качество синтезированной речи [NL] по шкале от 1 до 5.
Эти оценки обычно собираются с помощью тестов на прослушивание, в которых участники-люди [NL] прослушивают и оценивают синтезированные образцы речи.

Одной из основных причин, по которой трудно разработать объективные метрики для оценки TTS, является субъективный характер восприятия
речи. Слушатели имеют различные предпочтения и чувствительность к различным аспектам речи, включая произношение, интонацию, естественность и ясность.
Учесть все эти нюансы восприятия с помощью одного числового значения - сложная задача.
В то же время субъективность человеческой оценки затрудняет сравнение и сопоставление различных систем TTS.

Кроме того, при такой оценке могут быть упущены некоторые важные аспекты синтеза речи, такие как естественность, выразительность и эмоциональное воздействие.
Эти качества трудно поддаются объективной количественной оценке, но очень важны в приложениях, где синтезированная речь должна передавать человекоподобные качества и вызывать соответствующие эмоциональные реакции.

В итоге, можно сказать, что оценка моделей преобразования текста в речь является сложной задачей из-за отсутствия единой действительно объективной метрики. Наиболее распространенный метод оценки,
средняя экспертная оценка (MOS), опирается на субъективный человеческий анализ. Хотя MOS дает ценные сведения о качестве синтезированной речи, она также вносит вариативность и субъективность.
Loading

0 comments on commit 177da91

Please sign in to comment.