MCP SaluteSpeech - это реализация MCP (Model Context Protocol) сервера, предоставляющего инструменты для работы с голосовыми API SaluteSpeech от Сбера. Позволяет AI ассистентам записывать речь пользователя с микрофона, распознавать её с помощью и синтезировать речь из текста.
Сервер предоставляет доступ агентам на основе LLM к голосовому интерфейсу, значительно расширяя возможности взаимодействия с пользователем.
MCP SaluteSpeech предоставляет два основных инструмента:
-
sber_stt_record_and_recognize - записывает аудио с микрофона до появления 3-секундной паузы, отправляет запись на API распознавания речи SaluteSpeech и возвращает распознанный текст.
-
synthesize_speech - синтезирует речь из текста с помощью API SaluteSpeech и воспроизводит её через аудиоустройство компьютера.
Эти инструменты особенно полезны для:
- Создания голосовых интерфейсов для AI ассистентов
- Разработки приложений с поддержкой голосового управления
- Интеграции голосовых возможностей в агентные системы на базе LLM
- Реализация голосовых инструментов для MCP (Model Context Protocol)
- Полная интеграция с API SaluteSpeech от Сбера
- Готовность к работе с такими ассистетами как Cursor, Windsurf и другими
- Поддержка распознавания и синтеза русской речи
Если запись или воспроизведение аудио не работает "из коробки", возможно, потребуется установить дополнительные зависимости для вашей операционной системы:
- Linux: убедитесь, что установлен пакет
portaudio
и соответствующие dev-заголовки. Например, для Ubuntu/Debian:Также может понадобиться установитьsudo apt-get install portaudio19-dev
alsa-utils
:sudo apt-get install alsa-utils
- macOS: обычно всё работает из коробки, но убедитесь, что приложению даны разрешения на доступ к микрофону и динамикам (Системные настройки → Конфиденциальность → Микрофон/Звук). В некоторых случаях может потребоваться установка PortAudio:
brew install portaudio
- Windows: убедитесь, что установлены последние драйверы для вашей звуковой карты. Для работы некоторых библиотек может понадобиться Microsoft Visual C++ Redistributable.
Если после установки зависимостей проблема не решена, проверьте сообщения об ошибках в консоли — они могут подсказать, какой компонент отсутствует или требует настройки.
Добавьте этот MCP сервер к вашему агенту.
"mcpServers": {
"mcp-salutespeech": {
"command": "uvx",
"args": [
"--from", "mcp_voice_salute", "mcp-salutespeech"
],
"enabled": true,
"env": {
"SALUTE_SPEECH": "ВАШ_ТОКЕН_SALUTESPEECH"
}
}
}
Записывает аудио с микрофона до появления 3-секундной паузы, затем отправляет запись на API распознавания речи SaluteSpeech и возвращает распознанный текст.
Вход: Не требует параметров Поведение: Выполняет запись с микрофона, распознавание и возвращает текст Выход: Строка с распознанным текстом
Синтезирует речь из текста с помощью API SaluteSpeech и воспроизводит её через аудиоустройство компьютера.
Вход:
text
(string) — Текст для преобразования в речьformat
(string, опционально) — Формат аудио (по умолчанию "wav16")voice
(string, опционально) — Голос для синтеза (по умолчанию "Bys_24000")
Поведение: Преобразует текст в речь и воспроизводит через динамики Выход: Подтверждение успешного воспроизведения
Есть два способа добавить MCP сервер в Cursor:
- Глобально - добавить сервер в файл
~/.cursor/mcp.json
- Для проекта - добавить сервер в файл
.cursor/mcp.json
в вашем проекте
Для работы с API требуется установить переменную окружения:
SALUTE_SPEECH - токен Basic авторизации для доступа к API SaluteSpeech
MIT License