Skip to content

Commit db13e42

Browse files
authored
doc: add Spanish README file (#447)
1 parent 763c7e5 commit db13e42

File tree

1 file changed

+253
-0
lines changed

1 file changed

+253
-0
lines changed

docs/es/README.md

Lines changed: 253 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,253 @@
1+
<div align="center">
2+
3+
<a href="https://trendshift.io/repositories/10489" target="_blank"><img src="https://trendshift.io/api/badge/repositories/10489" alt="2noise%2FChatTTS | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
4+
5+
# ChatTTS
6+
Un modelo de generación de voz para la conversación diaria.
7+
8+
[![Licence](https://img.shields.io/badge/LICENSE-CC%20BY--NC%204.0-green.svg?style=for-the-badge)](https://github.com/2noise/ChatTTS/blob/main/LICENSE)
9+
10+
[![Huggingface](https://img.shields.io/badge/🤗%20-Models-yellow.svg?style=for-the-badge)](https://huggingface.co/2Noise/ChatTTS)
11+
[![Open In Colab](https://img.shields.io/badge/Colab-F9AB00?style=for-the-badge&logo=googlecolab&color=525252)](https://colab.research.google.com/github/2noise/ChatTTS/blob/main/examples/ipynb/colab.ipynb)
12+
13+
[**English**](../../README.md) | [**简体中文**](../cn/README.md) | [**日本語**](../jp/README.md) | [**Русский**](../ru/README.md) | **Español**
14+
15+
</div>
16+
17+
> [!NOTE]
18+
> Atención, es posible que esta versión no sea la última. Por favor, consulte la versión en inglés para conocer todo el contenido.
19+
20+
## Introducción
21+
22+
ChatTTS es un modelo de texto a voz diseñado específicamente para escenarios conversacionales como LLM assistant.
23+
24+
### Idiomas Soportados
25+
26+
- [x] Inglés
27+
- [x] Chino
28+
- [ ] Manténganse al tanto...
29+
30+
### Aspectos Destacados
31+
32+
> Puede consultar **[este video en Bilibili](https://www.bilibili.com/video/BV1zn4y1o7iV)** para obtener una descripción detallada.
33+
34+
1. **TTS Conversacional**: ChatTTS está optimizado para tareas conversacionales, logrando una síntesis de voz natural y expresiva. Soporta múltiples hablantes, lo que facilita la generación de diálogos interactivos.
35+
2. **Control Finas**: Este modelo puede predecir y controlar características detalladas de la prosodia, incluyendo risas, pausas e interjecciones.
36+
3. **Mejor Prosodia**: ChatTTS supera a la mayoría de los modelos TTS de código abierto en cuanto a prosodia. Ofrecemos modelos preentrenados para apoyar estudios y desarrollos adicionales.
37+
38+
### Conjunto de Datos & Modelo
39+
40+
- El modelo principal se entrena con más de 100.000 horas de datos de audio en chino e inglés.
41+
- La versión de código abierto en **[HuggingFace](https://huggingface.co/2Noise/ChatTTS)** es un modelo preentrenado con 40.000 horas, sin SFT.
42+
43+
### Hoja de Ruta
44+
45+
- [x] Publicar el modelo base de 40k horas y el archivo spk_stats como código abierto
46+
- [ ] Publicar los códigos de codificador VQ y entrenamiento de Lora como código abierto
47+
- [ ] Generación de audio en streaming sin refinar el texto
48+
- [ ] Publicar la versión de 40k horas con control de múltiples emociones como código abierto
49+
- [ ] ¿ChatTTS.cpp? (Se aceptan PR o un nuevo repositorio)
50+
51+
### Descargo de Responsabilidad
52+
53+
> [!Important]
54+
> Este repositorio es sólo para fines académicos.
55+
56+
Este proyecto está destinado a fines educativos y estudios, y no es adecuado para ningún propósito comercial o legal. El autor no garantiza la exactitud, integridad o fiabilidad de la información. La información y los datos utilizados en este repositorio son únicamente para fines académicos y de investigación. Los datos provienen de fuentes públicas, y el autor no reclama ningún derecho de propiedad o copyright sobre ellos.
57+
58+
ChatTTS es un potente sistema de conversión de texto a voz. Sin embargo, es crucial utilizar esta tecnología de manera responsable y ética. Para limitar el uso de ChatTTS, hemos añadido una pequeña cantidad de ruido de alta frecuencia durante el proceso de entrenamiento del modelo de 40.000 horas y hemos comprimido la calidad del audio en formato MP3 tanto como sea posible para evitar que actores malintencionados lo usen con fines delictivos. Además, hemos entrenado internamente un modelo de detección y planeamos hacerlo de código abierto en el futuro.
59+
60+
### Contacto
61+
62+
> No dudes en enviar issues/PRs de GitHub.
63+
64+
#### Consultas Formales
65+
66+
Si desea discutir la cooperación sobre modelos y hojas de ruta, envíe un correo electrónico a **[email protected]**.
67+
68+
#### Chat en Línea
69+
70+
##### 1. Grupo QQ (Aplicación Social China)
71+
72+
- **Grupo 1**, 808364215 (Lleno)
73+
- **Grupo 2**, 230696694 (Lleno)
74+
- **Grupo 3**, 933639842
75+
76+
## Instalación (En Proceso)
77+
78+
> Se cargará en pypi pronto según https://github.com/2noise/ChatTTS/issues/269.
79+
80+
```bash
81+
pip install git+https://github.com/2noise/ChatTTS
82+
```
83+
84+
## Inicio
85+
### Clonar el repositorio
86+
```bash
87+
git clone https://github.com/2noise/ChatTTS
88+
cd ChatTTS
89+
```
90+
91+
### Requerimientos de instalación
92+
#### 1. Instalar directamente
93+
```bash
94+
pip install --upgrade -r requirements.txt
95+
```
96+
97+
#### 2. Instalar desde conda
98+
```bash
99+
conda create -n chattts
100+
conda activate chattts
101+
pip install -r requirements.txt
102+
```
103+
104+
### Inicio Rápido
105+
#### 1. Iniciar la interfaz de usuario web (WebUI)
106+
```bash
107+
python examples/web/webui.py
108+
```
109+
110+
#### 2. Inferir por línea de comando
111+
> Guardará el audio en `./output_audio_xxx.wav`
112+
113+
```bash
114+
python examples/cmd/run.py "Please input your text."
115+
```
116+
117+
### Básico
118+
119+
```python
120+
import ChatTTS
121+
from IPython.display import Audio
122+
import torchaudio
123+
124+
chat = ChatTTS.Chat()
125+
chat.load(compile=False) # Set to True for better performance
126+
127+
texts = ["PUT YOUR TEXT HERE",]
128+
129+
wavs = chat.infer(texts)
130+
131+
torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)
132+
```
133+
134+
### Avanzado
135+
136+
```python
137+
###################################
138+
# Sample a speaker from Gaussian.
139+
140+
rand_spk = chat.sample_random_speaker()
141+
142+
params_infer_code = ChatTTS.Chat.InferCodeParams(
143+
spk_emb = rand_spk, # add sampled speaker
144+
temperature = .3, # using custom temperature
145+
top_P = 0.7, # top P decode
146+
top_K = 20, # top K decode
147+
)
148+
149+
###################################
150+
# For sentence level manual control.
151+
152+
# use oral_(0-9), laugh_(0-2), break_(0-7)
153+
# to generate special token in text to synthesize.
154+
params_refine_text = ChatTTS.Chat.RefineTextParams(
155+
prompt='[oral_2][laugh_0][break_6]',
156+
)
157+
158+
wavs = chat.infer(
159+
texts,
160+
params_refine_text=params_refine_text,
161+
params_infer_code=params_infer_code,
162+
)
163+
164+
###################################
165+
# For word level manual control.
166+
text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
167+
wavs = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text, params_infer_code=params_infer_code)
168+
torchaudio.save("output2.wav", torch.from_numpy(wavs[0]), 24000)
169+
```
170+
171+
<details open>
172+
<summary><h4>Ejemplo: auto presentación</h4></summary>
173+
174+
```python
175+
inputs_en = """
176+
chat T T S is a text to speech model designed for dialogue applications.
177+
[uv_break]it supports mixed language input [uv_break]and offers multi speaker
178+
capabilities with precise control over prosodic elements [laugh]like like
179+
[uv_break]laughter[laugh], [uv_break]pauses, [uv_break]and intonation.
180+
[uv_break]it delivers natural and expressive speech,[uv_break]so please
181+
[uv_break] use the project responsibly at your own risk.[uv_break]
182+
""".replace('\n', '') # English is still experimental.
183+
184+
params_refine_text = ChatTTS.Chat.RefineTextParams(
185+
prompt='[oral_2][laugh_0][break_4]',
186+
)
187+
188+
audio_array_en = chat.infer(inputs_en, params_refine_text=params_refine_text)
189+
torchaudio.save("output3.wav", torch.from_numpy(audio_array_en[0]), 24000)
190+
```
191+
192+
<table>
193+
<tr>
194+
<td align="center">
195+
196+
**altavoz masculino**
197+
198+
</td>
199+
<td align="center">
200+
201+
**altavoz femenino**
202+
203+
</td>
204+
</tr>
205+
<tr>
206+
<td align="center">
207+
208+
[male speaker](https://github.com/2noise/ChatTTS/assets/130631963/e0f51251-db7f-4d39-a0e9-3e095bb65de1)
209+
210+
</td>
211+
<td align="center">
212+
213+
[female speaker](https://github.com/2noise/ChatTTS/assets/130631963/f5dcdd01-1091-47c5-8241-c4f6aaaa8bbd)
214+
215+
</td>
216+
</tr>
217+
</table>
218+
219+
220+
</details>
221+
222+
## Preguntas y Respuestas
223+
224+
#### 1. ¿Cuánta memoria gráfica de acceso aleatorio necesito? ¿Qué tal inferir la velocidad?
225+
Para un clip de audio de 30 segundos, se requieren al menos 4 GB de memoria de GPU. Para la GPU 4090, puede generar audio correspondiente a aproximadamente 7 tokens semánticos por segundo. El Factor en Tiempo Real (RTF) es aproximadamente 0,3.
226+
227+
#### 2. La estabilidad del modelo no es lo suficientemente buena y existen problemas como varios altavoces o mala calidad del sonido.
228+
229+
Este es un problema común en los modelos autorregresivos (para bark y valle). Generalmente es difícil de evitar. Puede probar varias muestras para encontrar resultados adecuados.
230+
231+
#### 3. ¿Podemos controlar algo más que la risa? ¿Podemos controlar otras emociones?
232+
233+
En el modelo lanzado actualmente, las únicas unidades de control a nivel de token son `[risa]`, `[uv_break]` y `[lbreak]`. En una versión futura, es posible que abramos el código fuente del modelo con capacidades adicionales de control de emociones.
234+
235+
## Agradecimientos
236+
- [bark](https://github.com/suno-ai/bark), [XTTSv2](https://github.com/coqui-ai/TTS) y [valle](https://arxiv.org/abs/2301.02111) demuestran un resultado TTS notable mediante un sistema de estilo autorregresivo.
237+
- [fish-speech](https://github.com/fishaudio/fish-speech) revela las capacidades de GVQ como tokenizador de audio para el modelado LLM.
238+
- [vocos](https://github.com/gemelo-ai/vocos) se utiliza como codificador de voz previamente entrenado.
239+
240+
## Agradecimiento Especial
241+
- [wlu-audio lab](https://audio.westlake.edu.cn/) para experimentos iniciales del algoritmo.
242+
243+
## Recursos Relacionados
244+
- [Awesome-ChatTTS](https://github.com/libukai/Awesome-ChatTTS)
245+
246+
## Gracias a todos los contribuyentes por sus esfuerzos.
247+
[![contributors](https://contrib.rocks/image?repo=2noise/ChatTTS)](https://github.com/2noise/ChatTTS/graphs/contributors)
248+
249+
<div align="center">
250+
251+
![counter](https://counter.seku.su/cmoe?name=chattts&theme=mbs)
252+
253+
</div>

0 commit comments

Comments
 (0)