- NLTK
- SpaCy (NB у него есть особенности токенизации)
- RedditScore - отличное решение для работы с данными из Твиттера и Реддита, в т.ч. CrazyTokenizer на основе SpaCy
- Gensim
- pymorphy2 (rus)
- pyMystem (rus)
- большой список прочего разного
-
статья-заметка с размышлением по поводу размерности векторов
-
отличный курс Introduction to NLP with Python
-
библиотека markovify, которая умеет обучаться и порождать предложения с пунктуацией. Внутри есть класс Chain, которым можно создавать цепи из чего угодно, если оно в формате
список списков значений
.
-
тг канал RusVectōrēs, там бывают с полезные материалами
-
код для работы с ELMo-моделями: проект Simple ELMo
-
статья про параметры векторных моделей (размерность, окно, симметричность контекста) GloVE