Skip to content

lizaku/frame-parsing

Repository files navigation

Репозиторий с файлами проекта "Фрейм-парсер".

Скрипты:

  • parse_framebank.py - обрабатывает Фреймбанк (совмещает примеры и разметку ролей) и переводит его в табличную форму. Этот скрипт использует файлы exampleindex.csv и framebank_anno_ex_items_fixed.txt.
  • create_features.py - превращает данные фреймбанка в таблички с фичами для классификаторов. Можно генерировать таблички для распознавания предикатов и их аргументов, а также для классификации уже распознанных аргументов по ролям. Фичи такие: * морфология (часть речи, грамматические признаки текущего и предыдущего слова) * лексическая информация (лемма слова, лемма предыдущего слова) * синтаксическая информация (длина пути от корня до текущего слова, синтО между текущим словом и его родителем, лемма предиката). Синтаксическая информация берётся из модели, обученной на UD for Russian
  • classify.py - классифицирует данные при помощи SGDClassifier.
  • parser.py - полный пайплайн, от текста, введенного пользователем, к ролям. Использует натренированные модели, которые создаются скриптом classify.py (frame_parser.pkl и feature_transformer.pkl)

Результаты распознавания предикатов и аргументов:

alt-text

Результаты по ролям:

alt-text

About

Semantic role labeling for Russian

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published