Skip to content
/ trf Public

This is the repository for TRF (text readability features) publication.

License

Notifications You must be signed in to change notification settings

aistairc/trf

Repository files navigation

TRF

CircleCI

TRFは、与えられた日本語テキストに対して、種々の読みやすさ指標を自動で計算し、出力するツールです。

Requirements

Dockerイメージpecorarista/conda-knpを使うと便利です。

インストール

git clone https://github.com/aistairc/trf.git
cd trf
./download.sh

使用例

テキストを直接与えて実行する場合

echo 'ごはんを食べるつもりです。' | python3 -m trf

テキストファイルを指定して実行する場合

python3 -m trf -f FILENAME

TRFがサポートする指標一覧

TRFは大きく分けて、基本指標語彙に基づく指標統語情報に基づく指標言語モデルに基づく指標の4種類をサポートしています。 現在サポートしている指標の一覧とその説明は、下記の通りです。

基本指標

指標名 指標の説明
文数 テキストに含まれる文の総数
平均文長 各文に含まれる形態素数の平均
トークン数 テキストに含まれる単語のトークン数
タイプ数 テキストに含まれる単語のタイプ数

語彙に基づく指標

指標名 指標の説明
品詞 テキストに含まれる単語の品詞の割合
語彙の具体度 テキストに含まれる名詞の上位語数の割合

統語情報に基づく指標

指標名 指標の説明
仮定節 仮定節が含まれる文の割合
係り受け木の深さ 各文の係り受け木の深さの最大値の平均
モダリティ 各種モダリティが含まれる文の割合

言語モデルに基づく指標

指標名 指標の説明
容認度 (LogProb)
容認度 (Mean LP)
容認度 (Norm LP (Div))
容認度 (Norm LP (Sub))
容認度 (SLOR: Syntactic Log-Odds Ratio)

詳細については Lau et al. (2015) をご参照ください。

Reference

本ツールについて、さらに詳細な情報が知りたい場合は「TRF: テキストの読みやすさ解析ツール」[PDF] をご参照ください。

@inproceedings{watanabe2017,
  author={渡邉亮彦 and 村上聡一朗 and 宮澤彬 and 五島圭一 and 柳瀬利彦 and 高村大也 and 宮尾祐介},
  title={{TRF}: テキストの読みやすさ解析ツール},
  booktitle={言語処理学会第23回年次大会発表論文集},
  year={2017},
  pages={477--480}
}

About

This is the repository for TRF (text readability features) publication.

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •