Skip to content

AlivinFer/my-nlp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

my-nlp

中文垃圾邮件分类实战

数据集分为:ham_data.txt 和 Spam.data.txt , 对应为 正常邮件和垃圾邮件

其中每行代表着一个邮件

主要过程为:

  1. 数据提取
  2. 对数据进行归整化和预处理
  3. 提取特征(tfidf 和 词袋模型)
  4. 训练分类器
    • 基于词袋模型的多项式朴素贝叶斯
    • 基于词袋模型的逻辑回归
    • 基于词袋模型的支持向量机
    • 基于 tfidf 的多项式朴素贝叶斯
    • 基于 tfidf 的逻辑回归
    • 基于 tfidf 的支持向量机
  5. 用 准确率(Precision)、召回率(Recall)、F1测度 来评价模型

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages