- reashape2: 数据的重构与整合
- dplyr: 数据清洗(感觉作用有限)
- Rwordseg 分词:使用的是Ansj中文分词工具,基于中科院的ictclas中文分词算法,采用隐马尔科夫模型。可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取等,还可以自己导入自定义词典
- jiebaR 结巴分词
- library(topicmodels):LDA主题模型
- library(RTextTools)
- library(tm):Corpus,tm_map,DocumentTermMatrix,findFreqTerms,findAssocs等
- library(tmcn):getWordFreq,
- library(proxy):计算文档余弦相似度
- wordcloud 词云可视化
- wordcloud2
安装方式install.packages(‘devtools’) devtools::install_github(“lchiffon/wordcloud2”)
nlp 相关算法
视频
- auto encoder 算法
- Intro
- CNN4Text
- RNN
- LSTM
- 一般步骤
- 线性回归
- 逻辑回归
- 决策树
- SVM
- 朴素贝叶斯
- K最近邻算法
- K均值算法
- 随机森林算法
- 降维算法
- Gradient Boost 和 Adaboost 算法
问题:
NLP 特征选择
PCA 降维,去中心化,