Python数据分析系列视频课程–学习文本挖掘资源介绍:
文本挖掘(TM),又称自然语言处理(NLP),是AI时代炙手可热的数据分析挖掘前沿领域,本次课程将会从基本的分词、词袋模型、分布式表示等概念开始,多面介绍文本挖掘技术的各个方面,特别会针对目前最热的word2vec,gensim 等结合实际案例进行学习,帮助学员直接升级至业界技术前沿。学习完本课程后,学员将能够独立使用Python环境完成中文文本挖掘的各种工作。
资源目录:
第1章文本挖掘概述(31分钟6节) 1-1什么是文本挖掘[08:57] 1-2文本挖掘的基本流程和任务[08:19] 1-3文本挖掘的基本思路[06:52] 1-4语料数据化时需要考虑的工作[06:49] 1-5本课程代码课件及数据下载 1-6本课程案例数据及文档下载[00:10] 第2章磨刀不误砍柴工(1小时14分钟6节) 2-1Python常用IDE简介[11:21] 2-2Anaconda的安装与配置[16:23] 2-3Jupyter Notebook的基本操作[11:58] 2-4NLTK的安装与配置[06:06] 2-5什么是语料库[13:43] 2-6准备《射雕》语料库[14:46] 第3章分词(44分钟5节) 3-1分词原理简介[08:02] 3-2结巴分词的基本用法[09:08] 3-3使用自定义词典和搜狗细胞词库[09:55] 3-4去除停用词[11:07] 3-5词性标注及其他[06:30] 第4章词云展示(55分钟6节) 4-1词频统计[08:25] 4-2词云概述[05:03] 4-3wordcloud包的安装[08:10] 4-4绘制词云[13:13] 4-5设置词云背景模板[09:35] 4-6修改词云颜色[10:35] 第5章 文本信息的向量化 (1小时24分钟 9节) 5-1词袋模型[07:33] 5-2词袋模型的gensim实现[10:55] 5-3用Pandas生成文档词条矩阵[11:16] 5-4用sklearns生成文档-词条矩阵[11:41] 5-5从词袋模型到N-gram模型[06:50] 5-6文本信息的分布式表示[09:51] 5-7共现矩阵[05:56] 5-8NNLM模型的突破[05:19] 5-9word2vec一出,满座皆惊[15:17] 第6章 关键词提取 (43分钟 6节) 6-1关键词提取的基本思路[06:43] 6-2TF-IDF 算法[05:53] 6-3TF-IDF算法的jieba实现[11:09] 6-4TF-IDF算法的sklearn实现[05:39] 6-5TF-IDF算法的gensim实现[05:35] 6-6TextRank算法[08:16] 第7章 抽取文档主题 (59分钟 4节) 7-1主题模型概述[13:02] 7-2主题模型的sklearn实现[12:18] 7-3主题模型的gensim实现[15:57] 7-4主题模型结果的可视化[17:46] 第8章 文档相似度 (54分钟 6节) 8-1基本概念[07:38] 8-2词条相似度:word2vec训练[10:06] 8-3词条相似度:word2vec应用[09:24] 8-4文档相似度的词袋模型实现[07:52] 8-5doc2vec[09:55] 8-6文档聚类[09:05] 第9章 文本分类 (35分钟 4节) 9-1文本分类概述[11:07] 9-2朴素贝叶斯算法[07:11] 9-3算法的sklearn实现[10:27] 9-4算法的NLTK实现[06:44] 第10章 情感分析 (35分钟 3节) 10-1情感分析概述[17:56] 10-2情感分析的词袋模型实现[07:29] 10-3情感分析的分布式表达实现[10:13] 第11章 自动摘要 (35分钟 3节) 11-1自动摘要的基本原理[13:10] 11-2自动摘要的效果评价[09:03] 11-3自动摘要的python实现[12:50] 第12章 文本自动写作 (1小时27分钟 8节) 12-1RNN的基本原理[13:55] 12-2LSTM的基本原理[13:16] 12-3Keras+TensorFlow组合的优势[05:32] 12-4安装Keras+TensorFlow组合【2021.[05:46] 12-5案例1:数据准备[13:55] 12-6案例1:模型拟合[11:21] 12-7案例2:数据准备[13:38] 12-8案例2:模型拟合[09:46] 第13章 结课测试 (0 1节) 13-1结课测试