R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)
笔者寄语:情感分析中对文本处理的数据的小技巧要求比较高,笔者在学习时候会为一些小技巧感到头疼不已。
主要包括以下内容:
1、批量读取txt字符文件(导入、文本内容逐行读取、加入文档名字)、
2、文本清洗(一级清洗,去标点;二级清洗去内容;三级清洗,去停用词)
3、词典之间匹配(有主键join、词库匹配%in%)
4、分词之后档案id+label的加入
5、情感打分(关联情感词join、情感分数aggerate、情感偏向)
————————————————————————————————————————————
难题:一个文件夹有许多txt文件,如何导入,并且读出来,还要加上文档名字?
如何用函数批量导入文本,并且能够留在R的环境之中?循环用read.table,怎么解决每个文本文件命名问题?
list函数能够有效的读入,并且存放非结构化数据。
代码解读:reviewpath为文件夹的目录名字,completepath为读取文件夹中所有的文件,生成字符串(character)格式。
详细的文本文件读取方法,可见博客。
前面文档导入,相当于是给每个文档定了位,现在需要读入单个文档内的文本信息。
文本文档读取的时候会出现很多问题,比如分隔符、制表符等,而出现乱码,需要逐行读取。
代码解读:read.txt是一个简单的逐行读取的函数,readLines函数,是将一段文字分成以下的形式,需要粘贴起来;
lapply表示逐文本读取。
读取了每个文档到list之中,怎么跟每个文档名字匹配在一起?
利用as.data.frame成为一个数据框,并且不变成因子型,stringsAsFactors是因为文档名字列,很容易变成字符因子型,需要关闭这功能;
colnames修改列名,还有names也可以达到同样的效果。
图 1
————————————————————————————————————————————
文本挖掘中,对文本的清洗工作尤为重要,会出现比如:英文逗号、波浪线、英文单引号、英文双引号、分隔符等
如图1,所示的msg,对其进行一些标点清洗,比如双引号,波浪号等。
代码解读:英文单引号(')、英文双引号(")、波浪号(~),都会引起读取时发生警告,带来csv文件或txt文件读取不完整的后果。还有一些字符型会出现乱码的标点等,详见博客:R语言︱文本(字符串)处理与正则表达式
如图1 ,msg,对文档进行二级清洗,比如清楚全英文字符、清除数字等。
代码解读:在进行二级清洗的过程中,需要先转化为向量形式,as.vector;
字符数过小的文本也需要清洗,nchar就是字符计数函数。
去除原理就是导入停用词列表,是一列chr[1:n]的格式;
先与情感词典匹配,在停用词库去掉情感词典中的单词,以免删除了很多情感词,构造新的停用词;
再与源序列匹配,在原序列中去掉停用词。
代码解读:
管道函数A %in% B,代表在A中搜索B,存在则生成(TRUE,FALSE,TRUE)布尔向量,其中TURE代表A/B共有的。形成一个与原序列的等长的波尔值向量,“非”函数将布尔值反向就可以去除停用词。
stopword[!stopword$term %in% posneg$term,],去掉stopword中与posneg共有的词;
testterm[!testterm$term %in% stopword$term,],去掉testtrerm(原序列)与stopword共有的词。
setdiff(x,y),代表在x中去掉xy共有的元素。
setdiff与%in%都是集合运算符号,可见其他的一些符号:R语言︱集合运算
————————————————————————————————————————————
代码解读:表1为图1中的数据表,表2是id+label;
join之后,在表1中加入匹配到的表2的label;
并且通过[!x,]去掉了,没有label的文本。
其他关于主键合并的方法有,dplyr包等,可见博客:R语言数据集合并、数据增减
管道函数%in%,可以很好的解决。A%in%B,代表在A中搜索B,存在B则生成(TRUE,FALSE,TRUE)布尔向量,其中TURE代表A/B共有的。
向量长度依存于A,会生成一个与A相同长度的布尔向量,通过A[布尔向量,]就可以直接使用。
回忆一下,缺失值查找函数,A[na.is(x)],也是生成布尔向量。
详细见2.3的停用词删除的用法。
2、left_join——词库匹配打标签
以上%in%较为适合做去除数据来做,因为可以生成布尔向量,作为过渡。但是如何连接词库,并且匹配过去标签呢。
现在有两个数据:
通过left_join之后,就可以根据每个词语匹配DF值,并且在源数据重复的情况下,还是能够顺利匹配上。
用在监督式算法情感分析之中,可见R语言︱监督算法式的情感分析笔记。
————————————————————————————————————————————
分词之后,一个文档可能就有很多单词,应该每个单词都单独列出来,并且一个单词一个文档名一个label。
图 2
unlist,可以让单词变成向量化,单词操作的时候都需要这步骤,比如前面对单词进行清洗,需要展平数据;
rep,重复id以及label,按照单词个数,rep(c("id","su"),c(2,1)),执行之后为“id”“id”“su”。
————————————————————————————————————————————
现在有了图2的数据以及情感词典数据图3,以term为主键,进行join合并。情感词典中没有的词,则删除。
图 3
代码解读:join,以term进行左关联合并,在A表中,会多出来weigh的一列,但是会出现(1,NA,2,3,NA),一些没有匹配到的NA,
用[is.na(testterm$weight),]来进行删除。
有了图2的id+weight列,就可以直接分组汇总,比如aggregate,其他汇总函数可见比博客:R语言数据集合并、数据增减
对weight列以文本id分组求和,即为情感打分。
有了情感分数,我想单单知道这些ID正负,就像图2中的label。
可以利用布尔向量建立连接。
先生成一个原数列长度的-1数列;
在原数列$weight>0会生成一个布尔向量,然后进行赋值,就可以构造label了。
——代码很多来自《数据挖掘之道》的情感分析章节。
一、ECMAScript和JavaScript的关系。ECMA是个组织,ECMA个标准,JS是实现。二、兼容性http://kangax.github.io/compat-table/es5/http://kangax.github.io/compat-table/es6/ES6(ES2015)支持的环境(IE10+、Chrome、FireFox、移动端、NodeJS)如何...
给定一句英语,要求你编写程序,将句中所有单词的顺序颠倒输出。
https://www.bbsmax.com/A/x9J2wZM56o/推流为将直播内容推送至服务器的过程;拉流为服务器已有直播内容,用指定地址进行拉取的过程。rtmprtmp是Real Time Messaging Protocol(实时消息传输协议)的首字母缩写。该协议基于TCP,是一个协议族,包括RTMP基本协议及RTMPT/RTMPS/RTMPE等多种变种。RTMP是...
1.通过构造函数方式创建一个set实例console.log(new Set());//Set(0) {} (可展开)2.类似数组 只有值value没有键keyconsole.log(new Set([1, 2, 3, 4]));//Set(4) {1, 2, 3, 4} 展开发现里面只有value没有keyconsole.log(new Set("1234"));//Set(4) {...
用python sympy 求定积分,代码如下:E=210000from sympy import *x=symbols('x')T_2=(125-x)/50*(21-18)+18Radius_2=T_2/40*10.5*0.5I_2=((89-Radius_2*2)*T_2**3/12)+((T_2-Radius_2*2)**3*Radius_2/12)+(3.1415926536*(Radiu...
什么是ES6?1.javascript由3部分组成:ECMAScript、DOM、BOM;ECMAScript是一种由Ecma国际欧洲计算机制造商协会,通过ECMA262标准化的脚本程序设计语言(ECMAScript就是javascript的语法规范)2.ECMAScript定义了哪些规范?-语法 -类型-原型和继承-内置对象和函数的标准库3.版本:-1996年ECMAScript1.0-1998...
1、[GKCTF2020]EZ三剑客-EzWeb2、[BJDCTF 2nd]elementmaster3、[MRCTF2020]套娃4、[FBCTF2019]RCEService5、[WUSTCTF2020]颜值成绩查询
一、前言二叉树的高是树比较重要的一个概念,指的是树中结点的最大层数本次算法通过非递归算法来求得树的高度,借用栈来实现树中结点的存储。学英语真的很重要,所以文中的注释还有输出以后会尽量用英语写,文中出现的英语语法或者单词使用错误,还希望各位英语大神能不吝赐教。二、题目将下图用二叉树存入,并求树的高度。其中圆角矩形内为结点数据,旁边数字为结点编号,编号为0的结点为根节点,箭头指向的结点...
一. 上层与内核的交互 1. camera驱动的目录结构 [email protected]:/tmp/media/video$ tree ├── generic_sensor.c ├── generic_sensor.h ├── ir-kbd-i2c.c ├── Kconfig ├── Makefile ├── rk30_camera.c //
解构赋值数据解构-原始数据解构 let arr = [10,20,30,40,50,60]; let a = arr[0] let b = arr[1] let c = arr[2] let d = arr[3] let e = arr[4] let f = arr[5] console.log(a,b,c,d,e,f); Es6 数据解构let [a,b,c] = [1,2,3]
在我们加载图片的时候往往会出现一些小问题,例如:明明图片加载成功了,但是控制台还是会报 渲染层网络层错误,找了很多地方,也发现不出来问题。出现这种情况的原因在于,页面显示加载的时候image里面的值是空的,从后台拿值是需要一定的额时间的,在这个时间内image的src是空的,所以报错。解决方法也很简单 加一个wx:if="{{arr.length>0}}"想要获得更多资料的 ...
一、枚举的概念枚举是C语言中的一种基本数据类型,并不是构造类型,它可以用于声明一组常数。当一个变量有几个固定的可能取值时,可以将这个变量定义为枚举类型。比如,你可以用一个枚举类型的变量来表示季节,因为季节只有4种可能的取值:春天、夏天、秋天、冬天。二、枚举类型的定义一般形式为:enum 枚举名 {枚举元素1,枚举元素2,……};三、枚举变量的定义前面只是定义了枚举类型,接下来就可以利用定义好的枚举类型定义变量。跟结构体一样,有3种方式定义枚举变量1.先定义枚举类型,再定义