neg_all=codecs.open('C:/Users/john/Desktop/情感分析/aclImdb_v1/aclImdb/train/neg_all.txt','a',encoding='utf8')
alls=[]forfileinneg_files:
seqtence.extend(line)
通过上述代码我们可以得到整体的txt文本如下所示:
all.extend(line)forfileinall:
这样我们就可以得到相对干净的数据集。如果你不进行这一步的话,你会发现词汇量是11万多。但是通过去停用词和去标点符号之后,词汇量变成了小9万。这样就极大的减少我们的工作量。其实进行完该步骤的话。我们就已经完成了一大部分。因为计算机只能识别数字。所以我们需要把单词转换为数字。(其实在英文和中文进行情感分析时该步骤都是必要的。),但是不要认为这个步骤很难。其实so easy。
#网络构建model=Sequential()
line.append(word)
免责声明:凡本网注明 “来源:XXX(非中国房产新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。