Menu
您的位置:中国房产新闻网 > 数据研究 > >

基于LSTM对IMDB数房产新闻据集进行情感分析

新闻来源:网络整理  2018-06-26 02:30

neg_all=codecs.open('C:/Users/john/Desktop/情感分析/aclImdb_v1/aclImdb/train/neg_all.txt','a',encoding='utf8')

alls=[]forfileinneg_files:

seqtence.extend(line)

  通过上述代码我们可以得到整体的txt文本如下所示:

all.extend(line)forfileinall:

  这样我们就可以得到相对干净的数据集。如果你不进行这一步的话,你会发现词汇量是11万多。但是通过去停用词和去标点符号之后,词汇量变成了小9万。这样就极大的减少我们的工作量。其实进行完该步骤的话。我们就已经完成了一大部分。因为计算机只能识别数字。所以我们需要把单词转换为数字。(其实在英文和中文进行情感分析时该步骤都是必要的。),但是不要认为这个步骤很难。其实so easy。

#网络构建model=Sequential()

line.append(word)

免责声明:凡本网注明 “来源:XXX(非中国房产新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

最新资讯

滚动播报

更多