word2vec 基于维基百科训练小结
word2vec 基于维基百科训练小结
首先去维基百科进行下载资料
wget https://dumps.wikimedia.org/zhwiki/20170301/zhwiki-20170301-pages-articles-multistream.xml.bz2
下载完成之后要进行对文本的处理
# 下载解压脚本
git clone https://github.com/attardi/wikiextractor.git wikiextractor
python wikiextractor/WikiExtractor.py -b 2000M -o zhwiki_extr......