由於維基百科擁有相對完整的覆蓋率,實現文字向量時(如word2vec), 我使用維基百科來作為我的輸入資料,
為了將維基百科的文字題取出來,我作了以下的步驟,來做機器學習的準備資料。
下載維基百科的資料
第一步驟:
https://dumps.wikimedia.org/enwiki/20170501/
選擇結尾是'pages-articles.xml.bz2'
或僅僅使用這個指令:wget enwiki-20170501-pages-articles.xml.bz2
第二步驟:
下載擷取程式: git clone https://github.com/zhaoshiyu/WikiExtractor.git
第三步驟:
進行以下指令:
bzcat enwiki-20170501-pages-articles.xml.bz2 | python WikiExtractor-zsy.py -b200M -o extracted > vocabulary.txt
這裡的-b200M為每個檔案都切割為200M的大小,預設值為500K.
完成:)
========================================================================================
Nowadays we always use wiki data since it have a great coverage, and always be used as a lexicon data.
To implemnet the word representation, I use wiki data as my input file.
Here goes the steps how can we extrac wiki data for machine learning.
1. step1:
Download wiki data here:
https://dumps.wikimedia.org/enwiki/20170501/
then choose the one end with 'pages-articles.xml.bz2'
or merely cmd : wget enwiki-20170501-pages-articles.xml.bz2
2. step2:
git clone the wiki extracted here:
git clone https://github.com/zhaoshiyu/WikiExtractor.git
3. step3:
cmd:
bzcat wget enwiki-20170501-pages-articles.xml.bz2 | python WikiExtractor-zsy.py -b200M -o extracted > vocabulary.txt
-b 200M means 200M for each file. the default vaule is 500K.
all done :)
留言列表