close


由於維基百科擁有相對完整的覆蓋率,實現文字向量時(如word2vec),  我使用維基百科來作為我的輸入資料,
為了將維基百科的文字題取出來,我作了以下的步驟,來做機器學習的準備資料。

下載維基百科的資料

第一步驟:
https://dumps.wikimedia.org/enwiki/20170501/

選擇結尾是'pages-articles.xml.bz2'
或僅僅使用這個指令:wget enwiki-20170501-pages-articles.xml.bz2

第二步驟:
下載擷取程式: git clone https://github.com/zhaoshiyu/WikiExtractor.git


第三步驟:
進行以下指令:
bzcat enwiki-20170501-pages-articles.xml.bz2 | python WikiExtractor-zsy.py -b200M -o extracted > vocabulary.txt

這裡的-b200M為每個檔案都切割為200M的大小,預設值為500K.

完成:)


========================================================================================

 

Nowadays we always use wiki data since it have a great coverage, and always be used as a lexicon data. 
To implemnet the word representation, I use wiki data as my input file. 

Here goes the steps how can we extrac wiki data for machine learning.

1. step1:
Download wiki data here:
https://dumps.wikimedia.org/enwiki/20170501/

then choose the one end with 'pages-articles.xml.bz2'
or merely cmd : wget enwiki-20170501-pages-articles.xml.bz2

2. step2:
git clone the wiki extracted here:
git clone https://github.com/zhaoshiyu/WikiExtractor.git

3. step3:
cmd:
bzcat wget enwiki-20170501-pages-articles.xml.bz2 | python WikiExtractor-zsy.py -b200M -o extracted > vocabulary.txt

-b 200M means 200M for each file. the default vaule is 500K.

all done :)

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 HaoWei 的頭像
    HaoWei

    NLP Notes

    HaoWei 發表在 痞客邦 留言(0) 人氣()