在處理自然語言處理的時候,我們往往需要更多的資訊來讓分析結果更為正確,以中文自然語言處理指代解消(coreffence,語言學中稱為Anaphora)為例,我們可以透過[兩種方法]來解決這樣的問題。
解法一、使用POS以詞性的方法解決。(中研院詞庫小組有發展中文的pos解法,免費的套件有mmseg4j,英文的pos可以從stanford university 有提供paser 而python nltk也有提供套件)
解法二、使用E-HowNet以語意的方法解決。(連結將連到中研院的E-HowNet網站)
在這裡,我們主要介紹以E-HowNet做為指代銷解的方法,我們可以找文字內的定義式做為文字的資訊,然後計算距離給可能的名詞候選人。
為了能讓大家更妥善的應用E-HowNet來做指代消解,以下要來介紹E-HowNet的符號定義:
主要有分義元、基本概念、Head、Function
[義元]: 格式為-英文|中文
例如:mental|精神
[基本概念]: 格式為-中文|英文
例如:物理學家|physicist
[Relation]: 格式為-foo={XXX},以物理學家為例
predication={research|研究:agent={~}}
[Head]: 以物理學家為例
{學者|scholar:predication={research|研究:agent={~},content={knowledge|知識:domain={physics|物理}}} |
這裡的Head即為 學者|scholar
在熟悉這些定義之後,中研院有提供一些API(需要租金),提供上下位、同義字、物件距離等等的,方便我們處理自然語言。
在下一次的文章裡,我們將介紹一些文字關係抽取的問題,以及如何抽取。
下周同一時間請準時收看XD
留言列表