E-HowNet定義式之定義與使用-以Anaphora(指代消解)為例－NLP Notes

RelationRelationFunction

在處理自然語言處理的時候，我們往往需要更多的資訊來讓分析結果更為正確，以中文自然語言處理指代解消(coreffence,語言學中稱為Anaphora)為例，我們可以透過[兩種方法]來解決這樣的問題。

解法一、使用POS以詞性的方法解決。(中研院詞庫小組有發展中文的pos解法，免費的套件有mmseg4j，英文的pos可以從stanford university 有提供paser 而python nltk也有提供套件)

解法二、使用E-HowNet以語意的方法解決。(連結將連到中研院的E-HowNet網站)

在這裡，我們主要介紹以E-HowNet做為指代銷解的方法，我們可以找文字內的定義式做為文字的資訊，然後計算距離給可能的名詞候選人。

為了能讓大家更妥善的應用E-HowNet來做指代消解，以下要來介紹E-HowNet的符號定義:

主要有分義元、基本概念、Head、Function

[義元]: 格式為-英文|中文

例如:mental|精神

[基本概念]: 格式為-中文|英文

例如:物理學家|physicist

[Relation]: 格式為-foo={XXX}，以物理學家為例

predication={research|研究:agent={~}}

[Head]: 以物理學家為例

{學者|scholar:predication={research|研究:agent={~},content={knowledge|知識:domain={physics|物理}}}

這裡的Head即為學者|scholar

在熟悉這些定義之後，中研院有提供一些API(需要租金)，提供上下位、同義字、物件距離等等的，方便我們處理自然語言。

在下一次的文章裡，我們將介紹一些文字關係抽取的問題，以及如何抽取。

下周同一時間請準時收看XD

HaoWei

NLP Notes

HaoWei 發表在痞客邦留言(0) 人氣()

E-mail轉寄

NLP Notes