close
RelationRelationFunction

在處理自然語言處理的時候,我們往往需要更多的資訊來讓分析結果更為正確,以中文自然語言處理指代解消(coreffence,語言學中稱為Anaphora)為例,我們可以透過[兩種方法]來解決這樣的問題。

解法一、使用POS以詞性的方法解決。(中研院詞庫小組有發展中文的pos解法,免費的套件有mmseg4j,英文的pos可以從stanford university 有提供paser 而python nltk也有提供套件)

解法二、使用E-HowNet以語意的方法解決。(連結將連到中研院的E-HowNet網站)

在這裡,我們主要介紹以E-HowNet做為指代銷解的方法,我們可以找文字內的定義式做為文字的資訊,然後計算距離給可能的名詞候選人。

為了能讓大家更妥善的應用E-HowNet來做指代消解,以下要來介紹E-HowNet的符號定義:


主要有分義元、基本概念、Head、Function

[義元]: 格式為-英文|中文

例如:mental|精神

[基本概念]: 格式為-中文|英文

例如:物理學家|physicist

[Relation]: 格式為-foo={XXX},以物理學家為例

predication={research|研究:agent={~}}


[Head]: 以物理學家為例

{學者|scholar:predication={research|研究:agent={~},content={knowledge|知識:domain={physics|物理}}}

這裡的Head即為 學者|scholar


在熟悉這些定義之後,中研院有提供一些API(需要租金),提供上下位、同義字、物件距離等等的,方便我們處理自然語言。


在下一次的文章裡,我們將介紹一些文字關係抽取的問題,以及如何抽取。


下周同一時間請準時收看XD

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 HaoWei 的頭像
    HaoWei

    NLP Notes

    HaoWei 發表在 痞客邦 留言(0) 人氣()