一種基于句子檢索模式的屬性抽取方法

基本信息

申請(qǐng)?zhí)?/td> CN202010025572.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111241827B 公開(kāi)(公告)日 2022-05-20
申請(qǐng)公布號(hào) CN111241827B 申請(qǐng)公布日 2022-05-20
分類(lèi)號(hào) G06F40/289(2020.01)I;G06F40/211(2020.01)I;G06F40/242(2020.01)I;G06F16/31(2019.01)I;G06F16/33(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 喬馳;段飛虎;印東敏;陳鋒濤;蔡鄖;馮自強(qiáng);李云鵬;戴鐵成;張宏偉 申請(qǐng)(專(zhuān)利權(quán))人 同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
代理機(jī)構(gòu) 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 代理人 -
地址 100084北京市海淀區(qū)清華園清華大學(xué)36區(qū)華業(yè)大廈B1410、1412、1414室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于句子檢索模式的屬性抽取方法,該包括:將語(yǔ)料進(jìn)行預(yù)處理,把需要的語(yǔ)料數(shù)據(jù)導(dǎo)入到語(yǔ)料庫(kù);從語(yǔ)料庫(kù)中或詞典或概念模型中的語(yǔ)料數(shù)據(jù)中抽取語(yǔ)句,并將所需語(yǔ)句組成樣本集;采用HanLP句法依存分析器對(duì)抽取的語(yǔ)句樣本集進(jìn)行分詞和詞性標(biāo)注;采用過(guò)濾規(guī)則對(duì)詞性標(biāo)注的結(jié)果集進(jìn)行過(guò)濾,并產(chǎn)生三元屬性即:實(shí)體屬性、關(guān)系屬性以及實(shí)體與實(shí)體之間的屬性,并得到每一句話(huà)的三元組屬性集合;對(duì)三元組屬性集合進(jìn)行聚合,并將聚合得到的屬性集合保存到數(shù)據(jù)庫(kù)。本發(fā)明提高了關(guān)系抽取的效率,減少了人力物力等資源的浪費(fèi),解決了現(xiàn)有關(guān)系抽取技術(shù)的不足之處。