一種基于平行語(yǔ)料訓(xùn)練的篇章級(jí)可比語(yǔ)料平行短語(yǔ)對(duì)的抽取方法

基本信息

申請(qǐng)?zhí)?/td> CN201410624648.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104391885B 公開(kāi)(公告)日 2017-07-28
申請(qǐng)公布號(hào) CN104391885B 申請(qǐng)公布日 2017-07-28
分類(lèi)號(hào) G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 曹海龍;張捷鑫;趙鐵軍 申請(qǐng)(專(zhuān)利權(quán))人 哈爾濱工業(yè)大學(xué)高新技術(shù)開(kāi)發(fā)總公司
代理機(jī)構(gòu) 哈爾濱市松花江專(zhuān)利商標(biāo)事務(wù)所 代理人 哈爾濱工業(yè)大學(xué);哈爾濱工業(yè)大學(xué)高新技術(shù)開(kāi)發(fā)總公司
地址 150001 黑龍江省哈爾濱市南崗區(qū)西大直街92號(hào)
法律狀態(tài) -

摘要

摘要 一種基于平行語(yǔ)料訓(xùn)練的篇章級(jí)可比語(yǔ)料平行短語(yǔ)對(duì)的抽取方法,本發(fā)明涉及可比語(yǔ)料平行短語(yǔ)對(duì)的抽取方法。本發(fā)明是要解決獲取平行語(yǔ)料需要花費(fèi)高、將最相近的上下文的兩個(gè)單詞或片段互為翻譯應(yīng)用到可比語(yǔ)料上存在對(duì)于雙語(yǔ)詞典依賴(lài)很?chē)?yán)重的問(wèn)題。該方法是通過(guò)1源語(yǔ)言句子集合S和目標(biāo)語(yǔ)言句子集合T;2得到平行語(yǔ)料的短語(yǔ)對(duì)集合;3得到平行語(yǔ)料的平行短語(yǔ)對(duì);4得到平行語(yǔ)料的非平行短語(yǔ)對(duì);5得到支持向量機(jī)二元分類(lèi)器;6抽取候選平行短語(yǔ)對(duì)<s,t>;7獲得可比語(yǔ)料中包含噪聲的平行短語(yǔ)對(duì);8得到可比語(yǔ)料的平行短語(yǔ)對(duì);9得到擴(kuò)展解碼器等步驟實(shí)現(xiàn)的。本發(fā)明應(yīng)用于可比語(yǔ)料平行短語(yǔ)對(duì)的抽取領(lǐng)域。