一種基于平行語(yǔ)料訓(xùn)練的篇章級(jí)可比語(yǔ)料平行短語(yǔ)對(duì)的抽取方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201410624648.6 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN104391885B | 公開(kāi)(公告)日 | 2017-07-28 |
| 申請(qǐng)公布號(hào) | CN104391885B | 申請(qǐng)公布日 | 2017-07-28 |
| 分類(lèi)號(hào) | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 曹海龍;張捷鑫;趙鐵軍 | 申請(qǐng)(專(zhuān)利權(quán))人 | 哈爾濱工業(yè)大學(xué)高新技術(shù)開(kāi)發(fā)總公司 |
| 代理機(jī)構(gòu) | 哈爾濱市松花江專(zhuān)利商標(biāo)事務(wù)所 | 代理人 | 哈爾濱工業(yè)大學(xué);哈爾濱工業(yè)大學(xué)高新技術(shù)開(kāi)發(fā)總公司 |
| 地址 | 150001 黑龍江省哈爾濱市南崗區(qū)西大直街92號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 一種基于平行語(yǔ)料訓(xùn)練的篇章級(jí)可比語(yǔ)料平行短語(yǔ)對(duì)的抽取方法,本發(fā)明涉及可比語(yǔ)料平行短語(yǔ)對(duì)的抽取方法。本發(fā)明是要解決獲取平行語(yǔ)料需要花費(fèi)高、將最相近的上下文的兩個(gè)單詞或片段互為翻譯應(yīng)用到可比語(yǔ)料上存在對(duì)于雙語(yǔ)詞典依賴(lài)很?chē)?yán)重的問(wèn)題。該方法是通過(guò)1源語(yǔ)言句子集合S和目標(biāo)語(yǔ)言句子集合T;2得到平行語(yǔ)料的短語(yǔ)對(duì)集合;3得到平行語(yǔ)料的平行短語(yǔ)對(duì);4得到平行語(yǔ)料的非平行短語(yǔ)對(duì);5得到支持向量機(jī)二元分類(lèi)器;6抽取候選平行短語(yǔ)對(duì)<s,t>;7獲得可比語(yǔ)料中包含噪聲的平行短語(yǔ)對(duì);8得到可比語(yǔ)料的平行短語(yǔ)對(duì);9得到擴(kuò)展解碼器等步驟實(shí)現(xiàn)的。本發(fā)明應(yīng)用于可比語(yǔ)料平行短語(yǔ)對(duì)的抽取領(lǐng)域。 |





