雙語(yǔ)篇章可比語(yǔ)料構(gòu)建方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN202111434929.1 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN114118096A | 公開(kāi)(公告)日 | 2022-03-01 |
| 申請(qǐng)公布號(hào) | CN114118096A | 申請(qǐng)公布日 | 2022-03-01 |
| 分類(lèi)號(hào) | G06F40/30(2020.01)I;G06F40/205(2020.01)I;G06F40/284(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 呂飛;朱澤德;王衛(wèi);陳曉虎;鄭守國(guó) | 申請(qǐng)(專(zhuān)利權(quán))人 | 合肥技術(shù)創(chuàng)新工程院 |
| 代理機(jī)構(gòu) | 北京中濟(jì)緯天專(zhuān)利代理有限公司 | 代理人 | 劉濤 |
| 地址 | 230088安徽省合肥市習(xí)友路2666號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明特別涉及一種雙語(yǔ)篇章可比語(yǔ)料構(gòu)建方法,包括如下步驟:A、利用深度學(xué)習(xí)建立每種語(yǔ)言詞匯間的語(yǔ)義關(guān)系;B、利用現(xiàn)有有限雙語(yǔ)語(yǔ)料訓(xùn)練產(chǎn)生跨語(yǔ)言主題分布,對(duì)語(yǔ)料覆蓋的不同語(yǔ)言詞匯進(jìn)行主題標(biāo)注;C、利用未登陸詞匯與覆蓋詞匯之間的語(yǔ)義關(guān)系,通過(guò)知識(shí)遷移分析未登錄詞匯的主題分布,構(gòu)建多語(yǔ)言詞匯統(tǒng)一的語(yǔ)義空間;D、構(gòu)建具有較強(qiáng)泛化能力的跨語(yǔ)言主題向量;E、利用跨語(yǔ)言主題向量相似度篩選雙語(yǔ)篇章,構(gòu)建可比語(yǔ)料庫(kù)。通過(guò)將單語(yǔ)詞向量反映的語(yǔ)義關(guān)系、雙語(yǔ)詞匯對(duì)齊關(guān)系以及雙語(yǔ)詞向量融入跨語(yǔ)言主題,可提升跨語(yǔ)言主題模型對(duì)開(kāi)放域文本信息的泛化能力,提高了可比語(yǔ)料構(gòu)建的準(zhǔn)確性。 |





