一種具有多種子模塊信息的中文詞向量生成方法

基本信息

申請(qǐng)?zhí)?/td> CN201911172979.X 申請(qǐng)日 -
公開(公告)號(hào) CN111160020A 公開(公告)日 2020-05-15
申請(qǐng)公布號(hào) CN111160020A 申請(qǐng)公布日 2020-05-15
分類號(hào) G06F40/284;G06F40/211;G06N3/04;G06N3/08 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 朱鵬;程大偉;楊芳洲;羅軼鳳;錢衛(wèi)寧;周傲英 申請(qǐng)(專利權(quán))人 上海瞰點(diǎn)科技有限責(zé)任公司
代理機(jī)構(gòu) 上海藍(lán)迪專利商標(biāo)事務(wù)所(普通合伙) 代理人 上海瞰點(diǎn)科技有限責(zé)任公司;華東師范大學(xué)
地址 200241 上海市閔行區(qū)東川路500號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種具有多種子模塊信息的中文詞向量生成方法,其特點(diǎn)是采用包括單詞、字符、部首、成分、字形和拼音的六種子模塊信息與注意力機(jī)制融合方法,以學(xué)習(xí)改進(jìn)的漢字嵌入表示形式,將其融合到具有適當(dāng)權(quán)重的詞嵌入中,生成高精度的詞向量。本發(fā)明與現(xiàn)有技術(shù)相比具有根據(jù)注意機(jī)制為每種子模塊信息分配適當(dāng)?shù)臋?quán)重,以減少語義含義較少的子模塊的權(quán)重,提高子模塊的權(quán)重,具有更豐富語義含義的模塊,改善了中文單詞嵌入,實(shí)現(xiàn)了可觀的性能提升。