一種通過特征集合降維的關(guān)鍵詞/序列提取方法

基本信息

申請?zhí)?/td> CN202210142024.5 申請日 -
公開(公告)號 CN114528833A 公開(公告)日 2022-05-24
申請公布號 CN114528833A 申請公布日 2022-05-24
分類號 G06F40/289(2020.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 馮曉燕;吳晨 申請(專利權(quán))人 同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
代理機構(gòu) 北京天奇智新知識產(chǎn)權(quán)代理有限公司 代理人 -
地址 100192北京市海淀區(qū)西小口路66號東升科技園B2樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種通過特征集合降維的關(guān)鍵詞/序列提取方法,包括對文本集合處理,獲取特征集合;獲取特征集合的向量表示;對特征集合降維,得到降維后的特征集合及特征集合與降維后的特征集合之間的映射關(guān)系;關(guān)鍵詞/序列提取。本發(fā)明不僅可以提高關(guān)鍵詞/序列的提取質(zhì)量,并降低在海量數(shù)據(jù)的關(guān)鍵詞/序列提取模型訓練過程中向量計算所需的算力和內(nèi)存開銷,其中的降維算法模塊也可以很好的應(yīng)用到高維(相似性無法一次性計算得出)特征集合的降維。