文本相似度檢測(cè)方法、裝置及電子設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN201911321980.4 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111104484B 公開(kāi)(公告)日 2021-09-03
申請(qǐng)公布號(hào) CN111104484B 申請(qǐng)公布日 2021-09-03
分類號(hào) G06F16/33;G06F21/16 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王超;熊英超 申請(qǐng)(專利權(quán))人 南京中孚信息技術(shù)有限公司
代理機(jī)構(gòu) 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 代理人 董艷芳
地址 210000 江蘇省南京市浦口區(qū)江浦街道仁山路1號(hào)園區(qū)2號(hào)樓辦公室東側(cè)ER202室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種文本相似度檢測(cè)方法、裝置及電子設(shè)備,涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,本發(fā)明在獲取到兩個(gè)文本的初始指紋特征后,基于滑動(dòng)窗口算法和數(shù)字指紋的大小對(duì)初始指紋特征進(jìn)行了目標(biāo)數(shù)字指紋的提取,且進(jìn)行目標(biāo)數(shù)字指紋的提取時(shí),下一個(gè)滑動(dòng)窗口的起始點(diǎn)與前一個(gè)滑動(dòng)窗口內(nèi)所提取出的目標(biāo)數(shù)字指紋有關(guān),這樣在保證檢測(cè)準(zhǔn)確度的基礎(chǔ)上,減少了目標(biāo)指紋特征中數(shù)字指紋的數(shù)量,降低了數(shù)字指紋密度,從而降低了相似度計(jì)算時(shí)的計(jì)算量,提高了文本相似度檢測(cè)的檢測(cè)速度。