一種中文的分詞方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201711115252.9 申請(qǐng)日 -
公開(公告)號(hào) CN107918604B 公開(公告)日 2021-06-25
申請(qǐng)公布號(hào) CN107918604B 申請(qǐng)公布日 2021-06-25
分類號(hào) G06F40/289 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 楊良志;汪志新;丁德平;王向軍 申請(qǐng)(專利權(quán))人 彩訊科技股份有限公司
代理機(jī)構(gòu) 北京品源專利代理有限公司 代理人 孟金喆
地址 518000 廣東省深圳市南山區(qū)粵海街道高新區(qū)社區(qū)科苑南路3176號(hào)彩訊科技大廈三十一層
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例公開了一種中文的分詞方法及裝置。所述方法包括:獲取待分詞文本的特征信息,其中,所述特征信息包括段落劃分、標(biāo)點(diǎn)符號(hào)或空格符中至少之一;根據(jù)特征信息,確定待分詞文本中的所有自然區(qū)間;將自然區(qū)間劃分為歧義區(qū)間和非歧義區(qū)間;確定歧義區(qū)間中的候選詞,并將候選詞與非歧義區(qū)間中的文本進(jìn)行匹配;根據(jù)匹配結(jié)果確定候選詞的分詞規(guī)則,并按照分詞規(guī)則對(duì)所述歧義區(qū)間的文本進(jìn)行分詞處理。通過(guò)采用上述技術(shù)方案,有效提高了分詞結(jié)果與待分詞文本語(yǔ)境之間的關(guān)聯(lián)性,使得分詞的準(zhǔn)確度得到提升。相對(duì)于現(xiàn)有技術(shù)提供的分詞方案,本發(fā)明實(shí)施例提供的技術(shù)方案計(jì)算量較小,在一定程度上也可以提高分詞的快速性。