一種基于C++語言的混合型中文文本分詞方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110077065.6 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN113033193A | 公開(公告)日 | 2021-06-25 |
| 申請(qǐng)公布號(hào) | CN113033193A | 申請(qǐng)公布日 | 2021-06-25 |
| 分類號(hào) | G06F40/289;G06F40/284;G06F40/126;G06F40/216;G06F9/50 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 董仲舒;姚金龍;程杰;張陽(yáng)光;何文歡;谷晶中 | 申請(qǐng)(專利權(quán))人 | 山谷網(wǎng)安科技股份有限公司 |
| 代理機(jī)構(gòu) | 鄭州大通專利商標(biāo)代理有限公司 | 代理人 | 張立強(qiáng) |
| 地址 | 450000 河南省鄭州市金水區(qū)楊金路199號(hào)河南新科技市場(chǎng)8號(hào)樓 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供一種基于C++語言的混合型中文文本分詞方法。該方法中,一個(gè)給定的文本數(shù)據(jù)的分詞過程包括第一次分詞過程和第二次分詞過程;第一次分詞過程的文本數(shù)據(jù)讀取順序和第二次分詞過程的文本數(shù)據(jù)讀取順序相反;其中,第一次分詞過程或第二次分詞過程包括以下步驟:步驟1:加載詞語詞庫(kù)和詞頻詞庫(kù),并建立雙數(shù)組tire樹;步驟2:按照約定的文本數(shù)據(jù)讀取順序從給定的文本數(shù)據(jù)中讀取一行數(shù)據(jù),然后對(duì)當(dāng)前行數(shù)據(jù)進(jìn)行分詞;步驟3:判斷給定的文本數(shù)據(jù)是否已經(jīng)讀取完畢,若沒有,則返回步驟2;若讀取完畢,則執(zhí)行步驟4;步驟4:判斷給定的文本數(shù)據(jù)的分詞過程是否結(jié)束,若結(jié)束,則比較兩次分詞過程的分詞結(jié)果以確定給定的文本數(shù)據(jù)的最終分詞結(jié)果。 |





