一種基于預(yù)訓(xùn)練語言模型的標準術(shù)語即時檢測方法
基本信息

| 申請?zhí)?/td> | CN202210286320.2 | 申請日 | - |
| 公開(公告)號 | CN114756647A | 公開(公告)日 | 2022-07-15 |
| 申請公布號 | CN114756647A | 申請公布日 | 2022-07-15 |
| 分類號 | G06F16/33(2019.01)I;G06F16/335(2019.01)I;G06F16/338(2019.01)I;G06F40/242(2020.01)I;G06F40/289(2020.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 張慶國 | 申請(專利權(quán))人 | 同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司 |
| 代理機構(gòu) | 北京天奇智新知識產(chǎn)權(quán)代理有限公司 | 代理人 | - |
| 地址 | 100192北京市海淀區(qū)西小口路66號東升科技園B2樓 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于預(yù)訓(xùn)練語言模型的標準術(shù)語即時檢測方法,包括:輸入標準術(shù)語樣本集,將每一個標準術(shù)語生成詞向量;將每一個標準術(shù)語生成的詞向量,存入數(shù)據(jù)庫,并做向量索引;對傳入的文本流進行句子的劃分,并記錄句子的起始和結(jié)束位置,設(shè)定最大詞匯長度;從句子數(shù)組中順序取出一個句子,對句子進行切分詞語處理,根據(jù)和相似度閾值的檢索結(jié)果的關(guān)系,計算當前字符串與檢索結(jié)果對應(yīng)的標準術(shù)語的差異并標記結(jié)果。本發(fā)明提供的方法可以快速有效檢測標準術(shù)語在使用中存在的缺字、添字、替換字、字序錯亂等情況,尤其是在意識形態(tài)領(lǐng)域。對自行構(gòu)造的測試數(shù)據(jù)進行測試,實驗表明,基于預(yù)訓(xùn)練語言模型的標準術(shù)語檢測方法平均準確率達到了99.4%,同時可以達到百萬漢字的秒級響應(yīng)。 |





