文本中關(guān)鍵段落的檢測方法及裝置

基本信息

申請?zhí)?/td> CN201910821973.4 申請日 -
公開(公告)號(hào) CN110532563A 公開(公告)日 2019-12-03
申請公布號(hào) CN110532563A 申請公布日 2019-12-03
分類號(hào) G06F17/27;G06N3/04 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 熊玉竹;周以晴;侯紹東 申請(專利權(quán))人 蘇州美能華智能科技有限公司
代理機(jī)構(gòu) 蘇州謹(jǐn)和知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 葉棟
地址 215123 江蘇省蘇州市蘇州工業(yè)園區(qū)金雞湖大道88號(hào)7期G1-902單元
法律狀態(tài) -

摘要

摘要 本申請揭示了一種文本中關(guān)鍵段落檢測方法及裝置,該方法包括將待檢測文本進(jìn)行切分復(fù)制處理得到段落集;將各個(gè)段落集均輸入至標(biāo)簽預(yù)測模型中,得到各個(gè)段落的標(biāo)簽;去除段落集中無效的首端預(yù)定字?jǐn)?shù)和尾端預(yù)定字?jǐn)?shù),將剩余的有效文本的標(biāo)簽拼接在一起,得到段落集所對(duì)應(yīng)的原始的各段落的標(biāo)簽;篩選出標(biāo)簽為B和I的原始段落作為關(guān)鍵段落。本申請通過將待檢測文本進(jìn)行切分,得到較短的段落集,利用標(biāo)簽預(yù)測模型對(duì)每個(gè)段落集中的段落進(jìn)行預(yù)測,得到各段落的標(biāo)簽,為了降低切分段落集所導(dǎo)致的起始邊界處上文信息缺失和結(jié)尾邊界處下文信息缺失,使用重疊操作進(jìn)行邊界處的切分優(yōu)化,提高了段落預(yù)測的準(zhǔn)確率,大大降低了段落標(biāo)簽預(yù)測的計(jì)算復(fù)雜度。