一種文本標(biāo)注方法、裝置、設(shè)備及可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202011233453.0 申請日 -
公開(公告)號 CN112183035A 公開(公告)日 2021-01-05
申請公布號 CN112183035A 申請公布日 2021-01-05
分類號 G06F40/166(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 左永忠;劉余海 申請(專利權(quán))人 上海恒生聚源數(shù)據(jù)服務(wù)有限公司
代理機構(gòu) 北京集佳知識產(chǎn)權(quán)代理有限公司 代理人 上海恒生聚源數(shù)據(jù)服務(wù)有限公司
地址 200127上海市浦東新區(qū)峨山路91弄61號7樓
法律狀態(tài) -

摘要

摘要 本申請實施例提供了一種文本標(biāo)注方法、裝置、設(shè)備及可讀存儲介質(zhì),在待標(biāo)注的文本頁的標(biāo)題項中,確定表格的標(biāo)題,從目標(biāo)標(biāo)題項中,按照排序的逆序查找滿足預(yù)設(shè)條件的標(biāo)題項,將滿足預(yù)設(shè)條件的標(biāo)題項中,排序在前的標(biāo)題項作為上級標(biāo)題,排序在后的標(biāo)題項作為下級標(biāo)題,預(yù)設(shè)條件包括:所述標(biāo)題項之間不存在文本。依據(jù)上級標(biāo)題和下級標(biāo)題的區(qū)別特征,識別文本頁中的上級標(biāo)題和下級標(biāo)題。將識別出的各個標(biāo)題指示的內(nèi)容進行分詞,得到各個標(biāo)題的分詞結(jié)果,從預(yù)設(shè)的對應(yīng)關(guān)系中,查詢目標(biāo)分詞單元,將目標(biāo)分詞單元對應(yīng)的標(biāo)注項,作為標(biāo)題的標(biāo)注結(jié)果。本方案確定各個標(biāo)題的分級,因此不僅能夠自動對文本中的標(biāo)題進行標(biāo)注,還能夠保證標(biāo)注結(jié)果的準(zhǔn)確性。??