一種標(biāo)簽的提取方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> 2020111462565 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112256832A 公開(kāi)(公告)日 2021-01-22
申請(qǐng)公布號(hào) CN112256832A 申請(qǐng)公布日 2021-01-22
分類號(hào) G06F16/33(2019.01)I;G06F16/35(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳揚(yáng);陸惠國(guó);陸爭(zhēng)輝;顧文斌;祝志偉 申請(qǐng)(專利權(quán))人 上海恒生聚源數(shù)據(jù)服務(wù)有限公司
代理機(jī)構(gòu) 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 代理人 劉穎
地址 200127上海市浦東新區(qū)峨山路91弄61號(hào)7樓
法律狀態(tài) -

摘要

摘要 本申請(qǐng)實(shí)施例提供了一種標(biāo)簽的提取方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì),對(duì)獲取的文本進(jìn)行處理,得到候選詞集合。依據(jù)參數(shù),計(jì)算候選詞的初始權(quán)重值,依據(jù)初始權(quán)重值和預(yù)設(shè)的權(quán)重迭代算法,計(jì)算候選詞集合中的詞的第一權(quán)重值。依據(jù)第一權(quán)重值以及調(diào)整系數(shù),確定候選詞集合中的詞的第二權(quán)重值,依據(jù)第二權(quán)重值,從候選詞集合中選擇文本的標(biāo)簽。目標(biāo)候選詞的參數(shù)至少包括目標(biāo)候選詞的詞頻、目標(biāo)候選詞的詞長(zhǎng)和/或目標(biāo)候選詞的詞跨度,目標(biāo)候選詞的調(diào)整系數(shù)包括第一調(diào)整系數(shù)和/或第二調(diào)整系數(shù),可見(jiàn),本方法結(jié)合了詞長(zhǎng)、詞跨度和調(diào)整系數(shù),而非僅有詞頻,不僅能夠降低對(duì)于詞頻的依賴程度,更能從多個(gè)維度獲取權(quán)重,從而提高標(biāo)簽提取的準(zhǔn)確性。??