一種基于SegaBert預(yù)訓練模型的文本、簡歷和理財公告抽取方法

基本信息

申請?zhí)?/td> CN202110865625.4 申請日 -
公開(公告)號 CN113486141A 公開(公告)日 2021-10-08
申請公布號 CN113486141A 申請公布日 2021-10-08
分類號 G06F16/31(2019.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06F40/253(2020.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 戴良智;高宇棟;婁旭芳;王靖波;李明 申請(專利權(quán))人 寧波薄言信息技術(shù)有限公司
代理機構(gòu) 北京墨丘知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 代峰
地址 315000浙江省寧波市高新區(qū)光華路299弄9幢19號9-9室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于SegaBert預(yù)訓練模型的文本、簡歷和理財公告抽取方法在預(yù)訓練階段,能利用更豐富的位置表征,對段落、句子、詞語三者間的位置關(guān)系聯(lián)合建模,對輸入的文本能做到片段感知,提升了預(yù)訓練語言模型的文本編碼能力,使其在微調(diào)階段得到更完善的句子和篇章表示,進而提升下游任務(wù)的預(yù)測效果。增加對標注和訓練樣本預(yù)處理,能夠篩選出更合理的數(shù)據(jù);提取簡歷文本信息,對各個簡歷文本信息進行中文分詞,實現(xiàn)所需簡歷信息的準確提取,可以提高簡歷信息的抽取效率;通過對理財公告的文本進行標注,通過對預(yù)訓練模型進行預(yù)訓練,從而通過訓練后的預(yù)訓練模型實現(xiàn)理財公告信息的獲取。