一種基于二元化的簡歷解析方法

基本信息

申請?zhí)?/td> CN201910260863.5 申請日 -
公開(公告)號 CN109948120A 公開(公告)日 2019-06-28
申請公布號 CN109948120A 申請公布日 2019-06-28
分類號 G06F17/21(2006.01)I; G06F17/22(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 鐘實(shí); 陳少燕; 潘志鋒 申請(專利權(quán))人 深圳市前海歡雀科技有限公司
代理機(jī)構(gòu) 北京科億知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 深圳市前海歡雀科技有限公司
地址 518000 廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室(入駐深圳市前海商務(wù)秘書有限公司)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于二元化的簡歷解析方法包括:批量讀入簡歷;把批量讀入簡歷的轉(zhuǎn)換成HTML以及TXT文本格式;判斷轉(zhuǎn)換成HTML格式的簡歷是否可以套用簡歷精確識別模板;根據(jù)正則表達(dá)式的方法,利用XPATH對轉(zhuǎn)化成HTML文本格式的簡歷信息進(jìn)行解析,并對解析后的簡歷信息進(jìn)行評分,判斷是否高于預(yù)定義的閾值;利用TensorFlow構(gòu)建的BI?LSTM?CRF機(jī)器學(xué)習(xí)模型進(jìn)行簡歷信息命名實(shí)體提?。焕脴?biāo)簽字典及結(jié)合命名實(shí)體提取識別出簡歷信息,進(jìn)行簡歷信息各個(gè)板塊切割;遍歷各個(gè)簡歷板塊內(nèi)容,利用數(shù)據(jù)鏈表存儲提取出的簡歷信息內(nèi)容;將經(jīng)過簡析的簡歷信息用JSON或XML結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲。本發(fā)明可以在有限的簡歷樣本的基礎(chǔ)上,實(shí)現(xiàn)對簡歷信息的精準(zhǔn)識別。