一種基于二元化的簡歷解析方法
基本信息

| 申請?zhí)?/td> | CN201910260863.5 | 申請日 | - |
| 公開(公告)號 | CN109948120A | 公開(公告)日 | 2019-06-28 |
| 申請公布號 | CN109948120A | 申請公布日 | 2019-06-28 |
| 分類號 | G06F17/21(2006.01)I; G06F17/22(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 鐘實(shí); 陳少燕; 潘志鋒 | 申請(專利權(quán))人 | 深圳市前海歡雀科技有限公司 |
| 代理機(jī)構(gòu) | 北京科億知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 深圳市前海歡雀科技有限公司 |
| 地址 | 518000 廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室(入駐深圳市前海商務(wù)秘書有限公司) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于二元化的簡歷解析方法包括:批量讀入簡歷;把批量讀入簡歷的轉(zhuǎn)換成HTML以及TXT文本格式;判斷轉(zhuǎn)換成HTML格式的簡歷是否可以套用簡歷精確識別模板;根據(jù)正則表達(dá)式的方法,利用XPATH對轉(zhuǎn)化成HTML文本格式的簡歷信息進(jìn)行解析,并對解析后的簡歷信息進(jìn)行評分,判斷是否高于預(yù)定義的閾值;利用TensorFlow構(gòu)建的BI?LSTM?CRF機(jī)器學(xué)習(xí)模型進(jìn)行簡歷信息命名實(shí)體提?。焕脴?biāo)簽字典及結(jié)合命名實(shí)體提取識別出簡歷信息,進(jìn)行簡歷信息各個(gè)板塊切割;遍歷各個(gè)簡歷板塊內(nèi)容,利用數(shù)據(jù)鏈表存儲提取出的簡歷信息內(nèi)容;將經(jīng)過簡析的簡歷信息用JSON或XML結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲。本發(fā)明可以在有限的簡歷樣本的基礎(chǔ)上,實(shí)現(xiàn)對簡歷信息的精準(zhǔn)識別。 |





