基于MD5值比對(duì)的Xpath自動(dòng)提取方法

基本信息

申請(qǐng)?zhí)?/td> CN202011524745.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112579862B 公開(kāi)(公告)日 2022-06-14
申請(qǐng)公布號(hào) CN112579862B 申請(qǐng)公布日 2022-06-14
分類(lèi)號(hào) G06F16/951(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 曾燕清;林旭云;林智華;陳曉峰;吳小菁 申請(qǐng)(專(zhuān)利權(quán))人 福建江夏學(xué)院
代理機(jī)構(gòu) 福州元?jiǎng)?chuàng)專(zhuān)利商標(biāo)代理有限公司 代理人 -
地址 350108福建省福州市閩侯縣福州地區(qū)大學(xué)新校區(qū)溪源宮路2號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種基于MD5值比對(duì)的Xpath自動(dòng)提取方法,其在指定列表頁(yè)后自動(dòng)提取列表頁(yè)中的鏈接信息,并在自動(dòng)提取的鏈接信息中由用戶選擇若干個(gè)頁(yè)面參與Xpath自動(dòng)生成;所述自動(dòng)生成的過(guò)程為:對(duì)參與自動(dòng)生成過(guò)程的頁(yè)面進(jìn)行解析,得到Xpath和內(nèi)容的鍵值對(duì)生成Xpath對(duì)應(yīng)的MD5值,綜合比較頁(yè)面的Xpath、內(nèi)容值和MD5值,生成最終詳情頁(yè)所需數(shù)據(jù)項(xiàng)的Xpath。該算法能夠有效輔助用戶提取Xpath。通過(guò)該算法流程也可自適應(yīng)頁(yè)面結(jié)構(gòu)變化、將該算法融合至爬蟲(chóng)設(shè)計(jì)中可降低爬蟲(chóng)維護(hù)成本、提高工作效率,且生成Xpath過(guò)程可供沒(méi)有語(yǔ)言基礎(chǔ)的用戶使用。