基于MD5值比對(duì)的Xpath自動(dòng)提取方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN202011524745.X | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN112579862B | 公開(kāi)(公告)日 | 2022-06-14 |
| 申請(qǐng)公布號(hào) | CN112579862B | 申請(qǐng)公布日 | 2022-06-14 |
| 分類(lèi)號(hào) | G06F16/951(2019.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 曾燕清;林旭云;林智華;陳曉峰;吳小菁 | 申請(qǐng)(專(zhuān)利權(quán))人 | 福建江夏學(xué)院 |
| 代理機(jī)構(gòu) | 福州元?jiǎng)?chuàng)專(zhuān)利商標(biāo)代理有限公司 | 代理人 | - |
| 地址 | 350108福建省福州市閩侯縣福州地區(qū)大學(xué)新校區(qū)溪源宮路2號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提出一種基于MD5值比對(duì)的Xpath自動(dòng)提取方法,其在指定列表頁(yè)后自動(dòng)提取列表頁(yè)中的鏈接信息,并在自動(dòng)提取的鏈接信息中由用戶選擇若干個(gè)頁(yè)面參與Xpath自動(dòng)生成;所述自動(dòng)生成的過(guò)程為:對(duì)參與自動(dòng)生成過(guò)程的頁(yè)面進(jìn)行解析,得到Xpath和內(nèi)容的鍵值對(duì)生成Xpath對(duì)應(yīng)的MD5值,綜合比較頁(yè)面的Xpath、內(nèi)容值和MD5值,生成最終詳情頁(yè)所需數(shù)據(jù)項(xiàng)的Xpath。該算法能夠有效輔助用戶提取Xpath。通過(guò)該算法流程也可自適應(yīng)頁(yè)面結(jié)構(gòu)變化、將該算法融合至爬蟲(chóng)設(shè)計(jì)中可降低爬蟲(chóng)維護(hù)成本、提高工作效率,且生成Xpath過(guò)程可供沒(méi)有語(yǔ)言基礎(chǔ)的用戶使用。 |





