一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN202010028465.3 | 申請日 | - |
| 公開(公告)號 | CN111259220B | 公開(公告)日 | 2021-03-02 |
| 申請公布號 | CN111259220B | 申請公布日 | 2021-03-02 |
| 分類號 | G06F16/951(2019.01)I;G06F16/955(2019.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 羅水芳;邵州華;樓未吉 | 申請(專利權)人 | 杭州拾貝知識產(chǎn)權服務有限公司 |
| 代理機構 | 廈門福貝知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 陳遠洋 |
| 地址 | 310000浙江省杭州市江干區(qū)紅普路788號創(chuàng)智綠谷發(fā)展中心6號樓1202室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明給出了一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng),包括利用網(wǎng)絡爬蟲抓取待采集的數(shù)據(jù)源的URL集合,獲取URL對應的網(wǎng)頁;基于PageRank算法與HITS算法分別計算網(wǎng)頁的評分,獲得網(wǎng)頁的總價值分并按總價值分排序;按網(wǎng)頁的總價值分的優(yōu)先級解析并獲取網(wǎng)頁中的圖片和/或文字,獲取網(wǎng)頁中包含的關鍵詞;計算關鍵詞與關鍵詞對應的網(wǎng)頁的相關度,并基于相關度向共識節(jié)點發(fā)送共識請求,響應于相關度大于預設的第二閾值且共識程度大于預設的第三閾值,將關鍵詞存儲至對應類別的區(qū)塊鏈中,網(wǎng)頁存儲至設置于區(qū)塊鏈的節(jié)點上的數(shù)據(jù)庫中,并建立網(wǎng)頁與關鍵詞映射關系。利用該方法建立關鍵詞與網(wǎng)頁的映射,采集到的數(shù)據(jù)更加的精準且更加具有關聯(lián)性和共識性。?? |





