一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202010028465.3 申請日 -
公開(公告)號 CN111259220B 公開(公告)日 2021-03-02
申請公布號 CN111259220B 申請公布日 2021-03-02
分類號 G06F16/951(2019.01)I;G06F16/955(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 羅水芳;邵州華;樓未吉 申請(專利權)人 杭州拾貝知識產(chǎn)權服務有限公司
代理機構 廈門福貝知識產(chǎn)權代理事務所(普通合伙) 代理人 陳遠洋
地址 310000浙江省杭州市江干區(qū)紅普路788號創(chuàng)智綠谷發(fā)展中心6號樓1202室
法律狀態(tài) -

摘要

摘要 本發(fā)明給出了一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng),包括利用網(wǎng)絡爬蟲抓取待采集的數(shù)據(jù)源的URL集合,獲取URL對應的網(wǎng)頁;基于PageRank算法與HITS算法分別計算網(wǎng)頁的評分,獲得網(wǎng)頁的總價值分并按總價值分排序;按網(wǎng)頁的總價值分的優(yōu)先級解析并獲取網(wǎng)頁中的圖片和/或文字,獲取網(wǎng)頁中包含的關鍵詞;計算關鍵詞與關鍵詞對應的網(wǎng)頁的相關度,并基于相關度向共識節(jié)點發(fā)送共識請求,響應于相關度大于預設的第二閾值且共識程度大于預設的第三閾值,將關鍵詞存儲至對應類別的區(qū)塊鏈中,網(wǎng)頁存儲至設置于區(qū)塊鏈的節(jié)點上的數(shù)據(jù)庫中,并建立網(wǎng)頁與關鍵詞映射關系。利用該方法建立關鍵詞與網(wǎng)頁的映射,采集到的數(shù)據(jù)更加的精準且更加具有關聯(lián)性和共識性。??