一種基于Hadoop生態(tài)的論文實時推薦與離線推薦互補(bǔ)方法

基本信息

申請?zhí)?/td> CN202111262052.2 申請日 -
公開(公告)號 CN113971204A 公開(公告)日 2022-01-25
申請公布號 CN113971204A 申請公布日 2022-01-25
分類號 G06F16/33(2019.01)I;G06F16/335(2019.01)I;G06F40/289(2020.01)I;G06V10/74(2022.01)I;G06F9/54(2006.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 邰偉鵬;趙佳俊;李偉;陳業(yè)斌;王小林 申請(專利權(quán))人 安徽工業(yè)大學(xué)科技園有限公司
代理機(jī)構(gòu) 安徽知問律師事務(wù)所 代理人 王亞軍
地址 243000安徽省馬鞍山市經(jīng)濟(jì)技術(shù)開發(fā)區(qū)(示范園區(qū))嘉善科技園1號科研樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于Hadoop生態(tài)的論文實時推薦與離線推薦互補(bǔ)方法,屬于大數(shù)據(jù)推薦領(lǐng)域,本發(fā)明使用Hadoop生態(tài)中的數(shù)據(jù)倉庫Hive存儲論文數(shù)據(jù),對論文標(biāo)簽進(jìn)行分詞,以向量化方式分層保存在數(shù)據(jù)倉庫中;引入離線計算引擎MapReduce對數(shù)據(jù)計算離線推薦結(jié)果;引入流計算引擎Spark Streaming實時采集Kafka中的論文數(shù)據(jù),并進(jìn)行分詞、向量化表示后,與Spark SQL讀取Hive數(shù)倉中論文向量化數(shù)據(jù)計算實時推薦結(jié)果。本發(fā)明專利結(jié)合推薦算法和Hadoop生態(tài)不僅有效解決海量論文推薦問題,提升論文推薦實時性,同時根據(jù)論文分類號修正相似度計算來提升推薦準(zhǔn)確度,優(yōu)化論文推薦結(jié)果。