一種基于Hadoop生態(tài)的論文實時推薦與離線推薦互補(bǔ)方法
基本信息

| 申請?zhí)?/td> | CN202111262052.2 | 申請日 | - |
| 公開(公告)號 | CN113971204A | 公開(公告)日 | 2022-01-25 |
| 申請公布號 | CN113971204A | 申請公布日 | 2022-01-25 |
| 分類號 | G06F16/33(2019.01)I;G06F16/335(2019.01)I;G06F40/289(2020.01)I;G06V10/74(2022.01)I;G06F9/54(2006.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 邰偉鵬;趙佳俊;李偉;陳業(yè)斌;王小林 | 申請(專利權(quán))人 | 安徽工業(yè)大學(xué)科技園有限公司 |
| 代理機(jī)構(gòu) | 安徽知問律師事務(wù)所 | 代理人 | 王亞軍 |
| 地址 | 243000安徽省馬鞍山市經(jīng)濟(jì)技術(shù)開發(fā)區(qū)(示范園區(qū))嘉善科技園1號科研樓 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于Hadoop生態(tài)的論文實時推薦與離線推薦互補(bǔ)方法,屬于大數(shù)據(jù)推薦領(lǐng)域,本發(fā)明使用Hadoop生態(tài)中的數(shù)據(jù)倉庫Hive存儲論文數(shù)據(jù),對論文標(biāo)簽進(jìn)行分詞,以向量化方式分層保存在數(shù)據(jù)倉庫中;引入離線計算引擎MapReduce對數(shù)據(jù)計算離線推薦結(jié)果;引入流計算引擎Spark Streaming實時采集Kafka中的論文數(shù)據(jù),并進(jìn)行分詞、向量化表示后,與Spark SQL讀取Hive數(shù)倉中論文向量化數(shù)據(jù)計算實時推薦結(jié)果。本發(fā)明專利結(jié)合推薦算法和Hadoop生態(tài)不僅有效解決海量論文推薦問題,提升論文推薦實時性,同時根據(jù)論文分類號修正相似度計算來提升推薦準(zhǔn)確度,優(yōu)化論文推薦結(jié)果。 |





