一種公司用戶畫像的生成方法

基本信息

申請?zhí)?/td> CN201811622697.0 申請日 -
公開(公告)號 CN109710697A 公開(公告)日 2019-05-03
申請公布號 CN109710697A 申請公布日 2019-05-03
分類號 G06F16/27(2019.01)I; G06F16/215(2019.01)I; G06F16/2458(2019.01)I; G06F16/23(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 孫錦彬; 吳承霖; 周津 申請(專利權(quán))人 廈門笨鳥電子商務(wù)有限公司
代理機(jī)構(gòu) 廈門市新華專利商標(biāo)代理有限公司 代理人 廈門笨鳥電子商務(wù)有限公司
地址 361000 福建省廈門市思明區(qū)前埔路506、508號國金廣場B座6層01、02單元
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種公司用戶畫像的生成方法,其步驟包括離線畫像和實(shí)時畫像,離線畫像通過spark搭建畫像系統(tǒng),并將數(shù)據(jù)同步到hdfs,進(jìn)行定時更新,通過同步數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)和gbdt算法預(yù)測特征,生成離線畫像;實(shí)時畫像通過kafka將用戶的實(shí)時信息發(fā)送至spark streaming,根據(jù)用戶行為更新畫像,并將每個窗口的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并預(yù)測,更新到用戶的畫像列表中。本發(fā)明采用同步的形式,定時將數(shù)據(jù)源的數(shù)據(jù)同步到hdfs中,與spark更好地結(jié)合,提高效率并減少服務(wù)器壓力,確保畫像具有時效性;并進(jìn)行多時間串口的滑動,通過用戶實(shí)時信息更新畫像,保證畫像的實(shí)時性,使特征以及畫像不會受太久前的數(shù)據(jù)干擾,使畫像更加符合用戶本身,提高畫像的準(zhǔn)確性。