一種基于網(wǎng)頁(yè)標(biāo)簽分布特征的網(wǎng)絡(luò)數(shù)據(jù)自動(dòng)清洗方法和系統(tǒng)
基本信息

| 申請(qǐng)?zhí)?/td> | 2020111300522 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN112270172A | 公開(公告)日 | 2021-01-26 |
| 申請(qǐng)公布號(hào) | CN112270172A | 申請(qǐng)公布日 | 2021-01-26 |
| 分類號(hào) | G06F40/216(2020.01)I; | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 朱俊杰 | 申請(qǐng)(專利權(quán))人 | 北京鈦氪新媒體科技有限公司 |
| 代理機(jī)構(gòu) | 北京華際知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 葉宇 |
| 地址 | 100089北京市海淀區(qū)中關(guān)村大街1號(hào)11層1119-86 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于網(wǎng)頁(yè)標(biāo)簽分布特征的網(wǎng)絡(luò)新聞數(shù)據(jù)自動(dòng)清洗的方法和系統(tǒng),利用離線爬蟲系統(tǒng)爬取網(wǎng)絡(luò)新聞數(shù)據(jù):對(duì)爬取的離線新聞數(shù)據(jù)進(jìn)行樹節(jié)點(diǎn)解析,提取節(jié)點(diǎn)當(dāng)中的標(biāo)簽名稱、屬性、文本、鏈接等屬性信息;采用基于n?gram2vec的思想通過當(dāng)前節(jié)點(diǎn)預(yù)測(cè)其他節(jié)點(diǎn)塊信息,通過訓(xùn)練得到標(biāo)簽的詞嵌入信息基于預(yù)訓(xùn)練的詞嵌入信息構(gòu)建智能模型判別系統(tǒng),決定平鋪的節(jié)點(diǎn)的去留:智能模型根據(jù)文章標(biāo)簽的類型分為文本判別模型和圖片判別模型,兩類模型采用不同特征工程進(jìn)行訓(xùn)練,最終進(jìn)行預(yù)測(cè),將二者結(jié)果根據(jù)之前的節(jié)點(diǎn)序列組合起來。?? |





