基于馬爾可夫隨機(jī)場(chǎng)的網(wǎng)頁(yè)正文提取方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201310210384.5 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN103309961B | 公開(kāi)(公告)日 | 2015-07-15 |
| 申請(qǐng)公布號(hào) | CN103309961B | 申請(qǐng)公布日 | 2015-07-15 |
| 分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 柳立寧 | 申請(qǐng)(專利權(quán))人 | 北京智海創(chuàng)訊信息技術(shù)有限公司 |
| 代理機(jī)構(gòu) | 北京愛(ài)普納杰專利代理事務(wù)所(特殊普通合伙) | 代理人 | 北京智海創(chuàng)訊信息技術(shù)有限公司 |
| 地址 | 100095 北京市海淀區(qū)清河三街同源大廈9層917室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)正文的提取方法及裝置,該方法包括如下步驟:順序解析HTML文本,對(duì)HTML文本進(jìn)行預(yù)處理;對(duì)預(yù)處理后的HTML文本抽取標(biāo)簽文本窗,獲得標(biāo)簽文本窗集合,標(biāo)簽文本窗為標(biāo)簽包圍的內(nèi)容文本及其相關(guān)屬性;對(duì)標(biāo)簽文本窗依據(jù)相鄰關(guān)系構(gòu)建馬爾可夫隨機(jī)場(chǎng)模型;以文本長(zhǎng)度和標(biāo)簽類型為基本特征,采用最小偏差閾值法初始化馬爾可夫場(chǎng)模型;根據(jù)標(biāo)簽文本窗的行號(hào)及相鄰窗的字符間隔,采用ICM方法對(duì)馬爾科夫隨機(jī)場(chǎng)模型進(jìn)行優(yōu)化;以及根據(jù)優(yōu)化后的馬爾科夫隨機(jī)場(chǎng)模型重構(gòu)正文,得到抽取的正文,本發(fā)明可應(yīng)用于信息檢索領(lǐng)域的自動(dòng)文摘和自動(dòng)分類系統(tǒng),具有抽取精度高、抽取速度快、維護(hù)代價(jià)低、適應(yīng)性強(qiáng)、靈活性高等優(yōu)點(diǎn)。 |





