基于句間關(guān)聯(lián)圖的文本主題挖掘方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201410451862.6 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN104298709A | 公開(kāi)(公告)日 | 2015-01-21 |
| 申請(qǐng)公布號(hào) | CN104298709A | 申請(qǐng)公布日 | 2015-01-21 |
| 分類號(hào) | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 陶余會(huì);吳康寧;孫煦峰;趙亮 | 申請(qǐng)(專利權(quán))人 | 上海中和軟件有限公司 |
| 代理機(jī)構(gòu) | 上海華工專利事務(wù)所(普通合伙) | 代理人 | 繆利明 |
| 地址 | 200433 上海市楊浦區(qū)國(guó)權(quán)路525號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 一種基于句間關(guān)聯(lián)圖的文本主題挖掘方法,涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,所解決的是現(xiàn)有挖掘方法質(zhì)量低及通用性差的技術(shù)問(wèn)題。該方法先將目標(biāo)文本按句劃分,獲得文本的句子序列表,再構(gòu)建目標(biāo)文本的句子關(guān)聯(lián)矩陣,然后計(jì)算句子序列表中各元素的權(quán)值,并依據(jù)計(jì)算出的權(quán)值選取主題句,每選取一次主題句后即調(diào)整各個(gè)非主題句的權(quán)值,再依據(jù)調(diào)整后的權(quán)值再度選取主題句,如此往復(fù),直至所有主題句的字符長(zhǎng)度之和達(dá)到預(yù)先設(shè)定的字符數(shù)量閾值,最后將所有主題句作為從目標(biāo)文本中挖掘到的主題內(nèi)容。本發(fā)明提供的方法,適用于各種體裁、風(fēng)格、類型文本文檔。 |





