一種基于樹(shù)狀基學(xué)習(xí)器的混合特征數(shù)據(jù)聚類(lèi)方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202111073665.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114004271A 公開(kāi)(公告)日 2022-02-01
申請(qǐng)公布號(hào) CN114004271A 申請(qǐng)公布日 2022-02-01
分類(lèi)號(hào) G06K9/62(2022.01)I;G06N20/00(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 范慶來(lái);倪勇龍;陳義;周君良;錢(qián)至遠(yuǎn);朱霄;蔣肇標(biāo);郭慶 申請(qǐng)(專(zhuān)利權(quán))人 浙江浙石油綜合能源銷(xiāo)售有限公司
代理機(jī)構(gòu) 浙江千克知識(shí)產(chǎn)權(quán)代理有限公司 代理人 黎雙華
地址 310000浙江省杭州市西湖區(qū)古蕩街道文二路391號(hào)西湖國(guó)際科技大廈22樓
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于混合特征數(shù)據(jù)集聚類(lèi)技術(shù)領(lǐng)域,公開(kāi)了一種基于樹(shù)狀基學(xué)習(xí)器的混合特征數(shù)據(jù)聚類(lèi)方法及系統(tǒng),其方法包括步驟:S1、對(duì)樣本集進(jìn)行隨機(jī)子采樣生成N個(gè)不同的子樣本集;S2、對(duì)每個(gè)子樣本集進(jìn)行樹(shù)狀基學(xué)習(xí)器的訓(xùn)練,并得到訓(xùn)練完成后的N顆樹(shù)以及聚類(lèi)簇?cái)?shù)量K;S3、基于訓(xùn)練完成后的N顆樹(shù),統(tǒng)計(jì)任意兩個(gè)樣本之間的相似度矩陣,并將所有相似度矩陣歸一化,以得到多個(gè)歸一化相似度矩陣;S4、將聚類(lèi)簇?cái)?shù)量K以及多個(gè)歸一化相似度矩陣作為譜聚類(lèi)模型的輸入,以得到樣本集最終的聚類(lèi)結(jié)果。本發(fā)明設(shè)計(jì)了高緯度、混合特征情況下的數(shù)據(jù)聚類(lèi)方法,可解決數(shù)據(jù)集維度過(guò)高以及連續(xù)特征和離散特征混合情況下無(wú)法明確定義相似性概念導(dǎo)致難以聚類(lèi)的問(wèn)題。