代碼相似性檢測方法、裝置以及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202110198641.2 申請日 -
公開(公告)號 CN112579155A 公開(公告)日 2021-03-30
申請公布號 CN112579155A 申請公布日 2021-03-30
分類號 G06F8/75 分類 計算;推算;計數(shù);
發(fā)明人 高慶;李玫;張世琨;馬森 申請(專利權(quán))人 北京北大軟件工程股份有限公司
代理機(jī)構(gòu) 北京華創(chuàng)智道知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 彭隨麗
地址 100080 北京市海淀區(qū)北四環(huán)西路67號中關(guān)村國際創(chuàng)新大廈1105
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例涉及軟件檢測領(lǐng)域,公開了一種代碼相似性檢測方法,主要分為三個階段,預(yù)處理階段對海量源代碼文件進(jìn)行預(yù)處理和特征提取工作,輸出相似哈希指紋值;指紋索引階段則根據(jù)上一階段的結(jié)果,采用分段索引策略將指紋切分并重組后存入相似哈希指紋庫,建立分段索引便于快速匹配;相似匹配階段則在對待測工程文件進(jìn)行處理后生成相似哈希值,根據(jù)所述待測工程文件的相似哈希值從所述相似哈希指紋庫中分段檢索出溯源檢測的結(jié)果;本發(fā)明能夠從不同語言常見行的消除這一角度出發(fā)來降低行覆蓋問題對結(jié)果的影響。