一種基于深度學(xué)習(xí)的克隆代碼語義檢測方法

基本信息

申請(qǐng)?zhí)?/td> CN202011205774.X 申請(qǐng)日 -
公開(公告)號(hào) CN112215013A 公開(公告)日 2021-01-12
申請(qǐng)公布號(hào) CN112215013A 申請(qǐng)公布日 2021-01-12
分類號(hào) G06F40/30;G06F40/284;G06N3/04 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 成肖云;王建榮;王贊;賈勇哲;馬國寧 申請(qǐng)(專利權(quán))人 天津泰凡科技有限公司
代理機(jī)構(gòu) 天津市北洋有限責(zé)任專利代理事務(wù)所 代理人 天津大學(xué)
地址 300072 天津市南開區(qū)衛(wèi)津路92號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于深度學(xué)習(xí)的語義克隆檢測方法,對(duì)于給定代碼塊對(duì),首先將代碼塊預(yù)處理成TPE的基本單元的序列,然后對(duì)它們進(jìn)行詞嵌入操作,用于上下文特性組合的BiLSTM模塊;接著,用自注意力機(jī)制來集中提取神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的克隆代碼相關(guān)有用信息;將每一個(gè)代碼片段都被轉(zhuǎn)化為一個(gè)向量表示,計(jì)算向量之間的歐幾里得距離作為分類的特征,對(duì)它們進(jìn)行二分類:如果兩個(gè)代碼塊相似,則其經(jīng)過神經(jīng)網(wǎng)絡(luò)生成的向量應(yīng)該相近,即預(yù)測克隆/非克隆。與現(xiàn)有技術(shù)相比,本發(fā)明的更節(jié)省時(shí)間,同時(shí)可以捕獲豐富的語法和語義信息;TPE還可以避免詞匯量不足(OOV)的問題。