一種基于深度學(xué)習(xí)的克隆代碼語義檢測方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN202011205774.X | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN112215013A | 公開(公告)日 | 2021-01-12 |
| 申請(qǐng)公布號(hào) | CN112215013A | 申請(qǐng)公布日 | 2021-01-12 |
| 分類號(hào) | G06F40/30;G06F40/284;G06N3/04 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 成肖云;王建榮;王贊;賈勇哲;馬國寧 | 申請(qǐng)(專利權(quán))人 | 天津泰凡科技有限公司 |
| 代理機(jī)構(gòu) | 天津市北洋有限責(zé)任專利代理事務(wù)所 | 代理人 | 天津大學(xué) |
| 地址 | 300072 天津市南開區(qū)衛(wèi)津路92號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于深度學(xué)習(xí)的語義克隆檢測方法,對(duì)于給定代碼塊對(duì),首先將代碼塊預(yù)處理成TPE的基本單元的序列,然后對(duì)它們進(jìn)行詞嵌入操作,用于上下文特性組合的BiLSTM模塊;接著,用自注意力機(jī)制來集中提取神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的克隆代碼相關(guān)有用信息;將每一個(gè)代碼片段都被轉(zhuǎn)化為一個(gè)向量表示,計(jì)算向量之間的歐幾里得距離作為分類的特征,對(duì)它們進(jìn)行二分類:如果兩個(gè)代碼塊相似,則其經(jīng)過神經(jīng)網(wǎng)絡(luò)生成的向量應(yīng)該相近,即預(yù)測克隆/非克隆。與現(xiàn)有技術(shù)相比,本發(fā)明的更節(jié)省時(shí)間,同時(shí)可以捕獲豐富的語法和語義信息;TPE還可以避免詞匯量不足(OOV)的問題。 |





