醫(yī)學短文本數(shù)據(jù)負樣例采樣方法及醫(yī)學診斷標準術語映射模型訓練方法
基本信息

| 申請?zhí)?/td> | CN202010159004.X | 申請日 | - |
| 公開(公告)號 | CN111460091A | 公開(公告)日 | 2020-07-28 |
| 申請公布號 | CN111460091A | 申請公布日 | 2020-07-28 |
| 分類號 | G06F16/33(2019.01)I | 分類 | - |
| 發(fā)明人 | 劉霄;趙鑫 | 申請(專利權)人 | 杭州麥歌算法科技有限公司 |
| 代理機構 | 杭州君度專利代理事務所(特殊普通合伙) | 代理人 | 杭州麥歌算法科技有限公司 |
| 地址 | 310051浙江省杭州市濱江區(qū)六合路368號一幢(北)三層D3102室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及醫(yī)學短文本數(shù)據(jù)負樣例采樣方法及醫(yī)學診斷標準術語映射模型訓練方法,包括:基于原始醫(yī)學診斷數(shù)據(jù)得到待映射文本,進而生成訓練集,驗證集,測試集、基于標準術語集和待映射文本集合生成正樣例集合、對于正樣例集合中的任意正樣例,基于相似度計算函數(shù)生成候選負樣例集合、獲取正樣例集合的一個子集,對于其中的每個正樣例,從候選負樣例集合中抽取部分或負樣例生成訓練集,將正樣例集合的子集與訓練集合并后形成一個訓練批次、將訓練批次帶入神經(jīng)網(wǎng)絡模型中進行訓練。本發(fā)明提取負樣例更具代表性,分別提起正負樣例對修改的模型進行模擬訓練,實現(xiàn)對模型進行泛化改進,模型的性能得到提升,提升了對未知細粒度術語的識別泛化性。?? |





