知識(shí)圖譜中實(shí)體相似度計(jì)算研究
本文選題:實(shí)體相似度 + 監(jiān)督學(xué)習(xí); 參考:《中文信息學(xué)報(bào)》2017年01期
【摘要】:實(shí)體相似度的計(jì)算有諸多應(yīng)用,例如,電商平臺(tái)的相似商品推薦,醫(yī)療療效分析中的相似病人組等。在知識(shí)圖譜的實(shí)體相似度計(jì)算中,給出了每個(gè)實(shí)體的屬性值,并對(duì)部分實(shí)體進(jìn)行相似度的標(biāo)注,要求能得到其他實(shí)體之間的相似度。該文把該問題歸結(jié)為監(jiān)督學(xué)習(xí)問題,提出一種通用的實(shí)體相似度計(jì)算方法,通過清洗噪聲數(shù)據(jù),對(duì)數(shù)值、列表以及文本等不同數(shù)據(jù)類型進(jìn)行預(yù)處理,使用SVM,Logistic回歸等分類模型、Random Forest等集成學(xué)習(xí)模型以及排序?qū)W習(xí)模型進(jìn)行建模,得到了較好的結(jié)果。
[Abstract]:There are many applications in the calculation of entity similarity, such as the similar commodity recommendation of e-commerce platform, the similar patient group in medical efficacy analysis and so on. In the computation of entity similarity of knowledge map, the attribute value of each entity is given, and some entities are labeled with similarity, which requires that the similarity between other entities can be obtained. In this paper, the problem is reduced to a supervised learning problem, and a general entity similarity calculation method is proposed, which preprocesses different data types, such as numerical value, list and text, by cleaning noise data. The integrated learning model such as Random Forest and the ranking learning model are used to model the model, and good results are obtained.
【作者單位】: 華東理工大學(xué)計(jì)算機(jī)科學(xué)與工程系;
【基金】:基金項(xiàng)目:心血管疾病與腫瘤疾病中西醫(yī)臨床大數(shù)據(jù)處理分析與應(yīng)用研究(2015AA020107)
【分類號(hào)】:TP391
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 薛詠;馮博琴;武艷芳;;ABox推理計(jì)算實(shí)體相似度[J];西安交通大學(xué)學(xué)報(bào);2015年09期
2 劉杰;;一種基于自動(dòng)特征權(quán)值的實(shí)體相似度計(jì)算方法[J];重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年03期
3 華秀麗;朱巧明;李培峰;;語義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究[J];計(jì)算機(jī)應(yīng)用研究;2012年03期
4 李榮;楊冬;劉磊;;基于本體的概念相似度計(jì)算方法研究[J];計(jì)算機(jī)研究與發(fā)展;2011年S3期
5 黃宏斌;劉志忠;張維明;鄧蘇;馬麗麗;;基于層次本體模型(HOM)的語義相似度計(jì)算方法[J];系統(tǒng)工程與電子技術(shù);2009年07期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張慶梅;;針對(duì)輿情數(shù)據(jù)的去重算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2017年05期
2 吳正;李少波;楊觀賜;;基于向量空間的專利類比挖掘算法[J];科學(xué)技術(shù)與工程;2017年11期
3 李陽;高大啟;;知識(shí)圖譜中實(shí)體相似度計(jì)算研究[J];中文信息學(xué)報(bào);2017年01期
4 鄭玄;蔣鍇;錢夔;徐俊瑜;;軍事領(lǐng)域中概念抽取及其應(yīng)用[J];指揮信息系統(tǒng)與技術(shù);2016年04期
5 鄭翠仙;孫文強(qiáng);鄧創(chuàng)興;蔣廷耀;;基于IKAnalyzer及VSM的人大代表議案建議相似度計(jì)算[J];信息通信;2016年08期
6 李凱;李萬龍;鄭山紅;張亞鳳;;改進(jìn)的多策略本體映射方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2016年04期
7 臧芳;;本體概念間語義距離計(jì)算方法探索[J];計(jì)算機(jī)與網(wǎng)絡(luò);2016年10期
8 胡維華;鮑乾;李柯;;結(jié)合漢明距離及語義的文本相似度量方法研究[J];杭州電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年03期
9 何升;鄧偉林;肖體斌;;MOOC中基于二分圖推薦的同伴互評(píng)系統(tǒng)優(yōu)化[J];計(jì)算機(jī)應(yīng)用研究;2016年05期
10 黃賢英;劉英濤;饒勤菲;;一種基于公共詞塊的英文短文本相似度算法[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2015年08期
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孫明;陸春生;徐秀星;李慶忠;彭朝暉;;一種基于SVM和AdaBoost的Web實(shí)體信息抽取方法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年04期
2 周勝臣;瞿文婷;石英子;施詢之;孫韻辰;;中文微博情感分析研究綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2013年03期
3 熊芳;黃宏斌;黃玉成;馮嵩;胡建中;;一種基于語義相似度的信息資源語義聚類算法[J];計(jì)算機(jī)工程與科學(xué);2012年11期
4 董登輝;肖剛;張?jiān)Q;陸佳煒;徐俊;;基于多粒度服務(wù)庫的SOA參考模型及其應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2012年10期
5 趙海霞;李道申;劉勇;趙嘉誠;;一種Deep Web查詢結(jié)果的實(shí)體抽取方法[J];計(jì)算機(jī)工程與應(yīng)用;2012年36期
6 崔曉軍;肖紅宇;丁立新;;基于距離的自適應(yīng)Web數(shù)據(jù)庫記錄匹配方法[J];武漢大學(xué)學(xué)報(bào)(理學(xué)版);2012年01期
7 齊玉東;閆曉斌;謝曉方;;基于LISA理論的概念模型相似度計(jì)算[J];計(jì)算機(jī)工程與應(yīng)用;2012年03期
8 姜孟晉;周雅倩;黃萱菁;;基于同義實(shí)體擴(kuò)展的冗余信息去重[J];中文信息學(xué)報(bào);2012年01期
9 薛詠;馮博琴;劉衛(wèi)濤;;擴(kuò)展主題圖本體融合策略與算法[J];西安交通大學(xué)學(xué)報(bào);2011年10期
10 魯慧民;馮博琴;李旭;;面向多源知識(shí)融合的擴(kuò)展主題圖相似性算法[J];西安交通大學(xué)學(xué)報(bào);2010年02期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計(jì)算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期
2 單建芳;劉宗田;周文;;事件相似度計(jì)算[J];小型微型計(jì)算機(jī)系統(tǒng);2010年04期
3 劉文劍;郭寧;金天國;;制造資源本體的相似度計(jì)算模型[J];計(jì)算機(jī)集成制造系統(tǒng);2010年11期
4 邸書靈;劉曉飛;李歡;;基于分詞的語句相似度計(jì)算的改進(jìn)[J];石家莊鐵道大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
5 秦學(xué)勇;張潤梅;;兩級(jí)相似度計(jì)算在主觀題機(jī)器閱卷中的應(yīng)用[J];計(jì)算機(jī)工程;2012年11期
6 田衛(wèi)東;強(qiáng)繼朋;;基于問句類型的問句相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用研究;2014年04期
7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計(jì)算模型研究[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2003年01期
8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語相似度計(jì)算方面的應(yīng)用[J];信息技術(shù)與信息化;2005年01期
9 廉站俊;呂學(xué)強(qiáng);張玉杰;施水才;;基于句子相似度計(jì)算的信息抽取[J];現(xiàn)代圖書情報(bào)技術(shù);2007年06期
10 李偉;;中文語句相似度計(jì)算的方法初探[J];蘭州工業(yè)高等?茖W(xué)校學(xué)報(bào);2009年04期
相關(guān)會(huì)議論文 前10條
1 劉磊;張桂平;蔡?hào)|風(fēng);季鐸;;基于語義預(yù)測的雙語術(shù)語相似度計(jì)算[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
2 郭麗;蔡?hào)|風(fēng);季鐸;白宇;;統(tǒng)計(jì)與語義相融合的詞語相似度計(jì)算[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 吳志雄;;不精確數(shù)據(jù)的相似度計(jì)算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計(jì)算理論與方法[A];中國農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專業(yè)委員會(huì)、中國電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年
5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
6 車萬翔;劉挺;秦兵;李生;;面向雙語句對(duì)檢索的漢語句子相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
7 郭文宏;范學(xué)峰;;基于語義詞典和本體知識(shí)的概念相似度計(jì)算[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
8 宋彥;張桂平;蔡?hào)|風(fēng);;基于N-gram的句子相似度計(jì)算技術(shù)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
9 關(guān)毅;王曉龍;王強(qiáng);;論系統(tǒng)相似的度量[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
10 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 海量智能計(jì)算技術(shù)研究中心 霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計(jì)算機(jī)世界;2007年
相關(guān)博士學(xué)位論文 前4條
1 馮曉文;基于GPU的相似度計(jì)算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年
2 王秀紅;文本相似度計(jì)算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年
3 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年
4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 梁韜;中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年
2 汪建成;漢越雙語新聞話題分析方法研究[D];昆明理工大學(xué);2015年
3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年
4 舒佳根;中文實(shí)體鏈接研究[D];蘇州大學(xué);2015年
5 孔行;基于主題推薦的輔助寫作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年
6 孫潤志;基于語義理解的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];中國科學(xué)院研究生院(沈陽計(jì)算技術(shù)研究所);2015年
7 劉敏;基于詞向量的句子相似度計(jì)算及其在基于實(shí)例的機(jī)器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年
8 康毅;面向客服的自動(dòng)問答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年
9 吳宇浩;南海檔案數(shù)字化半自動(dòng)校勘中的底本推薦探討[D];南京大學(xué);2015年
10 吐爾遜阿依·阿不來提;小學(xué)維吾爾語文教材中的單句相似度研究[D];新疆師范大學(xué);2015年
,本文編號(hào):1965259
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1965259.html