面向Web社會(huì)網(wǎng)絡(luò)搜索的人名同一性判斷
本文選題:社會(huì)網(wǎng)絡(luò) 切入點(diǎn):向量空間模型 出處:《計(jì)算機(jī)工程與科學(xué)》2012年09期
【摘要】:隨著人們?cè)诨ヂ?lián)網(wǎng)上的行為日益豐富,互聯(lián)網(wǎng)上的社交行為和關(guān)系逐漸接近傳統(tǒng)的客觀世界的社交網(wǎng)絡(luò),并能夠真實(shí)反映出人與人之間在客觀世界的真實(shí)關(guān)系。可以從互聯(lián)網(wǎng)中通過搜索的方式來構(gòu)建一個(gè)真實(shí)客觀世界的社會(huì)網(wǎng)絡(luò)。社會(huì)網(wǎng)絡(luò)搜索技術(shù)及其方法逐漸成為目前的研究熱點(diǎn),如何對(duì)每個(gè)Web進(jìn)行人名同一性判斷是社會(huì)網(wǎng)絡(luò)搜索的關(guān)鍵技術(shù)。為了從文本中抽取準(zhǔn)確的特征并降低向量維度,本文給出了一個(gè)基于C-value和逆文檔頻率IDF的特征向量權(quán)值計(jì)算方法;實(shí)現(xiàn)了基于余弦夾角的相似度計(jì)算的算法;通過對(duì)文本聚類算法中層次聚類算法和劃分聚類算法的研究,給出一種改進(jìn)的層次聚類算法來實(shí)現(xiàn)人名同一性判斷。以搜索引擎的人名檢索結(jié)果進(jìn)行測(cè)試,說明了基于改進(jìn)的層次聚類算法能有效地提高人名同一性判斷的性能。
[Abstract]:As people become more and more active on the Internet, social behaviors and relationships on the Internet are gradually approaching those of the traditional objective world. And can truly reflect the real relationship between people in the objective world. We can build a real and objective social network through the way of searching from the Internet. Social network search technology and its methods gradually become. For the current research focus, How to judge the identity of each Web is the key technology of social network search. In order to extract accurate features from the text and reduce the vector dimension, In this paper, a method of calculating the weight of feature vector based on C-value and inverse document frequency IDF is presented, and the algorithm of similarity calculation based on cosine angle is realized, and the hierarchical clustering algorithm and partition clustering algorithm in text clustering algorithm are studied. An improved hierarchical clustering algorithm is presented to judge the identity of a person's name. The result of search engine's name retrieval shows that the improved hierarchical clustering algorithm can effectively improve the performance of the judgment of the identity of a person's name.
【作者單位】: 華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(60873030,61173049)
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 郎君;秦兵;宋巍;劉龍;劉挺;李生;;基于社會(huì)網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J];計(jì)算機(jī)學(xué)報(bào);2009年07期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王夢(mèng)菊;;復(fù)雜網(wǎng)絡(luò)中社區(qū)識(shí)別研究[J];硅谷;2012年11期
2 張健沛;李泓波;楊靜;白勁波;張樂君;;基于拓?fù)鋭?shì)的網(wǎng)絡(luò)社區(qū)結(jié)點(diǎn)重要度排序算法[J];哈爾濱工程大學(xué)學(xué)報(bào);2012年06期
3 鄭倩冰;朱培棟;朱政堅(jiān);;基于在線社會(huì)網(wǎng)絡(luò)的信息存儲(chǔ)與搜索機(jī)制研究[J];計(jì)算機(jī)研究與發(fā)展;2011年S1期
4 鄭倩冰;朱培棟;王永文;徐明;;基于在線社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)協(xié)議增強(qiáng)機(jī)制研究[J];計(jì)算機(jī)科學(xué);2011年06期
5 楊欣欣;李培峰;朱巧明;王英帥;;一種基于改進(jìn)的K-means算法的人名消歧系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與數(shù)字工程;2010年08期
6 施Oz;肖仰華;溫文灝;朱乾錢;王恒山;;基于Mapreduce的大規(guī)模社會(huì)網(wǎng)絡(luò)提取方法研究[J];計(jì)算機(jī)應(yīng)用研究;2011年01期
7 姚宇峰;;一種新的重名消解算法在保險(xiǎn)領(lǐng)域中的應(yīng)用研究[J];計(jì)算機(jī)應(yīng)用研究;2012年03期
8 王英帥;李培峰;朱巧明;;一種基于LDA和上下文摘要的Web人名消歧方法[J];計(jì)算機(jī)應(yīng)用與軟件;2011年07期
9 陳晨;王厚峰;;基于社會(huì)網(wǎng)絡(luò)的跨文本同名消歧[J];中文信息學(xué)報(bào);2011年05期
10 李琦;馬軍;;基于人物相關(guān)社區(qū)的重名消解研究[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2012年03期
相關(guān)會(huì)議論文 前1條
1 鄭倩冰;朱培棟;朱政堅(jiān);;基于在線社會(huì)網(wǎng)絡(luò)的信息存儲(chǔ)與搜索機(jī)制研究[A];2010年第16屆全國信息存儲(chǔ)技術(shù)大會(huì)(IST2010)論文集[C];2010年
相關(guān)博士學(xué)位論文 前1條
1 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前8條
1 馬二磊;互聯(lián)網(wǎng)人物信息排歧技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
2 沈劍平;面向網(wǎng)絡(luò)人物搜索的中文人名消歧[D];哈爾濱工業(yè)大學(xué);2010年
3 龐永杰;基于Web的社會(huì)網(wǎng)絡(luò)搜索中人名同一性判斷方法研究[D];華中科技大學(xué);2011年
4 李棟才;基于鏈接重要性的動(dòng)態(tài)鏈接預(yù)測(cè)算法研究[D];華中科技大學(xué);2011年
5 倪吉;中文人名跨文檔指代消解研究[D];蘇州大學(xué);2011年
6 杜一鳴;社會(huì)關(guān)系網(wǎng)絡(luò)構(gòu)建方法研究[D];河北農(nóng)業(yè)大學(xué);2010年
7 王英帥;Web人名消歧方法的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2010年
8 肖根勝;改進(jìn)TFIDF和譜分割的關(guān)鍵詞自動(dòng)抽取方法研究[D];華中師范大學(xué);2012年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 章順瑞;游宏梁;;基于層次聚類算法的中文人名消歧[J];現(xiàn)代圖書情報(bào)技術(shù);2010年11期
2 顏端武;羅勝陽;成曉;;協(xié)同推薦中基于用戶-文檔矩陣的用戶聚類研究[J];現(xiàn)代圖書情報(bào)技術(shù);2007年03期
3 印國成;;一種基于信息量模型的文本挖掘改進(jìn)算法[J];微計(jì)算機(jī)信息;2009年36期
4 王丹;張兆心;宋穎慧;;基于高權(quán)重詞集的增量聚類算法研究[J];微計(jì)算機(jī)信息;2011年02期
5 黃萱菁;吳立德;;基于向量空間模型的文檔分類系統(tǒng)[J];模式識(shí)別與人工智能;1998年02期
6 郭煒強(qiáng);戴天;文貴華;;基于領(lǐng)域知識(shí)的專利自動(dòng)分類[J];計(jì)算機(jī)工程;2005年23期
7 馬輝民;李衛(wèi)華;吳良元;;VSM在中文文本聚類中的應(yīng)用及實(shí)證分析[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2006年04期
8 張娜;張化祥;;基于超鏈接和內(nèi)容相關(guān)度的檢索算法[J];計(jì)算機(jī)應(yīng)用;2006年05期
9 楊麗華;戴齊;郭艷軍;;KNN文本分類算法研究[J];微計(jì)算機(jī)信息;2006年21期
10 周文霞;;現(xiàn)代文本分類技術(shù)研究[J];武警學(xué)院學(xué)報(bào);2007年12期
相關(guān)會(huì)議論文 前10條
1 劉丹;潘煜;談j;;ICT技術(shù)對(duì)信息擴(kuò)散網(wǎng)絡(luò)的影響研究綜述[A];第六屆(2011)中國管理學(xué)年會(huì)——技術(shù)與創(chuàng)新管理分會(huì)場(chǎng)論文集[C];2011年
2 蘇海潮;劉心舜;;圖書館社會(huì)網(wǎng)絡(luò)觀與嵌入性的應(yīng)用[A];2008年湘粵澳閩圖書館學(xué)(協(xié))會(huì)學(xué)術(shù)研討會(huì)福建省論文匯編[C];2008年
3 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
4 吳楠楠;史亮;饒金通;姜青山;董槐林;;一種改進(jìn)的高效層次聚類算法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
5 王桐;劉大昕;田迪;孫偉;張萬松;;一種改進(jìn)的XML向量空間模型及其近似匹配算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
6 饒金通;董槐林;姜青山;;基于孤立因子的層次聚類算法與應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
7 高勇;荀恩東;宋柔;;構(gòu)造自然語言問答系統(tǒng)平臺(tái)[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
8 喻飛;夏曉燕;吳蓉暉;徐成;;基于向量空間模型的信息安全審計(jì)系統(tǒng)[A];第二十六屆中國控制會(huì)議論文集[C];2007年
9 黃萱菁;夏迎炬;吳立德;;基于向量空間模型的文本過濾系統(tǒng)[A];輝煌二十年——中國中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年
10 原福永;楊治秋;王海霞;;一種基于向量空間模型的文檔聚類算法研究[A];第十二屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2005)論文集[C];2005年
相關(guān)重要報(bào)紙文章 前10條
1 張夢(mèng)然;天下誰人不識(shí)君[N];科技日?qǐng)?bào);2008年
2 清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室 張敏 金奕江;尋“寶”有術(shù)[N];計(jì)算機(jī)世界;2003年
3 商報(bào)記者 吳辰光;開源軟件借低成本搶占市場(chǎng)先機(jī)[N];北京商報(bào);2008年
4 美國Gartner公司;CIO如何應(yīng)對(duì)新變革[N];中國計(jì)算機(jī)報(bào);2007年
5 本報(bào)記者 鐘偉;四大應(yīng)用變革策動(dòng)e-Learning2.0[N];中國教育報(bào);2006年
6 亞瑟·W·科維洛 EMC信息安全事業(yè)部總裁 文字整理 本報(bào)記者 侯雪蓮;信息風(fēng)險(xiǎn)管理的關(guān)鍵在于風(fēng)險(xiǎn)優(yōu)化[N];中國經(jīng)營報(bào);2009年
7 謝;BEA展示新的Web 2.0產(chǎn)品[N];電腦商報(bào);2007年
8 中國人民大學(xué)信息學(xué)院 富麗貞邋陸嘉恒;云計(jì)算時(shí)代的預(yù)演[N];中國計(jì)算機(jī)報(bào);2008年
9 IDG News Service執(zhí)行新聞編輯 Marc Ferranti;三大IT領(lǐng)域值得注意[N];計(jì)算機(jī)世界;2007年
10 徐夕湘;信息技術(shù)創(chuàng)造學(xué)習(xí)新模式[N];學(xué)習(xí)時(shí)報(bào);2007年
相關(guān)博士學(xué)位論文 前10條
1 萬懷宇;社會(huì)網(wǎng)絡(luò)中基于鏈接的分類問題研究[D];北京交通大學(xué);2012年
2 韓毅;社會(huì)網(wǎng)絡(luò)分析與挖掘的若干關(guān)鍵問題研究[D];國防科學(xué)技術(shù)大學(xué);2011年
3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
4 單偉;企業(yè)內(nèi)部隱性知識(shí)流動(dòng)與轉(zhuǎn)化研究[D];哈爾濱工業(yè)大學(xué);2008年
5 于滿泉;面向人物追蹤的知識(shí)挖掘研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
6 馬暉男;信息檢索中淺層語義模型的研究[D];大連理工大學(xué);2007年
7 徐婕;基于對(duì)等網(wǎng)絡(luò)的資源搜索策略的研究[D];華中科技大學(xué);2007年
8 王小芳;文本主題域劃分與無監(jiān)督特征提取[D];吉林大學(xué);2009年
9 王晨;結(jié)構(gòu)數(shù)據(jù)挖掘與處理的若干問題的研究[D];復(fù)旦大學(xué);2005年
10 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 趙秀濤;Web病毒式營銷中的挖掘技術(shù)研究[D];沈陽航空工業(yè)學(xué)院;2010年
2 于卓爾;社會(huì)網(wǎng)絡(luò)挖掘算法研究[D];吉林大學(xué);2008年
3 況亮;基于社會(huì)網(wǎng)絡(luò)的電子檔案袋系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];上海師范大學(xué);2008年
4 褚金正;面向特定領(lǐng)域的文本識(shí)別和分類[D];湖南大學(xué);2005年
5 張波;個(gè)性化Web搜索系統(tǒng)研究[D];燕山大學(xué);2006年
6 郭妍;基于市長公開電話文本為背景的兩種自動(dòng)分類算法的比較[D];東北師范大學(xué);2006年
7 董梅;文本內(nèi)容的信息過濾技術(shù)研究[D];合肥工業(yè)大學(xué);2006年
8 李洋;企業(yè)注冊(cè)登記文件聚類軟件設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2007年
9 吳新濤;基于向量空間模型的網(wǎng)頁信息過濾方法研究[D];大連理工大學(xué);2008年
10 趙博;一種基于關(guān)鍵向量的文本分類模型的研究[D];哈爾濱理工大學(xué);2008年
,本文編號(hào):1678770
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1678770.html