天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于層次聚類和網(wǎng)頁關(guān)系的人名消歧

發(fā)布時(shí)間:2019-01-26 09:57
【摘要】:隨著社會(huì)信息化的不斷加快,從海量信息中快速獲取所需要的信息變得越來越重要。人物檢索是最常見的檢索之一,而通用搜索引擎的返回結(jié)果往往是同名的不同人物實(shí)體相關(guān)網(wǎng)頁的混合,而且網(wǎng)頁的數(shù)量可能高達(dá)數(shù)十億。從這個(gè)龐大的網(wǎng)頁集合中尋找某個(gè)特定人物實(shí)體的信息是一項(xiàng)非常困難的工作。 通常的解決辦法是對(duì)搜索引擎人名檢索的返回結(jié)果進(jìn)行再處理。將網(wǎng)頁的集合變成實(shí)體的集合,而實(shí)體的數(shù)量要遠(yuǎn)遠(yuǎn)小于網(wǎng)頁的數(shù)量。實(shí)現(xiàn)的方式是將搜索引擎返回的網(wǎng)頁聚類到若干個(gè)集合中,相關(guān)同一人物實(shí)體的網(wǎng)頁都在同一集合中,不同集合中的網(wǎng)頁相關(guān)不同的人物實(shí)體。由于在聚類時(shí)不知道所有網(wǎng)頁中包含的不同人物實(shí)體的數(shù)目,一般采用層次聚類的方法對(duì)搜索引擎返回的網(wǎng)頁進(jìn)行再次聚類。層次聚類過程中,每次合并相似度最大的兩個(gè)網(wǎng)頁或子聚類以形成更大的聚類。子聚類相似度的計(jì)算最終仍依賴于兩個(gè)子聚類中包含網(wǎng)頁的相似度的計(jì)算。網(wǎng)頁相似度通常采用重疊系數(shù)來衡量,即先將網(wǎng)頁采用特征向量的形式表示,再計(jì)算兩個(gè)特征向量相同分量數(shù)相對(duì)于總分量數(shù)的比例。從某個(gè)網(wǎng)頁中抽取出的特征往往是該網(wǎng)頁相關(guān)的人物實(shí)體全部特征的一部分。這會(huì)導(dǎo)致相關(guān)同一人物實(shí)體的兩個(gè)網(wǎng)頁特征向量的重疊系數(shù)可能為零。在早期的重名消解研究中,從每個(gè)網(wǎng)頁中抽取出的特征一般是強(qiáng)特征,即能較好區(qū)分不同人物實(shí)體的特征。而從每個(gè)網(wǎng)頁中抽取出的強(qiáng)特征數(shù)量有限,這會(huì)使相關(guān)同一人物實(shí)體的兩個(gè)網(wǎng)頁特征向量重疊系數(shù)為零的可能性增大,導(dǎo)致網(wǎng)頁聚類結(jié)果的召回率不夠高。從每個(gè)網(wǎng)頁中抽取出的弱特征的數(shù)量往往比較多,利用這些弱特征,可以降低相關(guān)同一人物實(shí)體兩個(gè)網(wǎng)頁特征向量相似度為零的可能性,但弱特征的引入會(huì)明顯降低網(wǎng)頁聚類結(jié)果的精確率。兩階段重名消解算法在第一階段使用強(qiáng)特征進(jìn)行聚類,第二階段使用弱特征對(duì)第一階段的聚類結(jié)果進(jìn)行再次聚類,較好地利用了強(qiáng)特征和弱特征各自的特性。 本文針對(duì)上面提出的問題,結(jié)合兩階段重名消解算法的思想,在重名消解研究工作上,有以下兩個(gè)方面的貢獻(xiàn) 首先,對(duì)于每個(gè)網(wǎng)頁,提取多種類型的強(qiáng)特征,增加相關(guān)同一人物實(shí)體兩網(wǎng)頁特征向量具有相同分量的可能性。在第一階段采用多種強(qiáng)特征的組合進(jìn)行聚類,在第二階段使用弱特征對(duì)第一階段的聚類結(jié)果進(jìn)行再次聚類。實(shí)驗(yàn)結(jié)果表明,多種強(qiáng)特征的組合在不明顯降低聚類結(jié)果精確率的前提下提高了聚類結(jié)果的召回率。 其次,網(wǎng)頁中的人名根據(jù)在網(wǎng)頁中的共現(xiàn)關(guān)系形成一個(gè)人名關(guān)系網(wǎng)絡(luò),該人名關(guān)系網(wǎng)絡(luò)中存在若干社區(qū),我們以每個(gè)網(wǎng)頁中抽取出的人名作為種子人名,基于Bootstrapping算法使用Google搜索引擎發(fā)現(xiàn)該網(wǎng)頁中人名相關(guān)社區(qū)的其它人名。用發(fā)現(xiàn)的人名擴(kuò)展原有的人名集合,并應(yīng)用到兩階段重名消解算法中,實(shí)驗(yàn)結(jié)果表明,進(jìn)行相關(guān)社區(qū)發(fā)現(xiàn)的兩階段重名消解算法在第一階段和第二階段取得的效果都要高于原有的兩階段重名消解算法。
[Abstract]:......
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 盧峰;Frontpage 98的網(wǎng)頁編輯[J];電腦技術(shù);1999年03期

2 ;Web Painter 3.0功能完整的網(wǎng)頁繪圖及動(dòng)畫處理軟件[J];電子出版;1999年01期

3 李宗宏;如何利用FrontPage Express制作主頁[J];計(jì)算機(jī)時(shí)代;1999年11期

4 ;網(wǎng)上先生——教您上網(wǎng)(四) 上網(wǎng)第四站[J];市場與電腦;1999年07期

5 ;站點(diǎn)掃描[J];計(jì)算機(jī)周刊;1999年17期

6 云起;信息人——你有網(wǎng)頁嗎[J];計(jì)算機(jī)周刊;1999年22期

7 李新 ,楊章遠(yuǎn) ,許志宏;在網(wǎng)頁中實(shí)現(xiàn)自定義滾動(dòng)條[J];電腦編程技巧與維護(hù);1999年10期

8 范建平;;給你的網(wǎng)頁安一個(gè)門鈴[J];軟件;2000年06期

9 張東淮;一步一步做網(wǎng)頁(二)[J];電腦技術(shù);2001年08期

10 蔡麗萍;大學(xué)圖書館網(wǎng)頁設(shè)計(jì)述評(píng)[J];山東圖書館季刊;2001年04期

相關(guān)會(huì)議論文 前10條

1 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

2 白清源;林錦賢;謝麗聰;;信息自動(dòng)獲取系統(tǒng)的研究[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

3 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語混合網(wǎng)頁識(shí)別新方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

4 江志綱;丁增喜;劉洋;王大玲;鮑玉斌;于戈;;基于面向?qū)傩砸?guī)約方法的網(wǎng)頁和超鏈的分類[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

5 孔輝;梁洪亮;辛陽;楊義先;陳林順;;一種高性能的網(wǎng)頁篡改檢測與恢復(fù)機(jī)制[A];2010年全國通信安全學(xué)術(shù)會(huì)議論文集[C];2010年

6 劉暉;趙萍;;新疆環(huán)境氣象中心網(wǎng)站的總體規(guī)劃及建設(shè)[A];信息技術(shù)在氣象領(lǐng)域的開發(fā)應(yīng)用論文集(一)[C];2005年

7 李立宗;高鐵杠;陳蓉;陳超;;基于混沌系統(tǒng)的web信息隱藏研究與實(shí)現(xiàn)[A];第六屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集(3)[C];2008年

8 王玉龍;葉新銘;李秀華;;網(wǎng)頁優(yōu)化策略的模糊C均值(FCM)聚類算法研究(英文)[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年

9 朱建國;孫鐘德;劉婷;;地市級(jí)網(wǎng)絡(luò)管理監(jiān)控初探[A];“推進(jìn)氣象科技創(chuàng)新,,提高防災(zāi)減災(zāi)和應(yīng)對(duì)氣候變化能力”——江蘇省氣象學(xué)會(huì)第七屆學(xué)術(shù)交流會(huì)論文集[C];2011年

10 鄭傳新;謝筱惠;;基于網(wǎng)頁技術(shù)的決策氣象服務(wù)信息系統(tǒng)[A];2002年廣西氣象電子專業(yè)技術(shù)交流會(huì)論文集[C];2002年

相關(guān)重要報(bào)紙文章 前10條

1 任悅采寫 本報(bào)記者 方妍;照片買家說,網(wǎng)頁繁復(fù)不招喜歡[N];中國攝影報(bào);2009年

2 鳴澗;走近3D夢幻網(wǎng)頁(3)[N];中國電腦教育報(bào);2002年

3 湖南 Ringfo;防止你的網(wǎng)頁被“偷拍”[N];電腦報(bào);2002年

4 路人甲;在網(wǎng)頁上圈圈點(diǎn)點(diǎn)[N];電腦報(bào);2004年

5 湖南 郭榮輝;網(wǎng)頁圖片保存四法[N];電子報(bào);2005年

6 鳴澗;初次握手3D網(wǎng)頁[N];中國電腦教育報(bào);2002年

7 李芳香;和網(wǎng)頁垃圾說再見[N];中國電腦教育報(bào);2002年

8 馬淑芬 記者 吳岳福;寶清 率先啟動(dòng)“村村通網(wǎng)頁”工程[N];黑龍江日?qǐng)?bào);2010年

9 鳴澗;網(wǎng)頁的編輯[N];中國電腦教育報(bào);2002年

10 遼寧 張策;滾動(dòng)的字幕 滾動(dòng)的網(wǎng)頁[N];中國電腦教育報(bào);2002年

相關(guān)博士學(xué)位論文 前10條

1 荊濤;面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D];吉林大學(xué);2011年

2 李玲娟;數(shù)據(jù)挖掘技術(shù)在入侵檢測系統(tǒng)中的應(yīng)用研究[D];蘇州大學(xué);2008年

3 楊春梅;基因表達(dá)數(shù)據(jù)聚類分析算法研究和應(yīng)用[D];天津大學(xué);2006年

4 覃健誠;網(wǎng)絡(luò)多層縱深防御體系的關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年

5 陳曉飛;基于骨架的目標(biāo)表示和識(shí)別技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2004年

6 陳遠(yuǎn)浩;非監(jiān)督的結(jié)構(gòu)學(xué)習(xí)及其應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2008年

7 謝興;社會(huì)網(wǎng)絡(luò)中興趣發(fā)現(xiàn)與信息組織的研究[D];復(fù)旦大學(xué);2011年

8 劉凱鵬;社會(huì)性標(biāo)注關(guān)鍵技術(shù)及其在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年

9 徐盛;基于主題模型的高空間分辨率遙感影像分類研究[D];上海交通大學(xué);2012年

10 陳義明;基于分類的蛋白質(zhì)功能預(yù)測技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 李琦;基于層次聚類和網(wǎng)頁關(guān)系的人名消歧[D];山東大學(xué);2012年

2 萬里春;代理服務(wù)器的網(wǎng)頁預(yù)取研究[D];西華大學(xué);2006年

3 張劍;復(fù)雜網(wǎng)絡(luò)中的層次社團(tuán)發(fā)現(xiàn)與應(yīng)用[D];北京郵電大學(xué);2011年

4 孫瓊;我國房地產(chǎn)企業(yè)流動(dòng)性指標(biāo)體系研究[D];中南大學(xué);2009年

5 瞿俊;基于重疊度的層次聚類算法研究及其應(yīng)用[D];廈門大學(xué);2007年

6 吳偉;聯(lián)機(jī)手寫蒙古文字識(shí)別技術(shù)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2005年

7 周曉昕;基于多屬性特征的時(shí)態(tài)近似周期挖掘和應(yīng)用[D];浙江工業(yè)大學(xué);2008年

8 孫學(xué)剛;面向奧運(yùn)的中文網(wǎng)頁信息獲取方法的初步研究[D];清華大學(xué);2004年

9 黃輝;基于LSI和SVC的網(wǎng)頁文本分類算法研究[D];長沙理工大學(xué);2010年

10 李海波;基于通信行為挖掘的犯罪網(wǎng)絡(luò)分析技術(shù)研究與應(yīng)用[D];上海交通大學(xué);2007年



本文編號(hào):2415376

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2415376.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0b4f0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com