文獻(xiàn)數(shù)據(jù)庫中作者同名消歧研究
發(fā)布時(shí)間:2022-02-19 06:13
近年來,隨著信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)信息越來越多,通過搜索引擎進(jìn)行信息檢索是用戶獲取目標(biāo)信息的主要方法之一,而在文獻(xiàn)數(shù)據(jù)庫中針對(duì)作者姓名的搜索又是最常見的搜索方式之一,但是由于一個(gè)姓名可能被多個(gè)作者使用,或者是一個(gè)作者使用了多個(gè)姓名變體,對(duì)于某一個(gè)特定姓名進(jìn)行搜索時(shí),系統(tǒng)會(huì)返回與此姓名相關(guān)的所有記錄,用戶需要進(jìn)一步的篩選獲取自己感興趣的信息,這樣信息檢索的效率以及用戶的體驗(yàn)感都會(huì)下降,這類姓名歧義問題稱為作者同名問題。在文獻(xiàn)搜索系統(tǒng)中,作者同名問題會(huì)影響信息檢索的效率,也會(huì)影響對(duì)學(xué)者研究工作的正確歸屬,因此作者同名消歧問題成為了近年來國內(nèi)外學(xué)者的研究熱點(diǎn)之一。許多領(lǐng)域的研究者都曾深入的研究過作者同名消歧問題并提出各種各樣的解決方法。盡管作者同名消歧問題已經(jīng)取得了一些進(jìn)展,但是仍然存在很多挑戰(zhàn):(1)大多數(shù)監(jiān)督的消歧方法由于利用了標(biāo)注的信息,消歧性能一般要比非監(jiān)督的消歧方法好,但是現(xiàn)實(shí)生活中的數(shù)據(jù)集規(guī)模都比較大,監(jiān)督信息需要人工地進(jìn)行標(biāo)注,耗費(fèi)大量的人力,財(cái)力和時(shí)間,而非監(jiān)督的方法由于可利用的信息比較有限,難以獲得較好的消歧性能。因此在沒有標(biāo)注信息的前提下如何利用文獻(xiàn)的屬性信息提...
【文章來源】:山東大學(xué)山東省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景以及意義
1.2 作者同名消歧面臨的問題
1.3 本文的主要工作
1.4 本文的組織結(jié)構(gòu)
第二章 相關(guān)研究與技術(shù)
2.1 引言
2.2 問題定義
2.3 相關(guān)研究
2.3.1 機(jī)器學(xué)習(xí)相關(guān)的消歧方法
2.3.2 概率相關(guān)的消歧方法
2.3.3 基于圖的消歧方法
2.4 相關(guān)技術(shù)
2.4.1 圖上的隨機(jī)游走
2.4.2 層次聚類
2.4.3 圖自編碼器
2.5 本章小結(jié)
第三章 基于文獻(xiàn)屬性的作者同名消歧方法
3.1 引言
3.2 方法介紹
3.3 算法設(shè)計(jì)與實(shí)現(xiàn)
3.3.1 全局表示學(xué)習(xí)
3.3.2 局部嵌入學(xué)習(xí)
3.3.3 局部鏈接學(xué)習(xí)
3.4 實(shí)驗(yàn)設(shè)置以及結(jié)果分析
3.4.1 數(shù)據(jù)集
3.4.2 基線方法
3.4.3 實(shí)驗(yàn)結(jié)果及分析
3.4.4 組件貢獻(xiàn)分析
3.5 本章小結(jié)
第四章 基于合作者關(guān)系的作者同名消歧方法
4.1 引言
4.2 方法介紹
4.3 算法設(shè)計(jì)與實(shí)現(xiàn)
4.3.1 詞表示學(xué)習(xí)法
4.3.2 圖節(jié)點(diǎn)表示學(xué)習(xí)算法
4.3.3 復(fù)雜度分析
4.4 實(shí)驗(yàn)設(shè)置以及結(jié)果分析
4.4.1 數(shù)據(jù)集
4.4.2 基線方法
4.4.3 實(shí)驗(yàn)設(shè)置
4.4.4 實(shí)驗(yàn)結(jié)果及分析
4.4.5 參數(shù)敏感性和擴(kuò)展性實(shí)驗(yàn)
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
攻讀學(xué)位期間獲獎(jiǎng)情況
學(xué)位論文評(píng)閱及答辯情況表
【參考文獻(xiàn)】:
期刊論文
[1]文獻(xiàn)數(shù)據(jù)庫中作者名消歧算法研究[J]. 郭舒. 現(xiàn)代圖書情報(bào)技術(shù). 2013(Z1)
本文編號(hào):3632374
【文章來源】:山東大學(xué)山東省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景以及意義
1.2 作者同名消歧面臨的問題
1.3 本文的主要工作
1.4 本文的組織結(jié)構(gòu)
第二章 相關(guān)研究與技術(shù)
2.1 引言
2.2 問題定義
2.3 相關(guān)研究
2.3.1 機(jī)器學(xué)習(xí)相關(guān)的消歧方法
2.3.2 概率相關(guān)的消歧方法
2.3.3 基于圖的消歧方法
2.4 相關(guān)技術(shù)
2.4.1 圖上的隨機(jī)游走
2.4.2 層次聚類
2.4.3 圖自編碼器
2.5 本章小結(jié)
第三章 基于文獻(xiàn)屬性的作者同名消歧方法
3.1 引言
3.2 方法介紹
3.3 算法設(shè)計(jì)與實(shí)現(xiàn)
3.3.1 全局表示學(xué)習(xí)
3.3.2 局部嵌入學(xué)習(xí)
3.3.3 局部鏈接學(xué)習(xí)
3.4 實(shí)驗(yàn)設(shè)置以及結(jié)果分析
3.4.1 數(shù)據(jù)集
3.4.2 基線方法
3.4.3 實(shí)驗(yàn)結(jié)果及分析
3.4.4 組件貢獻(xiàn)分析
3.5 本章小結(jié)
第四章 基于合作者關(guān)系的作者同名消歧方法
4.1 引言
4.2 方法介紹
4.3 算法設(shè)計(jì)與實(shí)現(xiàn)
4.3.1 詞表示學(xué)習(xí)法
4.3.2 圖節(jié)點(diǎn)表示學(xué)習(xí)算法
4.3.3 復(fù)雜度分析
4.4 實(shí)驗(yàn)設(shè)置以及結(jié)果分析
4.4.1 數(shù)據(jù)集
4.4.2 基線方法
4.4.3 實(shí)驗(yàn)設(shè)置
4.4.4 實(shí)驗(yàn)結(jié)果及分析
4.4.5 參數(shù)敏感性和擴(kuò)展性實(shí)驗(yàn)
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
攻讀學(xué)位期間獲獎(jiǎng)情況
學(xué)位論文評(píng)閱及答辯情況表
【參考文獻(xiàn)】:
期刊論文
[1]文獻(xiàn)數(shù)據(jù)庫中作者名消歧算法研究[J]. 郭舒. 現(xiàn)代圖書情報(bào)技術(shù). 2013(Z1)
本文編號(hào):3632374
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3632374.html
最近更新
教材專著