中文人名消歧算法研究

發(fā)布時間：2017-04-19 17:02

本文關(guān)鍵詞：中文人名消歧算法研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：人名歧義是指現(xiàn)實生活中多個人物實體共用同一個人名而造成身份不確定的現(xiàn)象,這在國內(nèi)外文本中普遍存在。在信息爆炸的互聯(lián)網(wǎng)時代,人作為社會活動的主體,是構(gòu)成巨大信息網(wǎng)絡(luò)的主要元素,因此人物檢索在信息檢索中占據(jù)相當(dāng)重要的地位。目前,主流的搜索引擎對人物檢索的返回結(jié)果是包含檢索人名字串的龐大網(wǎng)頁集合,不利于用戶查找與篩選信息。人名消歧的任務(wù)是解決網(wǎng)絡(luò)傳播、信息檢索等中出現(xiàn)的人名歧義問題,主要研究如何把重名人以及不相關(guān)的網(wǎng)頁按照現(xiàn)實生活中的人物個體進行劃分,使用戶能夠快速、方便地找到需要的信息。人名消歧在熱點人物跟蹤與發(fā)現(xiàn)、個性化搜索、自動問答等領(lǐng)域都有廣泛的應(yīng)用,已經(jīng)成為近幾年發(fā)展起來的自然語言處理技術(shù)的一個研究熱點。中文人名消歧研究起步較晚,加上中文信息處理的特殊性,目前仍然存在諸多急需解決的問題。本文研究來自網(wǎng)絡(luò)語料的中文人名消歧問題,針對不同方面存在的問題,在文本相似度和聚類方法上提出相應(yīng)的改進,目的是提高人名消歧的總體性能。以下概括了本文的主要工作:1.本文在對人名消歧進行了充分地調(diào)研上,歸納并總結(jié)了人名消歧的基礎(chǔ)知識,包括了人名消歧的基本任務(wù)、處理步驟、目前面臨的難題、用到的相關(guān)技術(shù)等。2.針對向量空間模型忽略特征項語義和語序的問題,結(jié)合最長公共子序列算法對文本表示模型進行研究,提出一種基于改進最長公共子序列的人名消歧方法。該方法首先將文本轉(zhuǎn)化為有序的特征序列,然后結(jié)合詞語相似度計算最長公共特征子序列,再利用特征項權(quán)重來構(gòu)建文本相似度矩陣,最后進行自底向上的層次聚類。實驗結(jié)果表明,相對于傳統(tǒng)的余弦值聚類方法,LCSC方法在人名消歧的P-IP指標上,平均F值由74.2%提高到了84.9%;相對于最長公共子序列方法,總體性能也有3.7%的提高。3.為了緩解人名消歧中聚類算法帶來的大類現(xiàn)象,提出一種結(jié)合職務(wù)或職稱信息與主題信息的聚類方法。該方法首先識別人物的職務(wù)或職稱屬性,根據(jù)人物身份的不同進行初步劃分,并對合并的簇建立主題集。然后,按照改進的文本相似度計算方法進行基于主題信息的層次聚類。實驗結(jié)果表明,該方法有效地緩解了大類現(xiàn)象,并在P-IP評價指標的F值上比傳統(tǒng)的聚類結(jié)果提高了將近13%。
【關(guān)鍵詞】：人名消歧 文本相似度 層次聚類 最長公共子序列 主題集
【學(xué)位授予單位】：華僑大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP391.1
【目錄】：

摘要3-5
abstract5-9
第1章緒論9-19
1.1 課題背景與研究意義9-12
1.2 國內(nèi)外研究現(xiàn)狀12-17
1.2.1 人名搜索研究歷史12-14
1.2.2 人名消歧研究現(xiàn)狀14-17
1.3 主要研究內(nèi)容17
1.4 論文結(jié)構(gòu)安排17-19
第2章人名消歧相關(guān)知識19-28
2.1 人名消歧的概述19
2.2 人名消歧面臨的難題19-20
2.3 人名消歧相關(guān)技術(shù)20-27
2.3.1 文本表示20-22
2.3.2 特征提取22-23
2.3.3 文本相似度算法23-26
2.3.4 聚類算法26-27
2.4 本章小結(jié)27-28
第3章基于改進最長公共子序列的人名消歧28-43
3.1 引言28
3.2 相關(guān)工作28-30
3.2.1 《知網(wǎng)》語義相似度28-30
3.2.2 最長公共子序列算法30
3.3 LCSC方法30-34
3.3.1 文本預(yù)處理31
3.3.2 特征提取31-32
3.3.3 詞語相似度32
3.3.4 結(jié)合語義知識的LCS算法32-33
3.3.5 基于LCS的文本相似度33-34
3.3.6 聚類算法34
3.4 評價指標34-36
3.4.1 P-IP評價方法34-35
3.4.2 B-cubed評價方法35-36
3.5 實驗結(jié)果與分析36-41
3.5.1 數(shù)據(jù)集37-38
3.5.2 結(jié)果分析38-41
3.6 本章小結(jié)41-43
第4章基于主題信息的人名消歧43-56
4.1 引言43-44
4.2 特征選擇44-45
4.3 二次聚類算法45-50
4.3.1 構(gòu)建主題集45-46
4.3.2 基于職務(wù)或職稱信息的初步劃分46-48
4.3.3 基于主題集的文本相似度算法48-49
4.3.4 聚類算法描述49
4.3.5 輸出結(jié)果的標注和排序49-50
4.4 實驗分析50-55
4.4.1 實驗設(shè)置以及評價指標50
4.4.2 實驗分析50-55
4.5 本章小結(jié)55-56
第5章結(jié)束語56-58
5.1 工作總結(jié)56-57
5.2 工作展望57-58
參考文獻58-61
致謝61-62
個人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果62

【參考文獻】

中國期刊全文數(shù)據(jù)庫前1條

1 陳晨;王厚峰;;基于社會網(wǎng)絡(luò)的跨文本同名消歧[J];中文信息學(xué)報;2011年05期

本文關(guān)鍵詞：中文人名消歧算法研究，由筆耕文化傳播整理發(fā)布。

本文編號：316703

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/316703.html

上一篇：一種改進Best-First算法的主題爬蟲搜索算法研究
下一篇：輿情分析中維吾爾文關(guān)鍵詞提取研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文人名消歧算法研究