中文人名消歧算法研究
發(fā)布時間:2017-04-19 17:02
本文關鍵詞:中文人名消歧算法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:人名歧義是指現(xiàn)實生活中多個人物實體共用同一個人名而造成身份不確定的現(xiàn)象,這在國內外文本中普遍存在。在信息爆炸的互聯(lián)網(wǎng)時代,人作為社會活動的主體,是構成巨大信息網(wǎng)絡的主要元素,因此人物檢索在信息檢索中占據(jù)相當重要的地位。目前,主流的搜索引擎對人物檢索的返回結果是包含檢索人名字串的龐大網(wǎng)頁集合,不利于用戶查找與篩選信息。人名消歧的任務是解決網(wǎng)絡傳播、信息檢索等中出現(xiàn)的人名歧義問題,主要研究如何把重名人以及不相關的網(wǎng)頁按照現(xiàn)實生活中的人物個體進行劃分,使用戶能夠快速、方便地找到需要的信息。人名消歧在熱點人物跟蹤與發(fā)現(xiàn)、個性化搜索、自動問答等領域都有廣泛的應用,已經(jīng)成為近幾年發(fā)展起來的自然語言處理技術的一個研究熱點。中文人名消歧研究起步較晚,加上中文信息處理的特殊性,目前仍然存在諸多急需解決的問題。本文研究來自網(wǎng)絡語料的中文人名消歧問題,針對不同方面存在的問題,在文本相似度和聚類方法上提出相應的改進,目的是提高人名消歧的總體性能。以下概括了本文的主要工作:1.本文在對人名消歧進行了充分地調研上,歸納并總結了人名消歧的基礎知識,包括了人名消歧的基本任務、處理步驟、目前面臨的難題、用到的相關技術等。2.針對向量空間模型忽略特征項語義和語序的問題,結合最長公共子序列算法對文本表示模型進行研究,提出一種基于改進最長公共子序列的人名消歧方法。該方法首先將文本轉化為有序的特征序列,然后結合詞語相似度計算最長公共特征子序列,再利用特征項權重來構建文本相似度矩陣,最后進行自底向上的層次聚類。實驗結果表明,相對于傳統(tǒng)的余弦值聚類方法,LCSC方法在人名消歧的P-IP指標上,平均F值由74.2%提高到了84.9%;相對于最長公共子序列方法,總體性能也有3.7%的提高。3.為了緩解人名消歧中聚類算法帶來的大類現(xiàn)象,提出一種結合職務或職稱信息與主題信息的聚類方法。該方法首先識別人物的職務或職稱屬性,根據(jù)人物身份的不同進行初步劃分,并對合并的簇建立主題集。然后,按照改進的文本相似度計算方法進行基于主題信息的層次聚類。實驗結果表明,該方法有效地緩解了大類現(xiàn)象,并在P-IP評價指標的F值上比傳統(tǒng)的聚類結果提高了將近13%。
【關鍵詞】:人名消歧 文本相似度 層次聚類 最長公共子序列 主題集
【學位授予單位】:華僑大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要3-5
- abstract5-9
- 第1章 緒論9-19
- 1.1 課題背景與研究意義9-12
- 1.2 國內外研究現(xiàn)狀12-17
- 1.2.1 人名搜索研究歷史12-14
- 1.2.2 人名消歧研究現(xiàn)狀14-17
- 1.3 主要研究內容17
- 1.4 論文結構安排17-19
- 第2章 人名消歧相關知識19-28
- 2.1 人名消歧的概述19
- 2.2 人名消歧面臨的難題19-20
- 2.3 人名消歧相關技術20-27
- 2.3.1 文本表示20-22
- 2.3.2 特征提取22-23
- 2.3.3 文本相似度算法23-26
- 2.3.4 聚類算法26-27
- 2.4 本章小結27-28
- 第3章 基于改進最長公共子序列的人名消歧28-43
- 3.1 引言28
- 3.2 相關工作28-30
- 3.2.1 《知網(wǎng)》語義相似度28-30
- 3.2.2 最長公共子序列算法30
- 3.3 LCSC方法30-34
- 3.3.1 文本預處理31
- 3.3.2 特征提取31-32
- 3.3.3 詞語相似度32
- 3.3.4 結合語義知識的LCS算法32-33
- 3.3.5 基于LCS的文本相似度33-34
- 3.3.6 聚類算法34
- 3.4 評價指標34-36
- 3.4.1 P-IP評價方法34-35
- 3.4.2 B-cubed評價方法35-36
- 3.5 實驗結果與分析36-41
- 3.5.1 數(shù)據(jù)集37-38
- 3.5.2 結果分析38-41
- 3.6 本章小結41-43
- 第4章 基于主題信息的人名消歧43-56
- 4.1 引言43-44
- 4.2 特征選擇44-45
- 4.3 二次聚類算法45-50
- 4.3.1 構建主題集45-46
- 4.3.2 基于職務或職稱信息的初步劃分46-48
- 4.3.3 基于主題集的文本相似度算法48-49
- 4.3.4 聚類算法描述49
- 4.3.5 輸出結果的標注和排序49-50
- 4.4 實驗分析50-55
- 4.4.1 實驗設置以及評價指標50
- 4.4.2 實驗分析50-55
- 4.5 本章小結55-56
- 第5章 結束語56-58
- 5.1 工作總結56-57
- 5.2 工作展望57-58
- 參考文獻58-61
- 致謝61-62
- 個人簡歷、在學期間發(fā)表的學術論文與研究成果62
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 陳晨;王厚峰;;基于社會網(wǎng)絡的跨文本同名消歧[J];中文信息學報;2011年05期
本文關鍵詞:中文人名消歧算法研究,由筆耕文化傳播整理發(fā)布。
本文編號:316703
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/316703.html
最近更新
教材專著