天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

中文人名消歧算法研究

發(fā)布時間:2017-04-19 17:02

  本文關鍵詞:中文人名消歧算法研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:人名歧義是指現(xiàn)實生活中多個人物實體共用同一個人名而造成身份不確定的現(xiàn)象,這在國內外文本中普遍存在。在信息爆炸的互聯(lián)網(wǎng)時代,人作為社會活動的主體,是構成巨大信息網(wǎng)絡的主要元素,因此人物檢索在信息檢索中占據(jù)相當重要的地位。目前,主流的搜索引擎對人物檢索的返回結果是包含檢索人名字串的龐大網(wǎng)頁集合,不利于用戶查找與篩選信息。人名消歧的任務是解決網(wǎng)絡傳播、信息檢索等中出現(xiàn)的人名歧義問題,主要研究如何把重名人以及不相關的網(wǎng)頁按照現(xiàn)實生活中的人物個體進行劃分,使用戶能夠快速、方便地找到需要的信息。人名消歧在熱點人物跟蹤與發(fā)現(xiàn)、個性化搜索、自動問答等領域都有廣泛的應用,已經(jīng)成為近幾年發(fā)展起來的自然語言處理技術的一個研究熱點。中文人名消歧研究起步較晚,加上中文信息處理的特殊性,目前仍然存在諸多急需解決的問題。本文研究來自網(wǎng)絡語料的中文人名消歧問題,針對不同方面存在的問題,在文本相似度和聚類方法上提出相應的改進,目的是提高人名消歧的總體性能。以下概括了本文的主要工作:1.本文在對人名消歧進行了充分地調研上,歸納并總結了人名消歧的基礎知識,包括了人名消歧的基本任務、處理步驟、目前面臨的難題、用到的相關技術等。2.針對向量空間模型忽略特征項語義和語序的問題,結合最長公共子序列算法對文本表示模型進行研究,提出一種基于改進最長公共子序列的人名消歧方法。該方法首先將文本轉化為有序的特征序列,然后結合詞語相似度計算最長公共特征子序列,再利用特征項權重來構建文本相似度矩陣,最后進行自底向上的層次聚類。實驗結果表明,相對于傳統(tǒng)的余弦值聚類方法,LCSC方法在人名消歧的P-IP指標上,平均F值由74.2%提高到了84.9%;相對于最長公共子序列方法,總體性能也有3.7%的提高。3.為了緩解人名消歧中聚類算法帶來的大類現(xiàn)象,提出一種結合職務或職稱信息與主題信息的聚類方法。該方法首先識別人物的職務或職稱屬性,根據(jù)人物身份的不同進行初步劃分,并對合并的簇建立主題集。然后,按照改進的文本相似度計算方法進行基于主題信息的層次聚類。實驗結果表明,該方法有效地緩解了大類現(xiàn)象,并在P-IP評價指標的F值上比傳統(tǒng)的聚類結果提高了將近13%。
【關鍵詞】:人名消歧 文本相似度 層次聚類 最長公共子序列 主題集
【學位授予單位】:華僑大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要3-5
  • abstract5-9
  • 第1章 緒論9-19
  • 1.1 課題背景與研究意義9-12
  • 1.2 國內外研究現(xiàn)狀12-17
  • 1.2.1 人名搜索研究歷史12-14
  • 1.2.2 人名消歧研究現(xiàn)狀14-17
  • 1.3 主要研究內容17
  • 1.4 論文結構安排17-19
  • 第2章 人名消歧相關知識19-28
  • 2.1 人名消歧的概述19
  • 2.2 人名消歧面臨的難題19-20
  • 2.3 人名消歧相關技術20-27
  • 2.3.1 文本表示20-22
  • 2.3.2 特征提取22-23
  • 2.3.3 文本相似度算法23-26
  • 2.3.4 聚類算法26-27
  • 2.4 本章小結27-28
  • 第3章 基于改進最長公共子序列的人名消歧28-43
  • 3.1 引言28
  • 3.2 相關工作28-30
  • 3.2.1 《知網(wǎng)》語義相似度28-30
  • 3.2.2 最長公共子序列算法30
  • 3.3 LCSC方法30-34
  • 3.3.1 文本預處理31
  • 3.3.2 特征提取31-32
  • 3.3.3 詞語相似度32
  • 3.3.4 結合語義知識的LCS算法32-33
  • 3.3.5 基于LCS的文本相似度33-34
  • 3.3.6 聚類算法34
  • 3.4 評價指標34-36
  • 3.4.1 P-IP評價方法34-35
  • 3.4.2 B-cubed評價方法35-36
  • 3.5 實驗結果與分析36-41
  • 3.5.1 數(shù)據(jù)集37-38
  • 3.5.2 結果分析38-41
  • 3.6 本章小結41-43
  • 第4章 基于主題信息的人名消歧43-56
  • 4.1 引言43-44
  • 4.2 特征選擇44-45
  • 4.3 二次聚類算法45-50
  • 4.3.1 構建主題集45-46
  • 4.3.2 基于職務或職稱信息的初步劃分46-48
  • 4.3.3 基于主題集的文本相似度算法48-49
  • 4.3.4 聚類算法描述49
  • 4.3.5 輸出結果的標注和排序49-50
  • 4.4 實驗分析50-55
  • 4.4.1 實驗設置以及評價指標50
  • 4.4.2 實驗分析50-55
  • 4.5 本章小結55-56
  • 第5章 結束語56-58
  • 5.1 工作總結56-57
  • 5.2 工作展望57-58
  • 參考文獻58-61
  • 致謝61-62
  • 個人簡歷、在學期間發(fā)表的學術論文與研究成果62

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 陳晨;王厚峰;;基于社會網(wǎng)絡的跨文本同名消歧[J];中文信息學報;2011年05期


  本文關鍵詞:中文人名消歧算法研究,由筆耕文化傳播整理發(fā)布。



本文編號:316703

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/316703.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶30e7d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
二区久久久国产av色| 午夜精品福利视频观看 | 日韩成人h视频在线观看| 日韩欧美综合中文字幕 | 欧美成人免费一级特黄| 亚洲人妻av中文字幕| 国产伦精品一一区二区三区高清版| 成人午夜激情免费在线| 欧美一区日韩一区日韩一区| 伊人久久五月天综合网| 婷婷基地五月激情五月| 成年女人下边潮喷毛片免费| 亚洲欧美日本成人在线| 台湾综合熟女一区二区| 91欧美激情在线视频| 一区二区三区人妻在线| 亚洲国产成人久久一区二区三区| 久久精品国产99精品亚洲| 福利在线午夜绝顶三级| 精品国产av一区二区三区不卡蜜| 日本黄色录像韩国黄色录像| 欧美性猛交内射老熟妇| 99久久精品久久免费| 国产情侣激情在线对白| 日本人妻丰满熟妇久久| 极品少妇一区二区三区精品视频| 亚洲熟女国产熟女二区三区| 日韩精品在线观看一区| 欧美欧美日韩综合一区| 欧美日韩国产自拍亚洲| 成人区人妻精品一区二区三区| 91久久精品在这里色伊人| 亚洲综合日韩精品欧美综合区| 蜜桃传媒在线正在播放| 日韩中文字幕狠狠人妻| 成人免费高清在线一区二区| 欧美日韩国产亚洲三级理论片| 丰满人妻少妇精品一区二区三区| 中文字幕91在线观看| 五月综合激情婷婷丁香| 国产综合一区二区三区av |