中文人名搜索引擎關鍵技術研究
發(fā)布時間:2018-04-23 08:29
本文選題:搜索引擎 + 中文人名搜索。 參考:《河北大學》2012年碩士論文
【摘要】:人名歧義是由于現實中同一姓名可能被多個實體人物共同使用而帶來的一種身份不確定現象。中文人名搜索是互聯網用戶日常需求之一。隨著Internet的發(fā)展,Web頁面中因人物同名而帶來閱讀理解困難的問題越來突出,尤其給搜索引擎帶來了不利影響。目前流行的通用搜索引擎對歧義人名僅通過關鍵字匹配、Web頁面熱度排序,輸出長而無序的列表。真正有價值的信息僅為海量Web數據中的“冰山一角”,同時有“名人”網頁淹沒“非名人”網頁的現象,給用戶查找其所需要的人物信息帶來了極大不便。 本文針對中文人名搜索這一問題進行研究,主要工作如下: 首先在對垂直搜索引擎技術的研究基礎之上,結合中文人名搜索的特點,設計出中文人名搜索引擎體系結構。其中,Web人名主題爬蟲采用基于模板和基于網頁DOM樹分析兩種方法,分別從百度人物百科采集人物信息建立人物資料庫和互聯網采集包含歧義人名的Web頁面,構建人物知識庫和待消歧Web頁面庫。 在Web人名消歧方面,本文給出了一種基于百度百科的無監(jiān)督自動人名消歧方法。采用百度人物百科的海量數據作為基礎人物資料庫,通過解析其豐富的人物信息和語義關系,提煉出人物背景知識、人物特征語境、人物群體信息3大特征并進行線性融合,選取最大值所對應的實體人物作為歧義人名所指人物,作為Web頁面索引建立依據。 最后,,本文建立實驗原型并進行了Web中文人名消歧實驗,取得了較好的消歧效果,驗證了該方法的有效性。
[Abstract]:Name ambiguity is a kind of identity uncertainty caused by the fact that the same name may be used by many entities. Chinese name search is one of the daily needs of Internet users. With the development of Internet, the problem of reading and understanding is becoming more and more prominent, especially to the search engine. At present, the popular general search engine sorts the ambiguous names only by keyword matching, and outputs a long and unordered list. The truly valuable information is only the "tip of the iceberg" in the massive Web data, and the phenomenon of "celebrity" page flooding the "non-celebrity" web page, which brings great inconvenience to the user to find the person information he needs. The main work of this paper is as follows: Firstly, based on the research of vertical search engine technology and the characteristics of Chinese name search, the architecture of Chinese person name search engine is designed. Among them, the web name subject crawler adopts two methods: template based method and web page DOM tree analysis method, which collect the character information from Baidu's encyclopedia personae to set up the character database and collect the Web page with ambiguous names on the Internet, respectively. Build character knowledge base and Web page library to be disambiguated. In the aspect of Web name disambiguation, this paper presents an unsupervised automatic name disambiguation method based on Baidu Encyclopedia. Using the massive data of Baidu's encyclopedia personae as the basic character database, through analyzing its abundant character information and semantic relation, the author abstracts out three characteristics of character background knowledge, character characteristic context, character group information and carries on linear fusion. The entity character corresponding to the maximum value is chosen as the character of ambiguous person name, which is used as the basis of Web page index. Finally, the experiment prototype is established and the Web Chinese name disambiguation experiment is carried out, and a good disambiguation effect is obtained, which verifies the effectiveness of the method.
【學位授予單位】:河北大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【參考文獻】
相關期刊論文 前10條
1 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術;2009年10期
2 劉群,張華平,俞鴻魁,程學旗;基于層疊隱馬模型的漢語詞法分析[J];計算機研究與發(fā)展;2004年08期
3 朱煒;王超;李俊;潘金貴;;Web超鏈分析算法研究[J];計算機科學;2003年09期
4 張成洪;古曉洪;白延紅;;Web數據抽取技術研究進展[J];計算機科學;2004年02期
5 劉智洋;劉魯;;Wiki網復雜網絡特性分析[J];計算機工程;2011年05期
6 郭建兵;崔志明;陳明;趙朋朋;;基于DOM樹與領域本體的Web抽取方法[J];計算機工程;2012年05期
7 汪濤,樊孝忠;主題爬蟲的設計與實現[J];計算機應用;2004年S1期
8 貢正仙;朱巧明;李培峰;;基于相似頁面的Web信息抽取系統(tǒng)的實現[J];計算機應用;2006年08期
9 劉金紅;陸余良;;主題網絡爬蟲研究綜述[J];計算機應用研究;2007年10期
10 陳釗;張冬梅;;Web信息抽取技術綜述[J];計算機應用研究;2010年12期
相關碩士學位論文 前2條
1 張偉;垂直搜索引擎設計與實現[D];西安電子科技大學;2008年
2 談佳寧;半監(jiān)督網頁分類及其在目錄式搜索引擎中的應用研究[D];江蘇大學;2008年
本文編號:1791196
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1791196.html
教材專著