基于語義擴展的搜索引擎研究
本文選題:語義搜索引擎 + 查詢推理。 參考:《華東師范大學》2012年碩士論文
【摘要】:隨著網(wǎng)絡的快速發(fā)展,為了滿足用戶的信息需求,搜索技術和搜索引擎如雨后春筍,得到迅速發(fā)展。然而傳統(tǒng)的搜索引擎返回的搜索結果往往不盡人意,在查全率和查準率上離用戶需求差距很大。用戶需要耗費大量時間去再次篩選搜索引擎返回的結果來尋找自己感興趣的內(nèi)容。隨著語義網(wǎng)技術的發(fā)展,語義信息的積累,基于語義擴展的搜索引擎能夠充分利用語義知識,對用戶的查詢進行語義擴展推理,并對搜索引擎的返回的查詢結果進行語義文本自動摘要。更加準確的為用戶提供有用信息的同時,還降低了用戶的工作量,節(jié)約用戶的時間。因此基于語義擴展的搜索引擎的研究對促進搜索引擎的發(fā)展,推進互聯(lián)網(wǎng)技術有著重要的意義。 論文在已有的語義搜索引擎基礎上,提出自己完整的面向語義搜索的框架以及擴展。這個框架主要由查詢預處理、推理機、本體服務器、本體查詢擴展、信息采集與處理、索引器與索引數(shù)據(jù)庫、自動摘要、結果排序與顯示這八部分組成。 在用戶搜索關鍵詞擴展方面,提出自己的算法,利用本體將用戶搜索詞構造出語義樹,然后在語義樹上計算語義距離,對搜索詞進行合理擴展,它解決了查詢詞擴展規(guī)模過大,噪聲數(shù)據(jù)過多的問題。 在自動語義摘要方面改進了機械的關鍵詞提取算法,針對他們現(xiàn)在存在的問題,提出了基于語義關系的摘要提取方法,首先將文本文檔進行語義關系處理,構建語義層次結構圖,計算出層次結構圖中的概念權值,并篩選出關鍵概念。從而得到句子的重要度,確定摘要句,最終形成語義摘要;谡Z義關系的文本摘要是對傳統(tǒng)的機械統(tǒng)計摘要方法的改進,該方法具有較高的準確率很召回率 在搜索結果排序方面,將傳統(tǒng)的效果不理想的位置排序法引入了摘要排序法,在實際應用中取得了良好的效果。該方法在語義理解的基礎上,整合了位置排序法,能夠更加準確,合理有效的進行頁面排序。
[Abstract]:With the rapid development of the network, in order to meet the information needs of users, search technology and search engines are springing up and developing rapidly. However, the search results returned by traditional search engines are often unsatisfactory, and there is a big gap between the recall rate and the recall rate. It takes a lot of time for users to re-filter the results returned by search engines to find the content they are interested in. With the development of semantic Web technology and the accumulation of semantic information, the search engine based on semantic extension can make full use of semantic knowledge to infer the query of users. And the query results returned by the search engine are automatically abstracted from the semantic text. More accurate to provide useful information to users, but also reduce the workload of users, save the time of users. Therefore, the research of search engine based on semantic extension is of great significance to promote the development of search engine and promote Internet technology. Based on the existing semantic search engine, this paper proposes a complete framework and extension for semantic search. The framework consists of eight parts: query preprocessing, inference engine, ontology server, ontology query extension, information collection and processing, indexer and index database, automatic summary, result sort and display. In the aspect of user search keyword extension, this paper puts forward its own algorithm, uses ontology to construct semantic tree of user search term, then calculates semantic distance in semantic tree, and extends the search term reasonably, which solves the problem that the scale of query word expansion is too large. The problem of excessive noise data. In the aspect of automatic semantic abstracting, the mechanical keyword extraction algorithm is improved. In view of their existing problems, a method of extracting abstracts based on semantic relation is proposed. Firstly, the text document is processed with semantic relation. Construct the semantic hierarchy diagram, calculate the concept weight in the hierarchy chart, and filter out the key concepts. In order to get the importance of the sentence, determine the summary sentence, and finally form the semantic summary. The semantic relation based text summary is an improvement on the traditional mechanical statistical summary method, which has a high accuracy and recall rate in the search result ranking. This paper introduces the traditional position sorting method, which is not ideal in effect, into the summary sorting method, and obtains good results in practical application. On the basis of semantic understanding, this method integrates the location sorting method, which can be more accurate, reasonable and effective.
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【參考文獻】
相關期刊論文 前10條
1 蔡瑞平,鐘哲輝;搜索引擎的檢索功能特征及技巧[J];圖書與情報;2003年04期
2 劉馨;;基于小波基函數(shù)的語音增強研究[J];華東交通大學學報;2009年05期
3 史斌;閆健卓;王普;方麗英;;基于本體的概念語義相似度度量[J];計算機工程;2009年19期
4 李紹華;高文宇;;搜索引擎頁面排序算法研究綜述[J];計算機應用研究;2007年06期
5 李鈴;搜索引擎發(fā)展方向[J];科技情報開發(fā)與經(jīng)濟;2005年21期
6 楊建林;;基于本體的文本信息檢索研究[J];情報理論與實踐;2006年05期
7 崔航,文繼榮,李敏強;基于用戶日志的查詢擴展統(tǒng)計模型[J];軟件學報;2003年09期
8 楊清琳;李陶深;農(nóng)健;;基于領域本體知識庫的語義查詢擴展[J];計算機工程與設計;2011年11期
9 張磊;王忠;;基于自適應噪聲估計的小波閾值語音增強[J];通信技術;2009年11期
10 王娜;鄭德忠;;結點閾值小波包變換語音增強新算法[J];儀器儀表學報;2007年05期
相關博士學位論文 前1條
1 史斌;面向語義網(wǎng)的語義搜索引擎關鍵技術研究[D];北京工業(yè)大學;2010年
相關碩士學位論文 前3條
1 譚義紅;關聯(lián)規(guī)則挖掘及其在概念檢索中的應用研究[D];湖南大學;2003年
2 李輝;基于語義關系的摘要提取[D];南京理工大學;2004年
3 董晨;基于本體的語義網(wǎng)爬蟲的算法研究與應用實現(xiàn)[D];北京工業(yè)大學;2010年
,本文編號:2059531
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2059531.html