天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于時效性的垂直搜索引擎的設計與實現(xiàn)

發(fā)布時間:2018-02-13 21:00

  本文關鍵詞: 信息檢索 搜索引擎 時間信息 未登錄詞識別 向量空間模型 出處:《北京建筑工程學院》2012年碩士論文 論文類型:學位論文


【摘要】:近年來,互聯(lián)網(wǎng)的飛速發(fā)展使信息呈現(xiàn)爆炸式增長,這讓用戶準確及時地獲取所需信息變得愈加困難,搜索引擎的出現(xiàn)在一定程度上緩解了這種危機。后來面向特定領域的垂直搜索引擎出現(xiàn),它提供給用戶面向特定領域的個性化信息搜索服務,彌補了通用搜索引擎主題較寬泛的缺點,使搜索結(jié)果更有針對性,同時也提高了用戶對查詢結(jié)果的滿意度。 時間信息在自然語言中有著非常重要作用,它可以定位事件發(fā)生的先后順序。據(jù)統(tǒng)計時間信息占全部文本信息的27%,僅次于31%的專有名詞。因此本文對如何在垂直搜索引擎中引入時間信息因素進行了研究。 本文首先對網(wǎng)頁文本中時間表達式的識別和規(guī)范化進行了深入研究,然后提出一種以文檔中的時間為分量的文檔時間向量表達方式和以時間為索引項的倒排索引結(jié)構,最后在以上方法的基礎上完成了一個能夠根據(jù)網(wǎng)頁文本內(nèi)容中的時間信息進行查詢的垂直搜索引擎。 本文的主要工作如下: 1.對搜索引擎的發(fā)展歷程及現(xiàn)狀進行了闡述,介紹了搜索引擎的工作原理、基本架構和搜集器、預處理器及檢索器等核心技術。 2.分析了垂直搜索引擎產(chǎn)生的必然性及其與通用搜索在效果和技術實現(xiàn)上的區(qū)別。 3.參考TIMEX2規(guī)范對時間表達式進行分類,并給出了規(guī)則模板和時間詞典相結(jié)合的時間表達式識別方法,然后探討了把已識別出的時間表達式規(guī)范化的方法。 4.本系統(tǒng)是面向旅游領域的垂直搜索,故提出了一種基于規(guī)則的識別未登錄中文地名實體的方法,,經(jīng)實驗其召回率達90%以上。 5.基于空間向量模型(VSM)提出了以時間為分量的文檔時間向量表示方法和以時間為索引項的倒排索引的構建方法,還對時間向量相似性的計算方法進行了定義,最后給出了根據(jù)時間向量相似性對文檔進行排序的算法和查詢規(guī)則。 6.在以上理論及算法的基礎上,設計并實現(xiàn)了一個基于時效性的垂直搜索引擎原型,并對該系統(tǒng)的系統(tǒng)架構及各功能模塊的具體實現(xiàn)進行了詳細介紹。
[Abstract]:In recent years, the rapid development of the Internet has caused the explosive growth of information, which makes it more difficult for users to accurately and timely access to the information they need. The emergence of search engines alleviated the crisis to some extent. Later, vertical search engines for specific areas emerged, providing users with personalized information search services for specific areas. It makes up for the shortcomings of the general search engine, which makes the search results more targeted and improves the users' satisfaction with the query results. Time information plays a very important role in natural language. It can locate the sequence of events. According to statistics, time information accounts for 27% of all text information, second only to 31% proper nouns. Therefore, this paper studies how to introduce time information factors into vertical search engines. In this paper, the recognition and normalization of time expressions in web pages are studied in depth, and then a time vector representation and inverted index structure with time as index items are proposed. Finally, a vertical search engine is developed based on the above methods. The main work of this paper is as follows:. 1. The development course and present situation of search engine are described, and the working principle, basic structure, collector, preprocessor and retrieval technology of search engine are introduced. 2. The inevitability of vertical search engine and the difference between vertical search engine and general search engine are analyzed. 3. According to the TIMEX2 specification, this paper classifies the time expression, and gives the method of recognizing the time expression combining the rule template and the time dictionary, and then discusses the method of normalizing the recognized time expression. 4. This system is oriented to the vertical search in the tourism field. Therefore, a rule-based method for identifying unrecorded Chinese geographical names entities is proposed. The recall rate of the system is more than 90%. 5. Based on the spatial vector model (VSM), a document time vector representation method based on time component and a method of constructing inverted index based on time are proposed. The method of calculating the similarity of time vector is also defined. Finally, an algorithm and query rules for sorting documents according to the similarity of time vectors are given. 6. Based on the above theories and algorithms, a vertical search engine prototype based on timeliness is designed and implemented, and the system architecture and the implementation of each functional module are introduced in detail.
【學位授予單位】:北京建筑工程學院
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前10條

1 麻志毅,林鴻飛,姚天順,馬佳琳;基于情境的文本中的時間信息分析[J];東北大學學報;1999年03期

2 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期

3 高紅;黃德根;楊元生;;漢語自動分詞中中文地名識別[J];大連理工大學學報;2006年04期

4 賀瑞芳;秦兵;潘越群;劉挺;李生;;基于啟發(fā)式錯誤驅(qū)動學習的中文時間表達式識別[J];高技術通訊;2008年12期

5 吳偉忠;崔建英;;基于時效性的垂直搜索及其應用[J];暨南大學學報(自然科學版);2007年03期

6 黃德根;孫迎紅;;中文地名的自動識別[J];計算機工程;2006年03期

7 黃德根,岳廣玲,楊元生;基于統(tǒng)計的中文地名識別[J];中文信息學報;2003年02期

8 賀瑞芳;秦兵;劉挺;潘越群;李生;;基于依存分析和錯誤驅(qū)動的中文時間表達式識別[J];中文信息學報;2007年05期

9 林靜;曹德芳;苑春法;;中文時間信息的TIMEX2自動標注[J];清華大學學報(自然科學版);2008年01期

10 趙志榮;垂直網(wǎng)站與垂直搜索引擎[J];中國信息導報;2000年11期



本文編號:1509092

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1509092.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶021be***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com