天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于垂直搜索引擎的結構化信息處理技術研究

發(fā)布時間:2018-06-10 13:23

  本文選題:搜索 + 索引。 參考:《浙江理工大學》2013年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎在不斷滿足巨大的信息資源量的需求下,卻無法兼顧到信息搜索的準確度和及時性,此時垂直搜索引擎為滿足用戶需求應運而生,本文通過對垂直搜索引擎進行了深入研究,并針對現(xiàn)有模型及其所存在的問題提出一種改進的垂直搜索引擎模型,依據(jù)該模塊特點對結構化數(shù)據(jù)的去重和分類算法進行改進,通過兩個改進算法在改進的垂直搜索引擎模型中的實驗應用,,得出改進的垂直搜索引擎模型進一步提高了垂直搜索引擎的實時性和準確性。新模型設計的主要方案是對現(xiàn)有模型新增加一個數(shù)據(jù)二次處理的模塊,該模塊主要對抽取到的非結構化數(shù)據(jù)和半結構化數(shù)據(jù)向結構化數(shù)據(jù)轉換。模塊的主要研究內(nèi)容是對網(wǎng)頁信息的去重處理和分類處理。因此本文的主要研究內(nèi)容和創(chuàng)新點分為以下三點: (1)在參考現(xiàn)有的電子商務領域廣泛應用的垂直搜索引擎的基礎上,提出一種改進的垂直搜索引擎應用模型,結合本文改進的去重算法和分類算法使用查全率和準確率兩個指標評估該模型的實用性和可行性。 (2)提出一種新的信息處理技術的網(wǎng)頁去重算法,并以時間復雜度、空間復雜度、查全率和準確率作為四個指標分析該算法在改進的垂直搜索引擎模型中的可行性和健壯性,以及對信息檢索效率的提高。 (3)對現(xiàn)有的一種分類算法進行改進,進而使得適合于本文提出的垂直搜索引擎的結構化數(shù)據(jù)處理計算,該算法的結構包括詞條數(shù)組和每個詞條的文本鏈表。詞條數(shù)組指將所有的訓練文本分詞,經(jīng)過特征提取后的所有特征項組成的數(shù)組,存儲在數(shù)組中的是特征項(詞條)的ID號。詞條數(shù)組中的每個詞條(ti)有一個指針,指向含有ti的所有文本組成的鏈表。文本鏈表由兩部分組成,文本的ID和ti在文本中的權重。ti的文本鏈表生成以后,按照ti在文本中的權重遞減排序,然后對其進行進一步的優(yōu)化進而降低原有算法的查找范圍。
[Abstract]:With the development of the Internet, the search engine is not able to take into account the accuracy and timeliness of information search in order to meet the needs of users. In this paper, the vertical search engine is deeply studied, and an improved vertical search engine model is put forward in view of the existing model and its existing problems. According to the characteristics of this module, the algorithm of removing and classifying structured data is improved. Through the experimental application of two improved algorithms in the improved vertical search engine model, it is concluded that the improved vertical search engine model can further improve the real-time and accuracy of the vertical search engine. The main scheme of the new model design is to add a new data secondary processing module to the existing model, which mainly converts the extracted unstructured data and semi-structured data to structured data. The main research content of the module is to dereprocess and classify the web page information. Therefore, the main contents and innovations of this paper can be divided into the following three points: firstly, an improved vertical search engine application model is proposed on the basis of reference to the existing vertical search engine which is widely used in the field of electronic commerce. Combining the improved algorithm and classification algorithm to evaluate the practicability and feasibility of the model by using recall and accuracy. (2) A new information processing algorithm for web pages is proposed, and the complexity of time, space and space are used to evaluate the feasibility of the model. Recall rate and accuracy rate are used as four indexes to analyze the feasibility and robustness of the algorithm in the improved vertical search engine model, and to improve the efficiency of information retrieval. The structure of the algorithm consists of an array of terms and a text list of each term. The term array refers to an array of all the trained text participles and all the feature items extracted by the feature, and the ID number of the feature item (entry) is stored in the array. Each entry in the entry array has a pointer to a list of all text containing ti. The text list consists of two parts: the ID of the text and the weight of ti in the text. After the text list is generated, the text list is sorted according to the decreasing weight of ti in the text, and then it is further optimized to reduce the search range of the original algorithm.
【學位授予單位】:浙江理工大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前2條

1 曹玉娟;牛振東;趙X;彭學平;;基于概念和語義網(wǎng)絡的近似網(wǎng)頁檢測算法[J];軟件學報;2011年08期

2 周博;劉奕群;張敏;金奕江;馬少平;;錨文本檢索有效性分析[J];軟件學報;2011年08期

相關博士學位論文 前2條

1 于瑞國;維數(shù)約減算法研究及其在大規(guī)模文本數(shù)據(jù)挖掘中的應用[D];天津大學;2008年

2 幸銳;基于紋理的圖像聚類研究[D];浙江大學;2009年

相關碩士學位論文 前8條

1 白廣奇;網(wǎng)頁內(nèi)容過濾的關鍵技術研究及實現(xiàn)[D];山東大學;2005年

2 李凱;郵件過濾算法研究[D];哈爾濱工業(yè)大學;2006年

3 李保洋;特征選擇在中醫(yī)數(shù)據(jù)挖掘中的應用研究[D];北京交通大學;2008年

4 賀莉娜;視頻語義特征提取的研究[D];北京交通大學;2008年

5 黃艷;基于Web的個性化信息檢索技術研究[D];西北大學;2008年

6 曲杰濤;基于DOM的智能網(wǎng)頁信息抽取技術研究[D];中國海洋大學;2009年

7 萬狄飛;基于最優(yōu)分割策略的高性能文本分類方法[D];重慶郵電大學;2008年

8 朱鳳芳;搜索引擎中網(wǎng)頁凈化與消重技術研究[D];東北大學;2008年



本文編號:2003367

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2003367.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶14e57***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com