天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

垂直搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn)

發(fā)布時間:2017-05-13 02:00

  本文關(guān)鍵詞:垂直搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,用戶對于信息搜索的需求不斷提升,特別是在垂直領(lǐng)域?qū)λ阉饕娴囊笕嫣嵘?主要包括搜索多層排序、智能搜索、關(guān)鍵詞聯(lián)想、信息自動抽取及關(guān)鍵詞高亮等幾個核心技術(shù)。本論文正是針對上述幾個核心技術(shù)點,以互聯(lián)網(wǎng)音樂垂直領(lǐng)域搜索應(yīng)用為主要研究對象,在深入分析當前開源搜索引擎lucene的基礎(chǔ)上,結(jié)合垂直領(lǐng)域搜索引擎的個性化需求,對垂直領(lǐng)域搜索引擎算法進行了詳細的研究和開發(fā),并開發(fā)出一個通用的垂直搜索引擎框架。主要內(nèi)容包括以下幾個部分:本文通過研究開源搜索引擎lucene,并對上述核心技術(shù)算法重新設(shè)計和實現(xiàn),開發(fā)出一套通用的垂直搜索引擎框架。解決搜索結(jié)果線性排序方式單一問題。垂直搜索引擎對搜索的結(jié)果排序方式要求要比普通的綜合搜索引擎高,搜索結(jié)果要求更精確,需要按照多種層次進行精確排序,本文實現(xiàn)一種分層排序算法來實現(xiàn)解決目前搜索引擎單層排序問題。解決搜索深度不夠問題。目前的搜索一般通過文字內(nèi)容匹配的方式得到對應(yīng)的搜索結(jié)果,這樣的搜索只能做到簡單的字符配對。本文通過二維空間得分計算的算法建立智能屬性來解決深度搜索問題,實現(xiàn)智能搜索。解決數(shù)據(jù)智能處理力度不足問題。目前從網(wǎng)頁中抽取信息時一般采用編寫正則表達式或者配置網(wǎng)頁模板的方式進行信息抽取,相對于搜索引擎需要對全網(wǎng)海量的數(shù)據(jù)進行實時處理,無法依靠人力編寫如此之多的正則表達式和模板,本文通過粗糙集算法建立多維約束數(shù)據(jù)抽取方式實現(xiàn)新聞類網(wǎng)頁的內(nèi)容智能抽取。設(shè)計并實現(xiàn)關(guān)鍵詞聯(lián)想算法。目前搜索引擎為了簡化用戶的輸入成本而提供了關(guān)鍵字聯(lián)想功能。本文設(shè)計了一種搜索引擎關(guān)鍵字提示內(nèi)容生成及更新方法,具有高效的關(guān)鍵詞聯(lián)想效率及多種策略功能。。設(shè)計并實現(xiàn)搜索關(guān)鍵詞高亮算法。本文旨在設(shè)計一種關(guān)鍵信息顯示方法,特別對超長文本的關(guān)鍵詞高亮顯示技術(shù),設(shè)計了一種基于哈希查詢算法的技術(shù)方案來實現(xiàn)關(guān)鍵詞的快速高亮顯示功能。
【關(guān)鍵詞】:搜索引擎 多層排序 智能屬性 關(guān)鍵詞聯(lián)想 關(guān)鍵詞高亮
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-11
  • 第一章 緒論11-14
  • 1.1 垂直搜索引擎技術(shù)的發(fā)展11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-12
  • 1.3 本文主要工作12-13
  • 1.4 本論文的結(jié)構(gòu)安排13-14
  • 第二章 垂直搜索引擎概要設(shè)計14-24
  • 2.1 設(shè)計目標14
  • 2.2 設(shè)計策略14
  • 2.3 系統(tǒng)總體結(jié)構(gòu)14-16
  • 2.4 核心模塊設(shè)計16-24
  • 2.4.1 多層排序模型16-17
  • 2.4.2 智能屬性搜索17-18
  • 2.4.3 關(guān)鍵詞聯(lián)想18-19
  • 2.4.4 信息自動抽取19-22
  • 2.4.5 關(guān)鍵詞高亮22-24
  • 第三章 垂直搜索引擎核心模塊詳細設(shè)計24-70
  • 3.1 多層搜索排序24-29
  • 3.1.1 排序策略分層模塊24-25
  • 3.1.2 分層排序策略組裝及結(jié)果集塊劃分模塊25-26
  • 3.1.3 搜索結(jié)果的組裝模塊26-27
  • 3.1.4 實時排序27-29
  • 3.1.4.1 實時排序業(yè)務(wù)量矩陣28
  • 3.1.4.2 塊內(nèi)排序28-29
  • 3.1.4.3 數(shù)據(jù)組裝模塊29
  • 3.2 智能屬性搜索29-37
  • 3.2.1 音樂屬性值自動生成及歸類29-32
  • 3.2.1.1 音樂評論信息結(jié)構(gòu)化29-30
  • 3.2.1.2 屬性值生成30-32
  • 3.2.2 二重維度空間中互相依賴權(quán)重得分計算32-36
  • 3.2.3 多重屬性排序36-37
  • 3.3 關(guān)鍵詞聯(lián)想37-44
  • 3.3.1 關(guān)鍵字提示內(nèi)存結(jié)構(gòu)37-38
  • 3.3.1.1 數(shù)據(jù)源對象數(shù)據(jù)結(jié)構(gòu)37-38
  • 3.3.1.2 關(guān)鍵字對象數(shù)據(jù)結(jié)構(gòu)38
  • 3.3.2 關(guān)鍵字提示內(nèi)容生成38-41
  • 3.3.3 關(guān)鍵字提示內(nèi)容更新41-44
  • 3.3.4 關(guān)鍵字查詢44
  • 3.4 信息自動抽取44-63
  • 3.4.1 信息約束集合生成及抽取算法實現(xiàn)44-52
  • 3.4.1.1 定義節(jié)點分類規(guī)則Dividers44-46
  • 3.4.1.2 訓(xùn)練生成約束集合46-52
  • 3.4.2 信息抽取過程52-63
  • 3.4.2.1 信息集合生成52-53
  • 3.4.2.2 信息集合劃分53-54
  • 3.4.2.3 特征值合并54-55
  • 3.4.2.4 規(guī)則約束55-61
  • 3.4.2.5 信息提取61-63
  • 3.5 關(guān)鍵詞高亮63-70
  • 3.5.1 時間復(fù)雜度分析63
  • 3.5.2 倒排索引內(nèi)存數(shù)據(jù)結(jié)構(gòu)63-65
  • 3.5.3 關(guān)鍵詞信息顯示方法與設(shè)置技術(shù)方案實現(xiàn)65-70
  • 3.5.3.1 關(guān)鍵詞解析及信息內(nèi)容解析65-66
  • 3.5.3.2 數(shù)據(jù)加載模塊66-67
  • 3.5.3.3 內(nèi)容組裝模塊67-69
  • 3.5.3.4 高亮內(nèi)容顯示69-70
  • 第四章 垂直搜索引擎核心模塊實施及測試70-75
  • 4.1 多層搜索排序70-71
  • 4.2 智能屬性搜索71-73
  • 4.3 搜索引擎關(guān)鍵詞聯(lián)想73-74
  • 4.4 搜索引擎關(guān)鍵詞高亮74-75
  • 第五章 垂直搜索引擎應(yīng)用75-83
  • 5.1 運行環(huán)境75-76
  • 5.1.1 硬設(shè)備75
  • 5.1.2 支持軟件75-76
  • 5.2 使用過程76
  • 5.2.1 數(shù)據(jù)源整合模塊76
  • 5.2.2 搜索索引模塊76
  • 5.2.3 搜索接.生成模塊76
  • 5.2.4 日志監(jiān)控子系統(tǒng)76
  • 5.2.5 系統(tǒng)部署子系統(tǒng)76
  • 5.3 配置文件實例76-81
  • 5.3.1 索引全配置格式77-80
  • 5.3.2 搜索全配置格式80-81
  • 5.4 應(yīng)用場景81-83
  • 第六章 總結(jié)與展望83-84
  • 6.1 總結(jié)83
  • 6.2 下一步工作的展望83-84
  • 致謝84-85
  • 參考文獻85-87
  • 攻碩期間取得的研究成果87-88

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機應(yīng)用;2005年04期

2 靳小川;劉萬軍;趙雷;;基于正則表達式的企業(yè)主頁信息抽取[J];計算機系統(tǒng)應(yīng)用;2010年08期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 張志強;孟慶海;謝曉芹;;個性化的社會標簽查詢擴展技術(shù)研究[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯二[C];2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 張巍;基于PageRank算法的搜索引擎優(yōu)化策略研究[D];四川大學(xué);2005年


  本文關(guān)鍵詞:垂直搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:361289

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/361289.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶82b5f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com