面向校園對(duì)象的實(shí)體搜索和社會(huì)化搜索系統(tǒng)的研究、設(shè)計(jì)和實(shí)現(xiàn)
本文關(guān)鍵詞:面向校園對(duì)象的實(shí)體搜索和社會(huì)化搜索系統(tǒng)的研究、設(shè)計(jì)和實(shí)現(xiàn)
更多相關(guān)文章: 實(shí)體搜索 實(shí)體關(guān)聯(lián)度 詞激活力 實(shí)體發(fā)現(xiàn) 實(shí)體關(guān)系
【摘要】:大數(shù)據(jù)時(shí)代對(duì)海量多樣化數(shù)據(jù)的快速處理提出了很高的要求。雖然實(shí)體搜索引擎已經(jīng)在百度、微軟等應(yīng)用產(chǎn)品中廣泛使用,但對(duì)于組織來(lái)說(shuō),組織內(nèi)部的實(shí)體信息在全網(wǎng)搜索中的召回率和準(zhǔn)確率比較低。導(dǎo)致用戶關(guān)于組織信息的學(xué)習(xí)率低,查找全面信息的困難度增加。他們需要一種自動(dòng)化的聚合工具,提高他們了解組織信息的效率。 本課題的主要工作集中在針對(duì)一個(gè)面向校園對(duì)象的實(shí)體和社會(huì)化搜索引擎(COSE)的創(chuàng)新性設(shè)計(jì)、實(shí)現(xiàn)和關(guān)鍵算法和模型研究上,論文內(nèi)容主要包括: 1.本課題以“北京郵電大學(xué)”為例,設(shè)計(jì)了COSE的系統(tǒng)架構(gòu),以及實(shí)體搜索和社會(huì)化搜索兩個(gè)模塊,為用戶提供有關(guān)北郵的教師、學(xué)生、課程、常見(jiàn)問(wèn)題等實(shí)體檢索和微博話題聚類(lèi)、用戶展示和搜索、微博搜索等特色功能,深入分析了組織成員對(duì)內(nèi)部搜索的需求,創(chuàng)新地提出了組織內(nèi)部實(shí)體的分類(lèi)和特征,有效幫助北郵用戶在一個(gè)網(wǎng)站了解到與北郵相關(guān)的聚合信息。 2.在實(shí)體關(guān)聯(lián)度算法研究中,本文改進(jìn)了局部共現(xiàn)關(guān)聯(lián)度算法,使關(guān)聯(lián)度結(jié)果分布更均勻,減緩了衰減。本文提出了基于詞項(xiàng)距離和共現(xiàn)度的幾種算法,并對(duì)所有的算法做了實(shí)驗(yàn)和對(duì)比,總結(jié)出不同算法的應(yīng)用場(chǎng)景。 3.本文還創(chuàng)新性的提出了組織內(nèi)實(shí)體的發(fā)現(xiàn)模型,該模型使用詞激活力算法,經(jīng)標(biāo)注的語(yǔ)料統(tǒng)計(jì),得出一套閾值系統(tǒng),有效的提取了組織內(nèi)的產(chǎn)品、人物、技術(shù)規(guī)格等實(shí)體和屬性。效果優(yōu)于Stanford NER工具包。本文還參考詞激活力,提出挖掘組織內(nèi)人物實(shí)體關(guān)聯(lián)的算法。 4.最后本文設(shè)計(jì)了數(shù)據(jù)收集和過(guò)濾兩個(gè)關(guān)鍵模塊,并實(shí)現(xiàn)了整個(gè)系統(tǒng),展示了系統(tǒng)的實(shí)體搜索和社會(huì)化搜索等特色功能,并根據(jù)系統(tǒng)的用戶搜索日志統(tǒng)計(jì)出了常見(jiàn)的系統(tǒng)應(yīng)用場(chǎng)景。
【關(guān)鍵詞】:實(shí)體搜索 實(shí)體關(guān)聯(lián)度 詞激活力 實(shí)體發(fā)現(xiàn) 實(shí)體關(guān)系
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 緒論8-15
- 1.1 研究背景8-9
- 1.2 研究問(wèn)題和意義9-10
- 1.3 國(guó)內(nèi)外發(fā)展現(xiàn)狀10-13
- 1.3.1 文本挖掘軟件現(xiàn)狀10-12
- 1.3.2 社會(huì)媒體的數(shù)據(jù)分析12
- 1.3.3 面向?qū)ο蟮乃阉饕?/span>12-13
- 1.4 本論文的主要研究?jī)?nèi)容13-14
- 1.5 本論文章節(jié)安排14-15
- 第二章 基于校園對(duì)象的實(shí)體搜索和社會(huì)化搜索系統(tǒng)的設(shè)計(jì)15-27
- 2.1 對(duì)象和實(shí)體的分析研究15-21
- 2.1.1 組織對(duì)象和實(shí)體的定義15-16
- 2.1.2 實(shí)體的分類(lèi)16
- 2.1.3 實(shí)體的特征16-18
- 2.1.4 實(shí)體搜索18-20
- 2.1.5 學(xué)習(xí)的概念20-21
- 2.2 系統(tǒng)整體和模塊設(shè)計(jì)21-24
- 2.2.1 整個(gè)系統(tǒng)設(shè)計(jì)21-22
- 2.2.2 實(shí)體搜索模塊設(shè)計(jì)22-23
- 2.2.3 社會(huì)化搜索模塊設(shè)計(jì)23-24
- 2.3 系統(tǒng)特點(diǎn)和功能24-26
- 2.4 系統(tǒng)的關(guān)鍵問(wèn)題26-27
- 第三章 基于改進(jìn)詞項(xiàng)距離的實(shí)體關(guān)聯(lián)度的研究27-43
- 3.1 實(shí)體關(guān)聯(lián)度計(jì)算流程27-30
- 3.1.1 文本預(yù)處理27-28
- 3.1.2 計(jì)算流程28-30
- 3.2 基于局部上下文共現(xiàn)的關(guān)聯(lián)度算法30-33
- 3.2.0 基于局部上下文共現(xiàn)的查詢擴(kuò)展30-31
- 3.2.1 算法描述31-32
- 3.2.2 C1實(shí)驗(yàn)結(jié)果分析32-33
- 3.3 基于改進(jìn)的局部共現(xiàn)的關(guān)聯(lián)度算法33-34
- 3.3.1 改進(jìn)算法描述33-34
- 3.3.2 C2實(shí)驗(yàn)結(jié)果分析34
- 3.4 基于詞項(xiàng)距離的關(guān)聯(lián)度算法34-37
- 3.4.1 基于詞項(xiàng)距離求和的算法描述34-35
- 3.4.2 C3實(shí)驗(yàn)結(jié)果分析35-36
- 3.4.3 基于詞項(xiàng)平均距離的算法描述36
- 3.4.4 C4實(shí)驗(yàn)結(jié)果分析36-37
- 3.5 基于詞激活力的關(guān)聯(lián)度算法37-39
- 3.5.1 詞激活力及相關(guān)算法描述37-38
- 3.5.2 C5、C6、C7實(shí)驗(yàn)結(jié)果對(duì)比分析38-39
- 3.6 7種算法的對(duì)比測(cè)試與分析39-42
- 3.6.1 關(guān)聯(lián)度分布圖對(duì)比39-40
- 3.6.2 關(guān)鍵詞對(duì)比分析40-42
- 3.7 本章小結(jié)42-43
- 第四章 詞激活力在實(shí)體發(fā)現(xiàn)和關(guān)聯(lián)中的應(yīng)用43-56
- 4.1 詞激活力的概念43-45
- 4.1.1 詞激活力算法43-44
- 4.1.2 親和度算法44-45
- 4.2 詞激活力在英文實(shí)體發(fā)現(xiàn)中的應(yīng)用45-54
- 4.2.1 英文實(shí)體發(fā)現(xiàn)的需求分析45
- 4.2.2 詞激活力發(fā)現(xiàn)組織相關(guān)實(shí)體的流程設(shè)計(jì)45-46
- 4.2.3 Stanford NER工具的抽取結(jié)果46-47
- 4.2.4 waf值在(0.1,1]域值內(nèi)的分布規(guī)律47-50
- 4.2.5 閾值判定系統(tǒng)50-51
- 4.2.6 第一、二次WAF后的詞頻較大的詞項(xiàng)信息51-54
- 4.3 詞激活力在人物實(shí)體關(guān)聯(lián)中的應(yīng)用54-56
- 4.3.1 詞激活力在用戶親近度中的應(yīng)用54-55
- 4.3.2 詞激活力在用戶代價(jià)中的應(yīng)用55-56
- 第五章 面向校園對(duì)象的實(shí)體搜索和社會(huì)化搜索系統(tǒng)的實(shí)現(xiàn)56-66
- 5.1 系統(tǒng)流程圖56-57
- 5.2 數(shù)據(jù)收集模塊的設(shè)計(jì)與實(shí)現(xiàn)57-60
- 5.2.1 微博爬蟲(chóng)模塊的設(shè)計(jì)思路57-58
- 5.2.2 微博爬蟲(chóng)模塊的實(shí)現(xiàn)58-59
- 5.2.3 人人網(wǎng)爬蟲(chóng)模塊的設(shè)計(jì)和實(shí)現(xiàn)59-60
- 5.3 數(shù)據(jù)過(guò)濾模塊的設(shè)計(jì)與實(shí)現(xiàn)60-63
- 5.3.1 數(shù)據(jù)過(guò)濾模塊的需求分析60
- 5.3.2 查詢擴(kuò)展詞作為關(guān)鍵詞的過(guò)濾60-61
- 5.3.3 分類(lèi)器的設(shè)計(jì)與實(shí)現(xiàn)61-63
- 5.4 系統(tǒng)功能展示63-66
- 5.4.1 整體功能介紹63-64
- 5.4.2 實(shí)體搜索的設(shè)計(jì)64
- 5.4.3 人物公交的設(shè)計(jì)64-65
- 5.4.4 常見(jiàn)應(yīng)用場(chǎng)景65-66
- 第六章 總結(jié)與展望66-67
- 6.1 全文總結(jié)66
- 6.2 未來(lái)展望66-67
- 參考文獻(xiàn)67-69
- 致謝69
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 任永功;范丹;武佳林;;基于語(yǔ)義關(guān)聯(lián)樹(shù)的分類(lèi)查詢擴(kuò)展算法[J];計(jì)算機(jī)科學(xué);2009年09期
2 胡金柱;舒江波;姚雙云;周星;吳鋒文;肖升;;面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J];計(jì)算機(jī)工程與科學(xué);2009年10期
3 羅建利;;基于用戶興趣的局部上下文分析方法[J];計(jì)算機(jī)應(yīng)用研究;2007年04期
4 黃名選;嚴(yán)小衛(wèi);張師超;;查詢擴(kuò)展技術(shù)進(jìn)展與展望[J];計(jì)算機(jī)應(yīng)用與軟件;2007年11期
5 王艷閣;;面向微博爬蟲(chóng)系統(tǒng)的分析[J];河南科技;2013年04期
6 鄒鴻程;周剛;楊亞強(qiáng);李旭東;;中文微博數(shù)據(jù)凈化算法比較研究[J];計(jì)算機(jī)工程;2012年20期
7 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報(bào);2006年03期
8 陳磊;董碧丹;張峰;;操作型商業(yè)智能綜述[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年07期
9 張永田;徐蔚然;汪浩;;基于詞激活力的自動(dòng)詞發(fā)現(xiàn)[J];軟件;2012年12期
10 王旭陽(yáng);蕭波;;基于概念關(guān)聯(lián)度的智能檢索研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年04期
,本文編號(hào):1113302
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1113302.html