電商搜索引擎中長尾類目預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:電商搜索引擎中長尾類目預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:在電商搜索環(huán)境下,用戶與搜索系統(tǒng)的交互主要是通過查詢來完成,為此,需要對(duì)用戶查詢的類目意圖做準(zhǔn)確判斷。由于“馬太效應(yīng)”,處于流量頂部的query的類目意圖積累足夠的數(shù)據(jù),類目預(yù)測結(jié)果比較準(zhǔn)確。但是長尾query由于積累數(shù)據(jù)不夠,無法準(zhǔn)確識(shí)別類目意圖。因此,需要針對(duì)長尾query的類目預(yù)測算法做專門的優(yōu)化。本文對(duì)中文query分析的相關(guān)技術(shù),尤其是tagging相關(guān)的技術(shù)進(jìn)行了調(diào)研,并總結(jié)了目前query意圖識(shí)別的研究成果、實(shí)際應(yīng)用領(lǐng)域的發(fā)展,對(duì)長尾query的類目預(yù)測提出一個(gè)完整的解決方案。具體做法是將低頻的長尾query轉(zhuǎn)化為相對(duì)高頻的“模式”,在模式的層面上作出類目意圖的識(shí)別,最后再把模式還原到query層面上。本文介紹了基于Hadoop平臺(tái)的算法實(shí)現(xiàn),包括離線tagging模型的訓(xùn)練和預(yù)測,對(duì)挖掘到的query模式進(jìn)行分析,得到類目意圖預(yù)測結(jié)果。實(shí)驗(yàn)數(shù)據(jù)表明,改進(jìn)的長尾query類目預(yù)測算法在準(zhǔn)確率和召回率上都有較大提升,可以滿足線上應(yīng)用的基本要求。
【關(guān)鍵詞】:query分析 短文本標(biāo)注 文本分類
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.52
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 引言11-16
- 1.1 項(xiàng)目背景11
- 1.2 類目預(yù)測問題介紹11-12
- 1.3 類目預(yù)測系統(tǒng)概述12-14
- 1.4 本文的主要工作14
- 1.5 本文的組織結(jié)構(gòu)14-16
- 第二章 技術(shù)綜述16-23
- 2.1 中文query分析基礎(chǔ)技術(shù)16-18
- 2.1.1 分詞16-17
- 2.1.2 Term Weighting17-18
- 2.2 HMM18-19
- 2.3 文本分類技術(shù)19-21
- 2.4 Hadoop MapReduce21-22
- 2.5 本章小結(jié)22-23
- 第三章 長尾類目預(yù)測系統(tǒng)的分析與設(shè)計(jì)23-39
- 3.1 項(xiàng)目總體規(guī)劃與需求分析23-25
- 3.1.1 項(xiàng)目總體規(guī)劃23
- 3.1.2 功能需求23-24
- 3.1.3 非功能需求24-25
- 3.2 系統(tǒng)總體設(shè)計(jì)與模塊設(shè)計(jì)25-27
- 3.2.1 系統(tǒng)總體架構(gòu)25-27
- 3.2.2 系統(tǒng)模塊劃分27
- 3.3 離線子系統(tǒng)的分析與設(shè)計(jì)27-36
- 3.3.1 HMM模型訓(xùn)練模塊的設(shè)計(jì)28-30
- 3.3.2 QueryTagging模塊的設(shè)計(jì)30-31
- 3.3.3 模式挖掘模塊的設(shè)計(jì)31-34
- 3.3.4 索引生成模塊的設(shè)計(jì)34-36
- 3.4 在線子系統(tǒng)的分析與設(shè)計(jì)36-38
- 3.5 本章小結(jié)38-39
- 第四章 長尾類目預(yù)測系統(tǒng)的實(shí)現(xiàn)39-55
- 4.1 離線子系統(tǒng)的實(shí)現(xiàn)39-49
- 4.1.1 HMM訓(xùn)練模塊的實(shí)現(xiàn)39-42
- 4.1.2 QueryTagging模塊的實(shí)現(xiàn)42-44
- 4.1.3 模式挖掘模塊的實(shí)現(xiàn)44-47
- 4.1.4 索引生成模塊的實(shí)現(xiàn)47-49
- 4.2 在線子系統(tǒng)的實(shí)現(xiàn)49-52
- 4.2.1 觸發(fā)邏輯的實(shí)現(xiàn)50
- 4.2.2 類目預(yù)測邏輯的實(shí)現(xiàn)50-51
- 4.2.3 合并邏輯的實(shí)現(xiàn)51-52
- 4.3 項(xiàng)目效果52-53
- 4.3.1 長尾類目預(yù)測效果展示52-53
- 4.3.2 類目預(yù)測效果指標(biāo)53
- 4.3.3 對(duì)系統(tǒng)性能的影響53
- 4.4 本章小結(jié)53-55
- 第五章 總結(jié)與展望55-56
- 5.1 總結(jié)55
- 5.2 進(jìn)一步工作展望55-56
- 參考文獻(xiàn)56-58
- 致謝58-60
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;An Ontology-Based Service Matching Strategy in Grid Environments[J];Wuhan University Journal of Natural Sciences;2004年05期
2 蘇斐;慈林林;朱麗萍;趙欣欣;;Data Caching for XML Query[J];Journal of Beijing Institute of Technology(English Edition);2006年03期
3 ;Distributed GEP query optimization on grid service[J];The Journal of China Universities of Posts and Telecommunications;2010年03期
4 周傲英,施伯樂;Query Optimization for Deductive Databases[J];Journal of Computer Science and Technology;1995年02期
5 JEON Se gil ,LEE Chung woo ,NAH Yunmook ,KIM Moon hae ,HAN Ki joon;Distributed location-based query processing on large volumes of moving items[J];重慶郵電學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年05期
6 ;A solution of spatial query processing and query optimization for spatial databases[J];重慶郵電學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年05期
7 ;Implementation of an Autocorrelation Pitch Detector in Application to Query by Humming[J];Wuhan University Journal of Natural Sciences;2005年03期
8 ;GQL:Extending XQuery to Query GML Documents[J];Geo-Spatial Information Science;2006年02期
9 ;Processing Constrained K Closest Pairs Query in Spatial Databases[J];Wuhan University Journal of Natural Sciences;2006年03期
10 ;Bottom-up mining of XML query patterns to improve XML querying[J];Journal of Zhejiang University(Science A:An International Applied Physics & Engineering Journal);2008年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 ;Fast Discovering Frequent Patterns for Incremental XML Queries[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
2 ;Identifying Machine Query for an Intelligent Web Browser System[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
3 ;Design and Optimization of Query System Architecture based on Multi-tier Metadata[A];第二十七屆中國控制會(huì)議論文集[C];2008年
4 ;Query Through Heterogeneous Ontologies Using Association Matrix[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 ;Mining Synonymous Entities using Search Engine Query Logs[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(下)[C];2008年
6 Yongjian Fan;Xiaoying Zhang;Hong Chen;;Aggregation-Based Privacy-Preservation Approximate Query Protocol in Wireless Sensor Networks[A];2013年中國智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第一分冊(cè))[C];2013年
7 Ce Fan;Xiaorong Wu;;An optimal Scheme Based on Local Query for Computer Graphics[A];proceedings of 2010 3rd International Conference on Computer and Electrical Engineering (ICCEE 2010 no.1)[C];2012年
8 Du Xuedong;Xie Tingting;;Based on the Half-space Pruning to Continuously Monitoring Reverse KNN[A];2012年計(jì)算機(jī)應(yīng)用與系統(tǒng)建模國際會(huì)議論文集[C];2012年
9 ;The Semi-join Query Optimization in Distributed Database System[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
10 ;Variable and Index Processing in XML-QL Join[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
中國重要報(bào)紙全文數(shù)據(jù)庫 前2條
1 江蘇 王鑫;Delphi控件使用點(diǎn)滴[N];電腦報(bào);2002年
2 福建 曾曉萌;優(yōu)化你的 Delphi 程序[N];電腦報(bào);2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 熊文新;信息檢索Query語言分析[D];北京語言大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 嚴(yán)昕;電商搜索引擎中長尾類目預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2016年
2 闞長城;Query Engine的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
3 朱亮;基于馬爾科夫隨機(jī)游走模型的query-doc關(guān)聯(lián)挖掘[D];吉林大學(xué);2014年
4 唐國華;Query語義依存分析技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2012年
5 劉建柱;基于Query分析的中心詞與需求詞搭配關(guān)系的自動(dòng)挖掘[D];東北大學(xué);2008年
6 梁國蓉;一個(gè)基于Dataflow的大數(shù)據(jù)Query Engine系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2015年
本文關(guān)鍵詞:電商搜索引擎中長尾類目預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):308729
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/308729.html