基于重要度與緊密度的搜索串核心詞提取系統(tǒng)
本文關(guān)鍵詞:我國(guó)近期移動(dòng)地圖與互聯(lián)網(wǎng)地圖發(fā)展綜述,由筆耕文化傳播整理發(fā)布。
《哈爾濱工業(yè)大學(xué)》 2014年
基于重要度與緊密度的搜索串核心詞提取系統(tǒng)
孔繁碩
【摘要】:近年來(lái)隨著互聯(lián)網(wǎng),尤其是移動(dòng)互聯(lián)網(wǎng)的廣泛發(fā)展,電子地圖的使用越來(lái)越廣泛,而電子地圖搜索引擎應(yīng)運(yùn)而生。電子地圖提高服務(wù)質(zhì)量,一方面需要更為精準(zhǔn)、更為龐大、更為細(xì)致、更為時(shí)效的數(shù)據(jù)點(diǎn)信息,同時(shí)另一方面還需要可以理解用戶需求,結(jié)果更為精準(zhǔn)的搜索引擎。查詢分析是搜索引擎中的重要環(huán)節(jié),,其與用戶首先接觸,理解用戶意圖,指導(dǎo)后續(xù)的信息召回與排序。通過(guò)核心詞提取系統(tǒng),提取用戶搜索串的核心詞,是優(yōu)化查詢分析結(jié)果的重要途徑。 本文以當(dāng)前搜索引擎的發(fā)展為基礎(chǔ),自然語(yǔ)言處理技術(shù)為背景,分析了當(dāng)前搜索引擎中基于查詢?nèi)罩�,利用自然語(yǔ)言處理技術(shù)對(duì)搜索串進(jìn)行處理的現(xiàn)狀,與當(dāng)前電子地圖搜索引擎的業(yè)務(wù)需求相結(jié)合,給出了核心詞提取系統(tǒng)的需求分析。同時(shí)從技術(shù)角度采用樸素貝葉斯模型與雙字耦合度,提高基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的準(zhǔn)確性。 本文給出了重要度與緊密度的定義與計(jì)算方法,前者根據(jù)重要度計(jì)算公式,通過(guò)樸素貝葉斯模型找到與原文本相近的文本,并通過(guò)語(yǔ)素在相近文本出現(xiàn)的概率求得其在原文本中的重要度。后者利用近似雙字耦合度的方式,通過(guò)用兩個(gè)語(yǔ)素連續(xù)出現(xiàn)頻率與兩個(gè)語(yǔ)素同時(shí)出現(xiàn)頻率之商計(jì)算兩個(gè)語(yǔ)素間的緊密度。 本文使用C++語(yǔ)言、Python語(yǔ)言以及MapReduce平臺(tái),對(duì)核心詞提取系統(tǒng)進(jìn)行開發(fā)。從設(shè)計(jì)上分為兩大部分,離線挖掘與在線處理。離線挖掘部分包括重要度挖掘模塊和緊密度挖掘模塊。根據(jù)重要度與緊密度的計(jì)算公式,利用MapReduce平臺(tái),實(shí)現(xiàn)了大數(shù)據(jù)的分布式處理,在保證計(jì)算準(zhǔn)確性的同時(shí),提高了數(shù)據(jù)挖掘的效率。在線使用部分包括核心詞提取模塊。其利用離線挖掘的重要度與緊密度詞表,與實(shí)體詞、黑、白名單、搜索串成分規(guī)則等策略相結(jié)合,實(shí)現(xiàn)了對(duì)于搜索串的核心詞提取。 同時(shí)本文通過(guò)增加語(yǔ)料庫(kù)的數(shù)量和調(diào)整融合參數(shù),對(duì)重要度與緊密度的離線挖掘結(jié)果進(jìn)行優(yōu)化。通過(guò)增加調(diào)整提取策略,對(duì)核心詞提取模塊的準(zhǔn)確性進(jìn)行提高。最終實(shí)現(xiàn)了核心詞提取系統(tǒng)的優(yōu)化。 本文通過(guò)將基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)與人工制定的規(guī)則相結(jié)合,設(shè)計(jì)并實(shí)現(xiàn)了核心詞提取系統(tǒng),并不斷優(yōu)化核心詞提取的結(jié)果。在最終評(píng)測(cè)中,新版系統(tǒng)與老版完全基于人工規(guī)則的系統(tǒng)相比,最終效果提高30.9%,提高效果明顯。該系統(tǒng)已成功上線使用,為廣大用戶提供服務(wù)。
【關(guān)鍵詞】:
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP311.52
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 肖蓓;湛邵斌;尹楠;;淺談電子地圖的應(yīng)用及其產(chǎn)品開發(fā)模式[J];吉林大學(xué)學(xué)報(bào)(地球科學(xué)版);2006年S1期
2 周侗;龍毅;;我國(guó)近期移動(dòng)地圖與互聯(lián)網(wǎng)地圖發(fā)展綜述[J];地理與地理信息科學(xué);2012年05期
3 李生;;自然語(yǔ)言處理的研究與發(fā)展[J];燕山大學(xué)學(xué)報(bào);2013年05期
4 付博;趙世奇;劉挺;;Web查詢?nèi)罩狙芯烤C述[J];電子學(xué)報(bào);2013年09期
5 孫茂松,黃昌寧,鄒嘉彥,陸方,沈達(dá)陽(yáng);利用漢字二元語(yǔ)法關(guān)系解決漢語(yǔ)自動(dòng)分詞中的交集型歧義[J];計(jì)算機(jī)研究與發(fā)展;1997年05期
6 魯松,白碩;自然語(yǔ)言處理中詞語(yǔ)上下文有效范圍的定量描述[J];計(jì)算機(jī)學(xué)報(bào);2001年07期
7 王中鋒;王志海;;基于條件對(duì)數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類器優(yōu)化算法[J];計(jì)算機(jī)學(xué)報(bào);2012年02期
8 王燦輝;張敏;馬少平;;自然語(yǔ)言處理在信息檢索中的應(yīng)用綜述[J];中文信息學(xué)報(bào);2007年02期
9 張鈸;;自然語(yǔ)言處理的計(jì)算模型[J];中文信息學(xué)報(bào);2007年03期
10 王思力;王斌;;基于雙字耦合度的中文分詞交叉歧義處理方法[J];中文信息學(xué)報(bào);2007年05期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 范生萬(wàn);王浩;;貝葉斯網(wǎng)絡(luò)在高職英語(yǔ)應(yīng)用能力考試中的應(yīng)用研究[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年04期
2 范生萬(wàn);;貝葉斯網(wǎng)絡(luò)分類模型在教育中的應(yīng)用研究[J];安徽建筑工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年01期
3 徐文權(quán);;基于Symbian OS系統(tǒng)的垃圾短信過(guò)濾器設(shè)計(jì)與實(shí)現(xiàn)[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年02期
4 楊炳儒,周穎,張德政;KDD的研究進(jìn)展及其哲學(xué)思考[J];北京航空航天大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2000年01期
5 肖蓓;湛邵斌;尹楠;;淺談電子地圖的應(yīng)用及其產(chǎn)品開發(fā)模式[J];吉林大學(xué)學(xué)報(bào)(地球科學(xué)版);2006年S1期
6 許長(zhǎng)福;李雄炎;譚鋒奇;于紅巖;李洪奇;;任務(wù)驅(qū)動(dòng)數(shù)據(jù)挖掘方法的提出及在低阻油層識(shí)別中的應(yīng)用[J];吉林大學(xué)學(xué)報(bào)(地球科學(xué)版);2012年01期
7 李寧;徐虹;;基于文本分類的語(yǔ)義平滑在語(yǔ)言模型中的應(yīng)用(英文)[J];成都信息工程學(xué)院學(xué)報(bào);2008年03期
8 劉曉東;王明常;;建立城市消防信息系統(tǒng)的構(gòu)想與評(píng)價(jià)[J];長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2000年00期
9 劉曉東,王明常;建立城市消防信息系統(tǒng)的構(gòu)想與評(píng)價(jià)[J];長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2000年01期
10 竇嶸;加羊吉;黃偉;;統(tǒng)計(jì)與規(guī)則相結(jié)合的藏文人名自動(dòng)識(shí)別研究[J];長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 楊波;秦鋒;程澤凱;;一種新的分類學(xué)習(xí)系統(tǒng)評(píng)估度量[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 黃洪纖;孫浩;;電子地圖的色彩亮度等級(jí)感受研究[A];江蘇省測(cè)繪學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年
3 于江德;王希杰;樊孝忠;;漢語(yǔ)詞法分析中上文和下文孰重孰輕[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 王雅莉;古麗拉·阿東別克;;哈薩克語(yǔ)通用詞匯自動(dòng)提取方法研究與實(shí)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 舒寧;陶建斌;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[A];全國(guó)農(nóng)業(yè)遙感技術(shù)研討會(huì)論文集[C];2009年
6 關(guān)清平;沉培輝;;概率網(wǎng)絡(luò)在數(shù)據(jù)挖掘上的應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——中國(guó)科協(xié)第五屆青年學(xué)術(shù)年會(huì)論文集[C];2004年
7 付國(guó)宏;王曉龍;龔永紅;;基于詞形的漢語(yǔ)文本切分方法[A];第五屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1998年
8 馬后鋒;樊興華;;一種改進(jìn)的增量貝葉斯分類算法[A];2007'儀表,自動(dòng)化及先進(jìn)集成技術(shù)大會(huì)論文集(一)[C];2007年
9 劉芳;侯璇;劉寧;於建峰;;《軍官地圖集》電子版的設(shè)計(jì)[A];地圖學(xué)與GIS學(xué)術(shù)討論會(huì)論文集[C];2002年
10 沈海峰;梁曼君;;基于貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)[A];全國(guó)第十四屆計(jì)算機(jī)科學(xué)及其在儀器儀表中的應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 孟宇龍;基于本體的多源異構(gòu)安全數(shù)據(jù)聚合[D];哈爾濱工程大學(xué);2010年
2 李書艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測(cè)及其機(jī)制研究[D];蘭州大學(xué);2010年
3 杜方;復(fù)雜網(wǎng)絡(luò)系統(tǒng)間相似性識(shí)別及其應(yīng)用[D];浙江大學(xué);2010年
4 謝超;自適應(yīng)地圖可視化關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2009年
5 劉運(yùn)通;產(chǎn)品設(shè)計(jì)過(guò)程知識(shí)配送服務(wù)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
6 魏小濤;在線自適應(yīng)網(wǎng)絡(luò)異常檢測(cè)系統(tǒng)模型與相關(guān)算法研究[D];北京交通大學(xué);2009年
7 祁瑞華;不完整數(shù)據(jù)分類知識(shí)發(fā)現(xiàn)算法研究[D];大連理工大學(xué);2011年
8 蕭毅鴻;基于本體的復(fù)雜決策任務(wù)表示方法與求解技術(shù)研究[D];南京大學(xué);2011年
9 舒江波;面向中文信息處理的復(fù)句關(guān)系詞自動(dòng)標(biāo)識(shí)研究[D];華中師范大學(xué);2011年
10 梁建寧;特征選擇與圖像匹配[D];復(fù)旦大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 程國(guó)斌;基于指示詞語(yǔ)義擴(kuò)展的詞義識(shí)別方法的研究[D];哈爾濱工程大學(xué);2010年
2 裴喆;防空導(dǎo)彈脫靶量測(cè)量方法研究[D];哈爾濱工程大學(xué);2010年
3 許明敏;基于維基百科和web共現(xiàn)分析的概念關(guān)系網(wǎng)構(gòu)建系統(tǒng)研究與實(shí)現(xiàn)[D];華東師范大學(xué);2011年
4 江濤;基于藏文web輿情分析的熱點(diǎn)發(fā)現(xiàn)算法研究[D];西北民族大學(xué);2010年
5 李英偉;基于增量改進(jìn)貝葉斯領(lǐng)域問(wèn)句分類研究[D];昆明理工大學(xué);2009年
6 胡家豪;基于互聯(lián)網(wǎng)的WEB輿情問(wèn)答系統(tǒng)[D];電子科技大學(xué);2011年
7 王輝;計(jì)及分布式電源的配電系統(tǒng)可靠性評(píng)估[D];河北農(nóng)業(yè)大學(xué);2011年
8 高曉利;基于貪婪搜索的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法[D];西安電子科技大學(xué);2011年
9 黃美蘭;車輛標(biāo)志自動(dòng)識(shí)別方法研究[D];西安電子科技大學(xué);2011年
10 齊保元;知識(shí)文檔的語(yǔ)義檢索方法研究與實(shí)現(xiàn)[D];首都師范大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 房世波,楊武年,潘劍君,姜小三;GIS,RS和GPS支持下的精確施肥理論技術(shù)及展望[J];成都理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年06期
2 陳德生;郭在華;湯志亞;;基于GPRS網(wǎng)絡(luò)的氣象要素自動(dòng)采集系統(tǒng)設(shè)計(jì)與應(yīng)用[J];成都信息工程學(xué)院學(xué)報(bào);2006年02期
3 張懷莉;基于Web GIS的房地產(chǎn)信息發(fā)布系統(tǒng)[J];測(cè)繪工程;2002年01期
4 陳建斌;朱寶山;姬淵;韓文娟;;嵌入式環(huán)境下跨平臺(tái)地圖顯示技術(shù)[J];測(cè)繪科學(xué);2009年02期
5 黃維;楊武年;徐強(qiáng);;顧及心象地圖特征的導(dǎo)航電子地圖設(shè)計(jì)[J];測(cè)繪科學(xué);2009年S1期
6 鄧淑丹;江文浦;;網(wǎng)絡(luò)動(dòng)畫類動(dòng)態(tài)符號(hào)的研究[J];測(cè)繪科學(xué);2010年01期
7 劉芳;王光霞;辛欣;侯璇;;基于Web2.0的網(wǎng)絡(luò)地圖設(shè)計(jì)研究[J];測(cè)繪科學(xué);2010年S1期
8 徐占華;夏君;;基于SOA的網(wǎng)絡(luò)地圖服務(wù)系統(tǒng)設(shè)計(jì)[J];測(cè)繪技術(shù)裝備;2010年04期
9 李宏利;張森;盛秀杰;杜坤;馬威;;導(dǎo)航電子地圖中的路口聚合模型與方法[J];地理信息世界;2009年05期
10 田鵬;李軍;陳桂紅;;海量矢量地圖數(shù)據(jù)網(wǎng)絡(luò)發(fā)布的引擎開發(fā)與應(yīng)用實(shí)踐[J];地理信息世界;2010年02期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李雙紅;李茹;鐘立軍;郭偉昱;;基于多詞塊的框架元素語(yǔ)義核心詞自動(dòng)識(shí)別研究[J];中文信息學(xué)報(bào);2010年01期
2 張玥;張宏莉;;基于關(guān)聯(lián)性的熱點(diǎn)話題識(shí)別[J];智能計(jì)算機(jī)與應(yīng)用;2014年03期
3 苑俊英;陳海山;;一種改進(jìn)的特征選取方法[J];科技信息;2009年04期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 劉曉虹;;公民意識(shí)的內(nèi)核是愛(ài)國(guó)——從制度經(jīng)濟(jì)學(xué)的角度看公民意識(shí)[A];公民意識(shí)研究[C];2008年
2 李雙紅;李茹;鐘立軍;;基于多詞塊的框架元素語(yǔ)義核心詞自動(dòng)識(shí)別研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
3 余東升;;面向21世紀(jì)的本科生學(xué)習(xí)[A];“臥龍人生”文化講演錄(第二輯)[C];2012年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前7條
1 記者 王力;[N];杭州日?qǐng)?bào);2011年
2 市委黨校黨史黨建教研部主任 蔣儒標(biāo);[N];溫州日?qǐng)?bào);2012年
3 市社科聯(lián)副主席 盧達(dá);[N];溫州日?qǐng)?bào);2012年
4 中共浙江省委宣傳部原副部長(zhǎng) 浙江省社科聯(lián)原主席 研究員 雷云;[N];杭州日?qǐng)?bào);2012年
5 本報(bào)記者 虞榮平;[N];黃石日?qǐng)?bào);2006年
6 周仲平;[N];舟山日?qǐng)?bào);2012年
7 臨風(fēng);[N];科技日?qǐng)?bào);2014年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 吳寶安;西漢核心詞研究[D];華中科技大學(xué);2007年
2 龍丹;魏晉核心詞研究[D];華中科技大學(xué);2008年
3 武曉麗;漢語(yǔ)核心詞“人”研究[D];華中科技大學(xué);2011年
4 劉曉靜;東漢核心詞研究[D];華中科技大學(xué);2011年
5 鄧春琴;南北朝核心詞研究[D];華中科技大學(xué);2012年
6 施真珍;《后漢書》核心詞研究[D];華中科技大學(xué);2009年
7 卓婷;《戰(zhàn)國(guó)策》十二組核心詞研究[D];華中科技大學(xué);2013年
8 張芳;漢語(yǔ)核心詞“水”研究[D];華中科技大學(xué);2011年
9 翟穎華;面向第二語(yǔ)言教學(xué)的現(xiàn)代漢語(yǔ)核心詞研究[D];武漢大學(xué);2012年
10 王麗媛;俄語(yǔ)身體詞研究[D];華中科技大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉曦;《論衡》核心詞研究[D];華中科技大學(xué);2006年
2 龍丹;漢語(yǔ)“顏色類”核心詞研究[D];華中科技大學(xué);2005年
3 陳志國(guó);同義詞中核心詞的提取[D];新疆師范大學(xué);2006年
4 趙欣欣;《新華同義詞詞典》形容詞的核心詞提取與研究[D];河北師范大學(xué);2011年
5 孔繁碩;基于重要度與緊密度的搜索串核心詞提取系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2014年
6 吳曉佳;《生經(jīng)》動(dòng)詞核心詞研究[D];華中師范大學(xué);2014年
7 馬彬;事件關(guān)系識(shí)別關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2014年
8 張玉代;“背負(fù)”類詞匯歷時(shí)演變研究[D];西北大學(xué);2008年
9 馮俏;天等進(jìn)結(jié)壯語(yǔ)與泰語(yǔ)核心詞比較研究[D];廣西民族大學(xué);2012年
10 王龑;清塘壯語(yǔ)核心詞研究[D];廣西民族大學(xué);2011年
本文關(guān)鍵詞:我國(guó)近期移動(dòng)地圖與互聯(lián)網(wǎng)地圖發(fā)展綜述,由筆耕文化傳播整理發(fā)布。
本文編號(hào):155970
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/155970.html