基于重要度與緊密度的搜索串核心詞提取系統(tǒng)
本文關(guān)鍵詞:我國近期移動地圖與互聯(lián)網(wǎng)地圖發(fā)展綜述,由筆耕文化傳播整理發(fā)布。
《哈爾濱工業(yè)大學(xué)》 2014年
基于重要度與緊密度的搜索串核心詞提取系統(tǒng)
孔繁碩
【摘要】:近年來隨著互聯(lián)網(wǎng),尤其是移動互聯(lián)網(wǎng)的廣泛發(fā)展,電子地圖的使用越來越廣泛,而電子地圖搜索引擎應(yīng)運而生。電子地圖提高服務(wù)質(zhì)量,一方面需要更為精準、更為龐大、更為細致、更為時效的數(shù)據(jù)點信息,同時另一方面還需要可以理解用戶需求,結(jié)果更為精準的搜索引擎。查詢分析是搜索引擎中的重要環(huán)節(jié),,其與用戶首先接觸,理解用戶意圖,指導(dǎo)后續(xù)的信息召回與排序。通過核心詞提取系統(tǒng),提取用戶搜索串的核心詞,是優(yōu)化查詢分析結(jié)果的重要途徑。 本文以當前搜索引擎的發(fā)展為基礎(chǔ),自然語言處理技術(shù)為背景,分析了當前搜索引擎中基于查詢?nèi)罩,利用自然語言處理技術(shù)對搜索串進行處理的現(xiàn)狀,與當前電子地圖搜索引擎的業(yè)務(wù)需求相結(jié)合,給出了核心詞提取系統(tǒng)的需求分析。同時從技術(shù)角度采用樸素貝葉斯模型與雙字耦合度,提高基于統(tǒng)計的機器學(xué)習(xí)的準確性。 本文給出了重要度與緊密度的定義與計算方法,前者根據(jù)重要度計算公式,通過樸素貝葉斯模型找到與原文本相近的文本,并通過語素在相近文本出現(xiàn)的概率求得其在原文本中的重要度。后者利用近似雙字耦合度的方式,通過用兩個語素連續(xù)出現(xiàn)頻率與兩個語素同時出現(xiàn)頻率之商計算兩個語素間的緊密度。 本文使用C++語言、Python語言以及MapReduce平臺,對核心詞提取系統(tǒng)進行開發(fā)。從設(shè)計上分為兩大部分,離線挖掘與在線處理。離線挖掘部分包括重要度挖掘模塊和緊密度挖掘模塊。根據(jù)重要度與緊密度的計算公式,利用MapReduce平臺,實現(xiàn)了大數(shù)據(jù)的分布式處理,在保證計算準確性的同時,提高了數(shù)據(jù)挖掘的效率。在線使用部分包括核心詞提取模塊。其利用離線挖掘的重要度與緊密度詞表,與實體詞、黑、白名單、搜索串成分規(guī)則等策略相結(jié)合,實現(xiàn)了對于搜索串的核心詞提取。 同時本文通過增加語料庫的數(shù)量和調(diào)整融合參數(shù),對重要度與緊密度的離線挖掘結(jié)果進行優(yōu)化。通過增加調(diào)整提取策略,對核心詞提取模塊的準確性進行提高。最終實現(xiàn)了核心詞提取系統(tǒng)的優(yōu)化。 本文通過將基于統(tǒng)計的機器學(xué)習(xí)與人工制定的規(guī)則相結(jié)合,設(shè)計并實現(xiàn)了核心詞提取系統(tǒng),并不斷優(yōu)化核心詞提取的結(jié)果。在最終評測中,新版系統(tǒng)與老版完全基于人工規(guī)則的系統(tǒng)相比,最終效果提高30.9%,提高效果明顯。該系統(tǒng)已成功上線使用,為廣大用戶提供服務(wù)。
【關(guān)鍵詞】:
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.52
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 肖蓓;湛邵斌;尹楠;;淺談電子地圖的應(yīng)用及其產(chǎn)品開發(fā)模式[J];吉林大學(xué)學(xué)報(地球科學(xué)版);2006年S1期
2 周侗;龍毅;;我國近期移動地圖與互聯(lián)網(wǎng)地圖發(fā)展綜述[J];地理與地理信息科學(xué);2012年05期
3 李生;;自然語言處理的研究與發(fā)展[J];燕山大學(xué)學(xué)報;2013年05期
4 付博;趙世奇;劉挺;;Web查詢?nèi)罩狙芯烤C述[J];電子學(xué)報;2013年09期
5 孫茂松,黃昌寧,鄒嘉彥,陸方,沈達陽;利用漢字二元語法關(guān)系解決漢語自動分詞中的交集型歧義[J];計算機研究與發(fā)展;1997年05期
6 魯松,白碩;自然語言處理中詞語上下文有效范圍的定量描述[J];計算機學(xué)報;2001年07期
7 王中鋒;王志海;;基于條件對數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類器優(yōu)化算法[J];計算機學(xué)報;2012年02期
8 王燦輝;張敏;馬少平;;自然語言處理在信息檢索中的應(yīng)用綜述[J];中文信息學(xué)報;2007年02期
9 張鈸;;自然語言處理的計算模型[J];中文信息學(xué)報;2007年03期
10 王思力;王斌;;基于雙字耦合度的中文分詞交叉歧義處理方法[J];中文信息學(xué)報;2007年05期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 范生萬;王浩;;貝葉斯網(wǎng)絡(luò)在高職英語應(yīng)用能力考試中的應(yīng)用研究[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2007年04期
2 范生萬;;貝葉斯網(wǎng)絡(luò)分類模型在教育中的應(yīng)用研究[J];安徽建筑工業(yè)學(xué)院學(xué)報(自然科學(xué)版);2008年01期
3 徐文權(quán);;基于Symbian OS系統(tǒng)的垃圾短信過濾器設(shè)計與實現(xiàn)[J];安慶師范學(xué)院學(xué)報(自然科學(xué)版);2012年02期
4 楊炳儒,周穎,張德政;KDD的研究進展及其哲學(xué)思考[J];北京航空航天大學(xué)學(xué)報(社會科學(xué)版);2000年01期
5 肖蓓;湛邵斌;尹楠;;淺談電子地圖的應(yīng)用及其產(chǎn)品開發(fā)模式[J];吉林大學(xué)學(xué)報(地球科學(xué)版);2006年S1期
6 許長福;李雄炎;譚鋒奇;于紅巖;李洪奇;;任務(wù)驅(qū)動數(shù)據(jù)挖掘方法的提出及在低阻油層識別中的應(yīng)用[J];吉林大學(xué)學(xué)報(地球科學(xué)版);2012年01期
7 李寧;徐虹;;基于文本分類的語義平滑在語言模型中的應(yīng)用(英文)[J];成都信息工程學(xué)院學(xué)報;2008年03期
8 劉曉東;王明常;;建立城市消防信息系統(tǒng)的構(gòu)想與評價[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2000年00期
9 劉曉東,王明常;建立城市消防信息系統(tǒng)的構(gòu)想與評價[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2000年01期
10 竇嶸;加羊吉;黃偉;;統(tǒng)計與規(guī)則相結(jié)合的藏文人名自動識別研究[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2010年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 楊波;秦鋒;程澤凱;;一種新的分類學(xué)習(xí)系統(tǒng)評估度量[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 黃洪纖;孫浩;;電子地圖的色彩亮度等級感受研究[A];江蘇省測繪學(xué)會2011年學(xué)術(shù)年會論文集[C];2011年
3 于江德;王希杰;樊孝忠;;漢語詞法分析中上文和下文孰重孰輕[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
4 王雅莉;古麗拉·阿東別克;;哈薩克語通用詞匯自動提取方法研究與實現(xiàn)[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
5 舒寧;陶建斌;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[A];全國農(nóng)業(yè)遙感技術(shù)研討會論文集[C];2009年
6 關(guān)清平;沉培輝;;概率網(wǎng)絡(luò)在數(shù)據(jù)挖掘上的應(yīng)用[A];科技、工程與經(jīng)濟社會協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學(xué)術(shù)年會論文集[C];2004年
7 付國宏;王曉龍;龔永紅;;基于詞形的漢語文本切分方法[A];第五屆全國人機語音通訊學(xué)術(shù)會議論文集[C];1998年
8 馬后鋒;樊興華;;一種改進的增量貝葉斯分類算法[A];2007'儀表,自動化及先進集成技術(shù)大會論文集(一)[C];2007年
9 劉芳;侯璇;劉寧;於建峰;;《軍官地圖集》電子版的設(shè)計[A];地圖學(xué)與GIS學(xué)術(shù)討論會論文集[C];2002年
10 沈海峰;梁曼君;;基于貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)[A];全國第十四屆計算機科學(xué)及其在儀器儀表中的應(yīng)用學(xué)術(shù)交流會論文集[C];2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孟宇龍;基于本體的多源異構(gòu)安全數(shù)據(jù)聚合[D];哈爾濱工程大學(xué);2010年
2 李書艷;單點氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測及其機制研究[D];蘭州大學(xué);2010年
3 杜方;復(fù)雜網(wǎng)絡(luò)系統(tǒng)間相似性識別及其應(yīng)用[D];浙江大學(xué);2010年
4 謝超;自適應(yīng)地圖可視化關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2009年
5 劉運通;產(chǎn)品設(shè)計過程知識配送服務(wù)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
6 魏小濤;在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與相關(guān)算法研究[D];北京交通大學(xué);2009年
7 祁瑞華;不完整數(shù)據(jù)分類知識發(fā)現(xiàn)算法研究[D];大連理工大學(xué);2011年
8 蕭毅鴻;基于本體的復(fù)雜決策任務(wù)表示方法與求解技術(shù)研究[D];南京大學(xué);2011年
9 舒江波;面向中文信息處理的復(fù)句關(guān)系詞自動標識研究[D];華中師范大學(xué);2011年
10 梁建寧;特征選擇與圖像匹配[D];復(fù)旦大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 程國斌;基于指示詞語義擴展的詞義識別方法的研究[D];哈爾濱工程大學(xué);2010年
2 裴喆;防空導(dǎo)彈脫靶量測量方法研究[D];哈爾濱工程大學(xué);2010年
3 許明敏;基于維基百科和web共現(xiàn)分析的概念關(guān)系網(wǎng)構(gòu)建系統(tǒng)研究與實現(xiàn)[D];華東師范大學(xué);2011年
4 江濤;基于藏文web輿情分析的熱點發(fā)現(xiàn)算法研究[D];西北民族大學(xué);2010年
5 李英偉;基于增量改進貝葉斯領(lǐng)域問句分類研究[D];昆明理工大學(xué);2009年
6 胡家豪;基于互聯(lián)網(wǎng)的WEB輿情問答系統(tǒng)[D];電子科技大學(xué);2011年
7 王輝;計及分布式電源的配電系統(tǒng)可靠性評估[D];河北農(nóng)業(yè)大學(xué);2011年
8 高曉利;基于貪婪搜索的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法[D];西安電子科技大學(xué);2011年
9 黃美蘭;車輛標志自動識別方法研究[D];西安電子科技大學(xué);2011年
10 齊保元;知識文檔的語義檢索方法研究與實現(xiàn)[D];首都師范大學(xué);2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 房世波,楊武年,潘劍君,姜小三;GIS,RS和GPS支持下的精確施肥理論技術(shù)及展望[J];成都理工大學(xué)學(xué)報(自然科學(xué)版);2003年06期
2 陳德生;郭在華;湯志亞;;基于GPRS網(wǎng)絡(luò)的氣象要素自動采集系統(tǒng)設(shè)計與應(yīng)用[J];成都信息工程學(xué)院學(xué)報;2006年02期
3 張懷莉;基于Web GIS的房地產(chǎn)信息發(fā)布系統(tǒng)[J];測繪工程;2002年01期
4 陳建斌;朱寶山;姬淵;韓文娟;;嵌入式環(huán)境下跨平臺地圖顯示技術(shù)[J];測繪科學(xué);2009年02期
5 黃維;楊武年;徐強;;顧及心象地圖特征的導(dǎo)航電子地圖設(shè)計[J];測繪科學(xué);2009年S1期
6 鄧淑丹;江文浦;;網(wǎng)絡(luò)動畫類動態(tài)符號的研究[J];測繪科學(xué);2010年01期
7 劉芳;王光霞;辛欣;侯璇;;基于Web2.0的網(wǎng)絡(luò)地圖設(shè)計研究[J];測繪科學(xué);2010年S1期
8 徐占華;夏君;;基于SOA的網(wǎng)絡(luò)地圖服務(wù)系統(tǒng)設(shè)計[J];測繪技術(shù)裝備;2010年04期
9 李宏利;張森;盛秀杰;杜坤;馬威;;導(dǎo)航電子地圖中的路口聚合模型與方法[J];地理信息世界;2009年05期
10 田鵬;李軍;陳桂紅;;海量矢量地圖數(shù)據(jù)網(wǎng)絡(luò)發(fā)布的引擎開發(fā)與應(yīng)用實踐[J];地理信息世界;2010年02期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李雙紅;李茹;鐘立軍;郭偉昱;;基于多詞塊的框架元素語義核心詞自動識別研究[J];中文信息學(xué)報;2010年01期
2 張玥;張宏莉;;基于關(guān)聯(lián)性的熱點話題識別[J];智能計算機與應(yīng)用;2014年03期
3 苑俊英;陳海山;;一種改進的特征選取方法[J];科技信息;2009年04期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 劉曉虹;;公民意識的內(nèi)核是愛國——從制度經(jīng)濟學(xué)的角度看公民意識[A];公民意識研究[C];2008年
2 李雙紅;李茹;鐘立軍;;基于多詞塊的框架元素語義核心詞自動識別研究[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
3 余東升;;面向21世紀的本科生學(xué)習(xí)[A];“臥龍人生”文化講演錄(第二輯)[C];2012年
中國重要報紙全文數(shù)據(jù)庫 前7條
1 記者 王力;[N];杭州日報;2011年
2 市委黨校黨史黨建教研部主任 蔣儒標;[N];溫州日報;2012年
3 市社科聯(lián)副主席 盧達;[N];溫州日報;2012年
4 中共浙江省委宣傳部原副部長 浙江省社科聯(lián)原主席 研究員 雷云;[N];杭州日報;2012年
5 本報記者 虞榮平;[N];黃石日報;2006年
6 周仲平;[N];舟山日報;2012年
7 臨風(fēng);[N];科技日報;2014年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 吳寶安;西漢核心詞研究[D];華中科技大學(xué);2007年
2 龍丹;魏晉核心詞研究[D];華中科技大學(xué);2008年
3 武曉麗;漢語核心詞“人”研究[D];華中科技大學(xué);2011年
4 劉曉靜;東漢核心詞研究[D];華中科技大學(xué);2011年
5 鄧春琴;南北朝核心詞研究[D];華中科技大學(xué);2012年
6 施真珍;《后漢書》核心詞研究[D];華中科技大學(xué);2009年
7 卓婷;《戰(zhàn)國策》十二組核心詞研究[D];華中科技大學(xué);2013年
8 張芳;漢語核心詞“水”研究[D];華中科技大學(xué);2011年
9 翟穎華;面向第二語言教學(xué)的現(xiàn)代漢語核心詞研究[D];武漢大學(xué);2012年
10 王麗媛;俄語身體詞研究[D];華中科技大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉曦;《論衡》核心詞研究[D];華中科技大學(xué);2006年
2 龍丹;漢語“顏色類”核心詞研究[D];華中科技大學(xué);2005年
3 陳志國;同義詞中核心詞的提取[D];新疆師范大學(xué);2006年
4 趙欣欣;《新華同義詞詞典》形容詞的核心詞提取與研究[D];河北師范大學(xué);2011年
5 孔繁碩;基于重要度與緊密度的搜索串核心詞提取系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2014年
6 吳曉佳;《生經(jīng)》動詞核心詞研究[D];華中師范大學(xué);2014年
7 馬彬;事件關(guān)系識別關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2014年
8 張玉代;“背負”類詞匯歷時演變研究[D];西北大學(xué);2008年
9 馮俏;天等進結(jié)壯語與泰語核心詞比較研究[D];廣西民族大學(xué);2012年
10 王龑;清塘壯語核心詞研究[D];廣西民族大學(xué);2011年
本文關(guān)鍵詞:我國近期移動地圖與互聯(lián)網(wǎng)地圖發(fā)展綜述,由筆耕文化傳播整理發(fā)布。
本文編號:155970
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/155970.html