面向用戶體驗需求的垂直搜索引擎的研究
本文關(guān)鍵詞:面向用戶體驗需求的垂直搜索引擎的研究,,由筆耕文化傳播整理發(fā)布。
《吉林大學(xué)》 2011年
面向用戶體驗需求的垂直搜索引擎的研究
杜佳倫
【摘要】:互聯(lián)網(wǎng)迅速發(fā)展,信息量也越來越大。如何更方便的獲取信息成為研究的重點。起初的方法是以雅虎為主,通過人工收錄。這種方法是由人把互聯(lián)網(wǎng)的信息做整理,然后再根據(jù)事先分好的類,加一個網(wǎng)站放到已有的分類中。用戶在搜索一個關(guān)鍵詞的時候,可以根據(jù)分類的樹狀結(jié)構(gòu)進行查詢。這個方法由于完全是人工做的,所以準(zhǔn)確率很高。但是人工維護成本太高,人們對于知識的需求形勢也多種多樣,互聯(lián)網(wǎng)的增長速度也很快,這種方法遠遠不能滿足需求。 隨后便產(chǎn)生了搜索引擎。搜索引擎的體驗為通過關(guān)鍵詞得到想要的網(wǎng)頁。搜索引擎的數(shù)據(jù)來源為整個互聯(lián)網(wǎng)。它通過網(wǎng)絡(luò)爬蟲程序,將互聯(lián)網(wǎng)上所有的數(shù)據(jù)根據(jù)鏈接關(guān)系,逐步爬取過來。爬取后,將網(wǎng)頁信息提取出來,并根據(jù)關(guān)鍵字做倒排,建立倒排索引。然后利用迭代方法,計算網(wǎng)頁的權(quán)重,做排序。然后提供一個檢索的用戶交互平臺,并通過界面讓用戶使用關(guān)鍵詞進行檢索。搜索引擎從最開始的全文搜索理論起源。 垂直搜索引擎是網(wǎng)頁搜索引擎的進一步延伸,它面向的是具體的某種對象,比如地圖,語音,圖片,視頻等。對于某種對象,在相應(yīng)的垂直搜索引擎上搜索要比在網(wǎng)頁搜索引擎上搜索效果更好。垂直搜索引擎的出現(xiàn),在某種程度上滿足了某種用戶的需求。但是,使用垂直搜索引擎的前提是用戶必須對于搜索的對象的屬性充分的了解。比如,搜索電腦的時候必須搜索具體的參數(shù),硬盤,內(nèi)存,CPU等。這對于那些不了解對象屬性的用戶來說就無從下手了。 本文以筆記本電腦為搜索對象,實現(xiàn)了一個可以在完全不了解對象屬性的前提下,只通過搜索體驗需求來得到想要的結(jié)果的垂直搜索引擎。 既然是搜索體驗需求,所以,就要考慮用戶如何給出他自身對于一個對象的體驗需求。本文是讓用戶通過自然語言來描述自己的需求,同時用數(shù)字給出對于價格的需求。比如:速度快,便攜等。這種搜索方式與以往必須搜索電腦的具體參數(shù),如內(nèi)存,硬盤等完全不同,也是本文的創(chuàng)新點。 這種搜索引擎的實現(xiàn)方法就是先將用戶的體驗需求進行分類,在這個分類中并不直接包括對象的屬性信息。由于任何一個對象的信息無非就是和它相關(guān)的各個屬性信息,所以,任何一個體驗需求的分類也一定與具體對象的某些屬性相關(guān)聯(lián)。相關(guān)聯(lián)的屬性在計算權(quán)值的時候需要重點考慮。 基于這種體驗效果,本文首先通過一個傳統(tǒng)的筆記本電腦搜索網(wǎng)站,將所有有報價的筆記本電腦配置信息網(wǎng)頁和圖片都取了下來。然后,從網(wǎng)頁中將參數(shù)的具體配置信息取出來,并進行了清洗。對于主要的參數(shù)重點考慮,進行補全。因為在重點考慮的參數(shù)不能缺失,否則無法計算權(quán)值。補全后,還要給出一個屬性不同參數(shù)的排序關(guān)系。因為對于一個參數(shù),只有知道如何比較好壞,才能知道向用戶推薦哪些。而不同的參數(shù)比較方法差別很大,有些直接根據(jù)數(shù)值就能比較,有些要通過經(jīng)驗去判斷。比如,內(nèi)存的好壞既要看大小,又要看類型。硬盤容量的比較是越大越好,而筆記本的重量,是越小越好。在知道每個屬性參數(shù)如何進行比較后,還要知道每個屬性參數(shù)對電腦具體體驗需求的影響。因為不同參數(shù)對于同一個指標(biāo)影響不同。比如,處理器對筆記本運行速度的影響要大于內(nèi)存對于筆記本速度的影響。這些基礎(chǔ)處理完成后,就要做人機交互的部分了。 這個過程,首先根據(jù)不同的體驗效果和用途進行了分類。然后,確定每個分類和對象的哪些屬性相關(guān)。當(dāng)用戶的需求和具體的一個分類相關(guān)時,就提高相應(yīng)屬性在計算權(quán)值的過程中所產(chǎn)生的影響。本文實現(xiàn)的分類器用得文本表示模型為向量空間模型,算法采用的是Rocchio算法,相似性計算用的是余弦相似度計算。同時,用戶還有價格的需求。所以在向用戶返回結(jié)果的過程中,首先篩選出價格在用戶給出的價格上下500元內(nèi)的電腦,然后從中根據(jù)每個屬性的不同參數(shù)值和屬性的權(quán)重計算每款型號的最終權(quán)值。最后,根據(jù)最終權(quán)值對每款型號進行排序。 通過上述方法,用戶不再需要對電腦的各個屬性了解的很透,只給出體驗需求也可以選購電腦。與傳統(tǒng)必須通過對象屬性參數(shù)來搜索,有了很大進步。這標(biāo)志著,垂直搜索在查詢的時候可以完全不依賴對象的屬性信息了。這種思想可以在各種垂直搜索上使用,將會給垂直搜索帶來很大的改善。
【關(guān)鍵詞】:
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻】
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 舒永鋼;WebGIS旅游信息搜索功用研究及應(yīng)用[D];浙江工商大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 朱敏;基于Lucene的垂直搜索引擎的研究與實現(xiàn)[D];成都理工大學(xué);2012年
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
2 殷建平;漢語自動分詞方法[J];計算機工程與科學(xué);1998年03期
3 何新貴,彭甫陽;中文文本的關(guān)鍵詞自動抽取和模糊分類[J];中文信息學(xué)報;1999年01期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 卞真旭;;一種關(guān)鍵詞抽取方法研究[J];安徽電氣工程職業(yè)技術(shù)學(xué)院學(xué)報;2011年S1期
2 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2010年06期
3 趙曉凡;胡順義;;基于正向最大匹配的漢語分詞[J];安陽師范學(xué)院學(xué)報;2010年05期
4 文庭孝;漢語自動分詞研究進展[J];圖書與情報;2005年05期
5 張惠君;李娟;;基于OPAC的館藏評價方法探究[J];圖書與情報;2010年04期
6 孫英娟;蒲東兵;孫英慧;李春宜;周春光;;郵件過濾Agent的設(shè)計[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2008年06期
7 葛宇;梁靜;陳曉敏;;搜索引擎系統(tǒng)中熱點問題的探討[J];成都電子機械高等專科學(xué)校學(xué)報;2009年04期
8 楊延錕;許少華;;基于FVSM的核聚類算法在文本聚類中的應(yīng)用[J];長江大學(xué)學(xué)報(自然科學(xué)版)理工卷;2010年01期
9 李明杰;;特征抽取方法在網(wǎng)頁分類中的應(yīng)用[J];常熟理工學(xué)院學(xué)報;2005年04期
10 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應(yīng)用;2010年06期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 卞真旭;;一種關(guān)鍵詞抽取方法研究[A];2011年安徽省智能電網(wǎng)技術(shù)論壇論文集[C];2011年
2 羅海飛;虞立群;章志凌;邵曉敏;陳林;汪更生;陳弈秋;何偉杰;;一種改進型CHI的特征抽取方法[A];第二十四屆中國控制會議論文集(下冊)[C];2005年
3 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
4 王小華;陸蓓;張國煊;;文本自動分類的模糊方法[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
5 張慶國;章成志;薛德軍;張君玉;;基于K最近鄰的隱含主題自動抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
6 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 WANG Jiayue;[D];廣東外語外貿(mào)大學(xué);2003年
2 許增福;DL環(huán)境下的信息資源管理及知識發(fā)現(xiàn)研究[D];哈爾濱工程大學(xué);2005年
3 張友華;面向智能服務(wù)的Web內(nèi)容計算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年
4 吳應(yīng)良;網(wǎng)絡(luò)計算中的智能信息處理方法研究[D];華南理工大學(xué);2000年
5 滕偉;面向Web信息集成的Web信息抽取中若干關(guān)鍵問題的研究[D];上海交通大學(xué);2007年
6 楊為民;基于場論的信息檢索模型的研究[D];安徽大學(xué);2007年
7 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
8 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學(xué);2007年
9 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學(xué);2007年
10 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學(xué);2010年
2 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學(xué);2010年
3 劉偉麗;基于粒子群算法和支持向量機的中文文本分類研究[D];河南工業(yè)大學(xué);2010年
4 楊芹;基于最大熵模型的中文網(wǎng)頁分類器設(shè)計和實現(xiàn)[D];蘇州大學(xué);2010年
5 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學(xué);2010年
6 付濤;藏文網(wǎng)頁除噪技術(shù)研究[D];西北民族大學(xué);2010年
7 歐偉強;Web信息挖掘的研究及應(yīng)用[D];電子科技大學(xué);2010年
8 孟祥燕;問答對自動獲取的研究[D];昆明理工大學(xué);2008年
9 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
10 惠國寶;基于統(tǒng)計和語義分析的分詞及在產(chǎn)品設(shè)計中的應(yīng)用[D];西安電子科技大學(xué);2011年
【同被引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 解杼,張捷,劉澤華,余穎,郭來喜;旅游者入游感知距離與旅游空間行為研究——以江西省龍虎山為例[J];安徽師范大學(xué)學(xué)報(自然科學(xué)版);2003年04期
2 文謹;宮輝力;;自助旅游者對網(wǎng)絡(luò)旅游信息的需求研究[J];北京社會科學(xué);2009年04期
3 唐亮;張結(jié)魁;徐建華;;網(wǎng)絡(luò)消費者信息搜尋行為研究[J];圖書與情報;2008年02期
4 陳曉寧;馬亞飛;謝孟利;;基于NewMap API的Web地圖服務(wù)系統(tǒng)應(yīng)用[J];測繪標(biāo)準(zhǔn)化;2011年03期
5 楊陽;朱翊;劉紀(jì)平;;網(wǎng)絡(luò)電子地圖的設(shè)計與應(yīng)用[J];測繪科學(xué);2007年S1期
6 吳增紅;陳毓芬;;河南省旅游地圖網(wǎng)站的設(shè)計與實現(xiàn)[J];測繪科學(xué);2008年01期
7 郭亮;龔建華;孫麇;楊衛(wèi)軍;林國添;;基于ArcGIS Server與AJAX的WebGIS設(shè)計與實現(xiàn)[J];測繪科學(xué);2011年03期
8 吳曉佳,李衛(wèi)紅;基于WebGIS技術(shù)的旅游自助地理信息系統(tǒng)[J];城市勘測;2004年05期
9 馬張寶,萬劍華,劉娜;基于WebGIS和3D GIS的集成研究[J];測繪與空間地理信息;2005年03期
10 周昕薇,王福生,王穎;基于GIS的北京旅游信息系統(tǒng)的設(shè)計與開發(fā)[J];測繪與空間地理信息;2005年04期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李東;在線旅行服務(wù)商業(yè)模式研究[D];華僑大學(xué);2011年
2 王曉峰;基于TMIS和TGIS比較的陜西旅游資源決策支持系統(tǒng)研究[D];陜西師范大學(xué);2005年
3 方針;用戶信息技術(shù)接受的影響因素模型與實證研究[D];復(fù)旦大學(xué);2005年
4 張霞;地理信息服務(wù)組合與空間分析服務(wù)研究[D];武漢大學(xué);2004年
5 吳功和;分布式地理信息服務(wù)研究與實踐[D];解放軍信息工程大學(xué);2006年
6 馬慶勛;網(wǎng)絡(luò)空間實時信息處理關(guān)鍵技術(shù)研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2007年
7 李如仁;公眾參與式地理信息系統(tǒng)的理論與實踐[D];遼寧工程技術(shù)大學(xué);2007年
8 朱閣;移動商務(wù)消費者決策行為中的接受與轉(zhuǎn)移研究[D];北京郵電大學(xué);2009年
9 馬張寶;旅游出行決策支持系統(tǒng)的方法和技術(shù)研究[D];山東科技大學(xué);2009年
10 段建華;基于WebGIS的分布式接處警系統(tǒng)研究[D];中國地質(zhì)大學(xué)(北京);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李彥達;基于上下文感知應(yīng)用的移動式旅游服務(wù)研究[D];中國海洋大學(xué);2010年
2 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年
3 李宜兵;基于搜索引擎網(wǎng)頁排序算法研究[D];沈陽理工大學(xué);2011年
4 何松;我國移動商務(wù)消費者初始信任影響因素研究[D];沈陽理工大學(xué);2011年
5 楊成寶;我國搜索引擎市場發(fā)展趨勢與策略研究[D];山東大學(xué);2011年
6 任麗蕓;搜索引擎中文分詞技術(shù)研究[D];重慶理工大學(xué);2011年
7 仇亞東;面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究[D];南京農(nóng)業(yè)大學(xué);2010年
8 楊洋;基于WebGIS的省級旅游地理信息系統(tǒng)研究與開發(fā)[D];廣西師范大學(xué);2006年
9 陳潔惠;搜索引擎排序算法的研究[D];河海大學(xué);2007年
10 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計[D];華東師范大學(xué);2007年
【二級引證文獻】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 徐興元;Web時空數(shù)據(jù)挖掘及其地圖信息服務(wù)[D];華東師范大學(xué);2013年
2 張昭;基于WebGIS的食品安全監(jiān)管系統(tǒng)設(shè)計與實現(xiàn)[D];南昌航空大學(xué);2013年
3 韓劍磊;昆明城市游憩商業(yè)區(qū)(RBD)旅游體驗研究[D];云南財經(jīng)大學(xué);2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 韓世欣,王開鑄;基于短語結(jié)構(gòu)文法的分詞研究[J];中文信息學(xué)報;1992年03期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時;2003年Z1期
2 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期
3 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年32期
4 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期
5 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期
6 牟思;;基于垂直搜索引擎的學(xué)校網(wǎng)站的研究與建設(shè)[J];中國教育技術(shù)裝備;2011年21期
7 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期
8 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年31期
9 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期
10 宿建光;;指點通:移動垂直搜索的創(chuàng)新者[J];通信世界;2007年03期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;[N];計算機世界;2010年
2 王艷;[N];中國旅游報;2000年
3 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年
4 王靖;[N];人民日報海外版;2000年
5 記者 王滸;[N];中國旅游報;2009年
6 本報記者 王宏;[N];中國計算機報;2001年
7 徐瑾 張玉;[N];人民郵電;2009年
8 本報記者 王曉雁;[N];法制日報;2009年
9 記者 吳德群;[N];深圳特區(qū)報;2009年
10 本報記者 胡鈺;[N];華夏時報;2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年
5 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2010年
3 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學(xué);2010年
4 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學(xué);2010年
5 周佳慶;實時垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年
6 華大年;手機產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計與開發(fā)[D];武漢理工大學(xué);2011年
7 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];天津師范大學(xué);2011年
8 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年
9 張贏;個性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年
10 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年
本文關(guān)鍵詞:面向用戶體驗需求的垂直搜索引擎的研究,由筆耕文化傳播整理發(fā)布。
本文編號:163356
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/163356.html