《杭州電子科技大學(xué)》2014年碩士論文
本文關(guān)鍵詞:房地產(chǎn)信息垂直搜索引擎技術(shù)研究,由筆耕文化傳播整理發(fā)布。
《杭州電子科技大學(xué)》 2014年
房地產(chǎn)信息垂直搜索引擎技術(shù)研究
李勇
【摘要】:由于計(jì)算機(jī)及網(wǎng)絡(luò)的飛速發(fā)展,因特網(wǎng)上的信息量呈指數(shù)級(jí)增長(zhǎng)。當(dāng)使用通用搜索引擎來(lái)搜索相關(guān)的信息時(shí),準(zhǔn)確率越來(lái)越令人難以接受,有時(shí)候甚至訪(fǎng)問(wèn)了幾十個(gè)頁(yè)面都無(wú)法找到所需的內(nèi)容,這對(duì)于一般人是無(wú)法接受的。面對(duì)這個(gè)問(wèn)題,垂直搜索引擎應(yīng)運(yùn)而生。垂直搜索引擎的出現(xiàn)能夠解決通用搜索引擎的領(lǐng)域性不足問(wèn)題,對(duì)特定領(lǐng)域的搜索能夠做到更加專(zhuān)注、更加深入、更加精確。 本文課題是針對(duì)近年來(lái)房地產(chǎn)的現(xiàn)狀,設(shè)計(jì)并實(shí)現(xiàn)了房地產(chǎn)垂直搜索引擎。其中重點(diǎn)研究垂直搜索引擎中的兩個(gè)關(guān)鍵技術(shù):網(wǎng)絡(luò)爬蟲(chóng)和中文分詞。本文的主要內(nèi)容如下: (1)介紹了研究背景和意義、搜索引擎的概述以及垂直搜索引擎的國(guó)內(nèi)外現(xiàn)狀和發(fā)展。 (2)介紹了垂直搜索引擎所涉及的相關(guān)技術(shù),包括網(wǎng)絡(luò)爬蟲(chóng)技術(shù)、網(wǎng)頁(yè)信息提取技術(shù)、中文分詞技術(shù)、信息索引技術(shù)和搜索結(jié)果排序技術(shù)。 (3)深入研究了Shark-Search算法,分析其存在的兩個(gè)不足之處:錨文本上下文不足和局部最優(yōu)不足。針對(duì)這兩個(gè)不足之處提出了改進(jìn),分別加入了鏈接聚類(lèi)和隧道技術(shù)。鏈接聚類(lèi)能夠解決Shark-Search算法的錨文本上下文不足之處,而隧道技術(shù)則能夠解決主題孤島效應(yīng),,從而避免局部最優(yōu)問(wèn)題。實(shí)驗(yàn)表明改進(jìn)后的算法相比原來(lái)算法在抓取主題相關(guān)的頁(yè)面上有顯著提高。 (4)研究了概率統(tǒng)計(jì)模型的一種——隱馬爾可夫模型,并且將其和詞性標(biāo)注相結(jié)合,加入自定義狀態(tài)和自定義標(biāo)注,經(jīng)過(guò)計(jì)算來(lái)確立最大概率的狀態(tài)序列,從而能夠有效地識(shí)別房地產(chǎn)命名實(shí)體。 (5)結(jié)合前幾章提出的理論,實(shí)現(xiàn)了房地產(chǎn)垂直搜索引擎系統(tǒng),其中包括五大部分:網(wǎng)絡(luò)爬蟲(chóng)、頁(yè)面處理、中文分詞、信息索引、信息搜索。 (6)對(duì)論文做了全面的總結(jié),并對(duì)未來(lái)的研究工作進(jìn)行了展望。
【關(guān)鍵詞】:
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.3
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線(xiàn)充值、在線(xiàn)咨詢(xún))
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計(jì)算機(jī)工程與應(yīng)用;2003年10期
2 樊勇;鄭家恒;;網(wǎng)頁(yè)去重方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期
3 楊仁廣;宋宇;孟祥增;;一種改進(jìn)Shark-Search的多媒體主題搜索算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年14期
4 李雪瑩,劉寶旭,許榕生;字符串匹配技術(shù)研究[J];計(jì)算機(jī)工程;2004年22期
5 蔣宗禮;田曉燕;趙旭;;一種基于語(yǔ)義分析的主題爬蟲(chóng)算法[J];計(jì)算機(jī)工程與科學(xué);2010年09期
6 陳錦;常致全;許軍;;基于HMM的生物醫(yī)學(xué)命名實(shí)體的識(shí)別與分類(lèi)[J];計(jì)算機(jī)時(shí)代;2006年10期
7 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
8 鄒永斌;陳興蜀;王文賢;;基于貝葉斯分類(lèi)器的主題爬蟲(chóng)研究[J];計(jì)算機(jī)應(yīng)用研究;2009年09期
9 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年12期
10 胡晶晶;錢(qián)湘;趙志強(qiáng);;基于垂直搜索的機(jī)票搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2008年06期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年05期
2 孫素芬;羅長(zhǎng)壽;張峻峰;于峰;張樹(shù)亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期
3 李廣水;宋丁全;;數(shù)據(jù)分析在森林資源調(diào)查中的應(yīng)用及發(fā)展研究[J];安徽農(nóng)業(yè)科學(xué);2009年22期
4 胡錫衡;;正向最大匹配法在中文分詞技術(shù)中的應(yīng)用[J];鞍山師范學(xué)院學(xué)報(bào);2008年02期
5 李玉鑑;操衛(wèi)平;周蘭珍;;結(jié)構(gòu)化向量空間模型及其在Web信息檢索中的應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報(bào);2008年04期
6 李國(guó)和;劉光勝;吳衛(wèi)江;孫紅軍;唐先明;韓寶東;;基于最大匹配和歧義檢測(cè)的中文分詞粗分方法[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年S2期
7 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報(bào);2005年07期
8 左國(guó)才;周榮華;符開(kāi)耀;;基于DBSCAN算法的電信客戶(hù)分類(lèi)的應(yīng)用研究[J];北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年03期
9 傅騫;溫曉輝;;開(kāi)放式Web信息抽取系統(tǒng)研究與實(shí)現(xiàn)[J];北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年06期
10 李曉方;武仲科;樊亞春;周明全;柳勇光;;一種新的用于三維檢索的快速鄰域搜索方法[J];北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 曾成;趙錫均;徐紅;;基于量子遺傳算法的聚類(lèi)方法[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年
2 于江德;王希杰;樊孝忠;;漢語(yǔ)詞法分析中上文和下文孰重孰輕[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實(shí)現(xiàn)[A];數(shù)字博物館研究與實(shí)踐(2009)[C];2010年
4 董俊林;聶偉;楊君英;張春爐;;命名實(shí)體識(shí)別與提取分析[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國(guó)邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
5 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
6 劉保政;汪定偉;;基于多因素的相近距離聚類(lèi)方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
7 黃高平;蘇金樹(shù);陳曙輝;;一種基于高速鏈路的Hash算法[A];2006年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年
8 張立濤;張宇峰;;基于聚類(lèi)分析的大型橋梁結(jié)構(gòu)健康監(jiān)測(cè)數(shù)據(jù)異常識(shí)別研究[A];第21屆全國(guó)結(jié)構(gòu)工程學(xué)術(shù)會(huì)議論文集第Ⅱ冊(cè)[C];2012年
9 趙敬華;高慧穎;魏軍;;基于本體的商品信息查詢(xún)系統(tǒng)與算法研究[A];中國(guó)企業(yè)運(yùn)籌學(xué)[C];2009年
10 王艷秋;蘭巨龍;;基于Wu-Manber的快速跳躍多模式匹配算法[A];第四屆中國(guó)軟件工程大會(huì)論文集[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 徐森;文本聚類(lèi)集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 于翔;基于網(wǎng)格的數(shù)據(jù)流聚類(lèi)方法研究[D];哈爾濱工程大學(xué);2010年
3 徐紅波;基于空間填充曲線(xiàn)高維空間查詢(xún)算法研究[D];哈爾濱理工大學(xué);2010年
4 尹可挺;Internet環(huán)境中基于QoS的Web服務(wù)組合研究[D];浙江大學(xué);2010年
5 皋軍;智能識(shí)別中的降維新方法及其應(yīng)用研究[D];江南大學(xué);2010年
6 蘇曉珂;基于聚類(lèi)的異常挖掘算法研究[D];東華大學(xué);2010年
7 卓瑩;基于拓?fù)洹ち髁客诰虻木W(wǎng)絡(luò)態(tài)勢(shì)感知技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
8 陳彬;面向DEVS的多范式建模與仿真關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
9 高翠芳;模糊聚類(lèi)新算法及應(yīng)用研究[D];江南大學(xué);2011年
10 李群;主題搜索引擎聚類(lèi)算法的研究[D];北京林業(yè)大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉文昊;基于模糊聚類(lèi)和紋版輔助的織物疵點(diǎn)檢測(cè)算法研究[D];浙江理工大學(xué);2010年
2 李振;網(wǎng)絡(luò)輿情預(yù)測(cè)關(guān)鍵技術(shù)研究[D];鄭州大學(xué);2010年
3 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
4 丁金鳳;基于網(wǎng)格與密度的數(shù)據(jù)流聚類(lèi)算法研究[D];哈爾濱工程大學(xué);2010年
5 司賀華;網(wǎng)絡(luò)內(nèi)容審計(jì)系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
6 劉萍;軟件體系結(jié)構(gòu)恢復(fù)的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2010年
7 紅霞;基于層疊條件隨機(jī)場(chǎng)的中文機(jī)構(gòu)名識(shí)別的研究[D];大連理工大學(xué);2010年
8 姜榮;時(shí)間序列的聚類(lèi)和關(guān)聯(lián)規(guī)則挖掘研究[D];遼寧師范大學(xué);2010年
9 李丹丹;基于權(quán)重設(shè)計(jì)的聚類(lèi)融合算法研究及應(yīng)用[D];遼寧工程技術(shù)大學(xué);2009年
10 劉瓊;基于群體智能的聚類(lèi)算法研究[D];長(zhǎng)沙理工大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張彥超;劉云;李勇;沈波;;基于自動(dòng)生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期
2 ;下一代智能搜索技術(shù)[J];新電腦;2006年05期
3 李潔;高新波;焦李成;;基于特征加權(quán)的模糊聚類(lèi)新算法[J];電子學(xué)報(bào);2006年01期
4 韓正服;楊喜權(quán);張一鳴;叢榮華;;基于特征碼的大規(guī)模XML文檔去重研究[J];中國(guó)管理信息化(綜合版);2006年07期
5 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁(yè)正文主題和摘要的網(wǎng)頁(yè)去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期
6 張?jiān)S;董守斌;張凌;陳曉志;;基于Map/Reduce的網(wǎng)頁(yè)消重并行算法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
7 王萌,何婷婷,張偉;基于概念向量空間模型的中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2005年01期
8 王鵬;張永奎;張彥;劉睿;;基于新聞網(wǎng)頁(yè)主題要素的網(wǎng)頁(yè)去重方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年28期
9 時(shí)達(dá)明;林鴻飛;趙晶;;基于模板化的Blog信息抽取[J];計(jì)算機(jī)工程與應(yīng)用;2008年09期
10 樊勇;鄭家恒;;網(wǎng)頁(yè)去重方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 管子玉;基于圖學(xué)習(xí)的Web信息檢索技術(shù)研究[D];浙江大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 譚思亮;聚焦爬行系統(tǒng)的設(shè)計(jì)—算法視角[D];中國(guó)科學(xué)院研究生院(成都計(jì)算機(jī)應(yīng)用研究所);2006年
2 連浩;基于布爾模型的網(wǎng)頁(yè)查重算法研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
3 李立燕;中文科技文獻(xiàn)自動(dòng)摘要系統(tǒng)[D];電子科技大學(xué);2006年
4 李四達(dá);全文索引引擎Lucene的研究及其手機(jī)中的應(yīng)用實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2007年
5 潘亭瀝;基于Lucene的面向商業(yè)應(yīng)用的搜索引擎研究與實(shí)現(xiàn)[D];電子科技大學(xué);2007年
6 黃波;主題搜索引擎的研究與應(yīng)用[D];成都理工大學(xué);2007年
7 姚漫;基于文本聚類(lèi)的網(wǎng)頁(yè)消重算法研究[D];北京交通大學(xué);2008年
8 李憲雷;元搜索關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2008年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時(shí);2003年Z1期
2 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報(bào);2004年09期
3 胡文勝;;垂直搜索助號(hào)碼百事通與商務(wù)領(lǐng)航[J];每周電腦報(bào);2006年32期
4 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實(shí)踐[J];信息系統(tǒng)工程;2009年05期
5 一林;;垂直搜索:前進(jìn)路上的喜與憂(yōu)[J];互聯(lián)網(wǎng)天地;2010年02期
6 牟思;;基于垂直搜索引擎的學(xué)校網(wǎng)站的研究與建設(shè)[J];中國(guó)教育技術(shù)裝備;2011年21期
7 田野;垂直搜索火熱為哪般[J];中國(guó)計(jì)算機(jī)用戶(hù);2005年37期
8 胡文勝;;垂直搜索助號(hào)碼百事通與商務(wù)領(lǐng)航[J];每周電腦報(bào);2006年31期
9 邊凱;;你會(huì)搜索嗎?[J];中國(guó)計(jì)算機(jī)用戶(hù);2007年23期
10 宿建光;;指點(diǎn)通:移動(dòng)垂直搜索的創(chuàng)新者[J];通信世界;2007年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲(chóng)的研究[A];中國(guó)電子學(xué)會(huì)第十七屆信息論學(xué)術(shù)年會(huì)論文集[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;[N];計(jì)算機(jī)世界;2010年
2 王艷;[N];中國(guó)旅游報(bào);2000年
3 賽迪網(wǎng) 方剛;[N];中國(guó)計(jì)算機(jī)報(bào);2000年
4 王靖;[N];人民日?qǐng)?bào)海外版;2000年
5 記者 王滸;[N];中國(guó)旅游報(bào);2009年
6 本報(bào)記者 王宏;[N];中國(guó)計(jì)算機(jī)報(bào);2001年
7 徐瑾 張玉;[N];人民郵電;2009年
8 本報(bào)記者 王曉雁;[N];法制日?qǐng)?bào);2009年
9 記者 吳德群;[N];深圳特區(qū)報(bào);2009年
10 本報(bào)記者 胡鈺;[N];華夏時(shí)報(bào);2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條
1 王曄;垂直搜索引擎若干問(wèn)題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語(yǔ)義化若干問(wèn)題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年
5 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2010年
2 齊鵬;垂直搜索引擎分類(lèi)索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年
3 張楠;面向汽車(chē)主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
4 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年
5 周佳慶;實(shí)時(shí)垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年
6 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)[D];武漢理工大學(xué);2011年
7 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];天津師范大學(xué);2011年
8 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國(guó)海洋大學(xué);2010年
9 張贏;個(gè)性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年
10 李海升;垂直搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
本文關(guān)鍵詞:房地產(chǎn)信息垂直搜索引擎技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):50347
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/50347.html