網(wǎng)絡(luò)表格搜索引擎系統(tǒng)的構(gòu)建與研究
本文關(guān)鍵詞: 搜索引擎 表格 TableRank 出處:《北京工業(yè)大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著網(wǎng)絡(luò)信息的快速增長(zhǎng),搜索引擎的作用越發(fā)的重要。而為了進(jìn)一步處理和挖掘網(wǎng)絡(luò)日漸增長(zhǎng)的龐大信息,搜索引擎本身也相應(yīng)地要尋求某些除了簡(jiǎn)單的網(wǎng)頁文本以外的載體。 網(wǎng)絡(luò)表格搜索引擎系統(tǒng)就是利用計(jì)算機(jī)對(duì)網(wǎng)頁上的表格按照一定的規(guī)則進(jìn)行提取、分析、存儲(chǔ)、檢索的搜索引擎系統(tǒng),其目的是為網(wǎng)絡(luò)信息檢索提供一種新的載體。表格作為一種新式載體,具有普遍性、易讀性和結(jié)構(gòu)化的三大特點(diǎn),非常適合用來作為搜索的元素來反映整個(gè)網(wǎng)絡(luò)世界的結(jié)構(gòu)和內(nèi)容,并且易于為計(jì)算機(jī)分析和處理。 網(wǎng)絡(luò)表格搜索引擎系統(tǒng)作為一種搜索引擎系統(tǒng),也具有搜索引擎系統(tǒng)基本的數(shù)據(jù)處理流程和處理方法。但是與普通網(wǎng)頁文本搜索引擎不同的是,其基礎(chǔ)技術(shù)還包括表格甄選、表頭甄別、表格排序三部分。每個(gè)部分都需要特別針對(duì)表格這種新載體的特點(diǎn),設(shè)計(jì)特殊的處理過程和算法。本研究針對(duì)這一問題進(jìn)行了研究與實(shí)踐,主要包括以下幾方面的工作: 1、表格甄選。該方面實(shí)現(xiàn)了從結(jié)構(gòu)方面實(shí)現(xiàn)對(duì)網(wǎng)頁中的有數(shù)據(jù)意義的表格的甄選過程的算法,并把這種算法與從內(nèi)容方面的識(shí)別的算法進(jìn)行了比較。 2、表頭甄別。該方面實(shí)現(xiàn)了快速有效地甄別表格中是否存在表頭以及找到表頭的算法。該算法提出了從結(jié)構(gòu)、內(nèi)容、樣式等諸多方面對(duì)表格的行或列進(jìn)行考量,并且通過結(jié)合機(jī)器學(xué)習(xí)算法提高準(zhǔn)確性。 3、表格排序。該方面提出了TableRank算法來實(shí)現(xiàn)了類似于PageRank算法的、適用于表格的查詢?cè)~無關(guān)算法,為缺少超鏈接的實(shí)體的排序提供了一些新的思路。 4、構(gòu)建成網(wǎng)絡(luò)表格搜索引擎,根據(jù)運(yùn)行情況,,對(duì)三個(gè)階段的系統(tǒng)結(jié)果進(jìn)行了統(tǒng)計(jì)和分析,評(píng)價(jià)了本文所設(shè)計(jì)的算法的效果。系統(tǒng)運(yùn)行的結(jié)果可以有效地幫助用戶更快更好地找到所需表格,從而進(jìn)一步了解該網(wǎng)頁乃至整個(gè)網(wǎng)絡(luò)世界。 通過該系統(tǒng)的構(gòu)建及相應(yīng)算法的設(shè)計(jì),探索了表格搜索的一些特殊性,為相關(guān)的研究和工具開發(fā)做了有意義的探索。
[Abstract]:With the rapid growth of network information, the role of search engines is becoming more and more important. The search engine itself should also seek some carriers in addition to simple web text. The network form search engine system is a search engine system that extracts, analyzes, stores and retrieves the tables on the web pages according to certain rules. The purpose is to provide a new carrier for network information retrieval. As a new type of carrier, tables have three characteristics: universality, readability and structure. It is well suited to be used as a search element to reflect the structure and content of the entire web world and is easy to analyze and process for computers. As a kind of search engine system, the network table search engine system also has the basic data processing flow and the processing method of the search engine system. But different from the ordinary web page text search engine, its basic technology also includes the table selection, Each part needs to design special processing process and algorithm according to the characteristics of the new carrier of table. This research has carried on the research and the practice aiming at this problem. This includes the following areas of work:. 1. Table selection. In this aspect, the algorithm of selecting tables with data meaning in web pages is realized from the aspect of structure, and the algorithm is compared with the algorithm of content recognition. 2, header discrimination. In this aspect, we can quickly and effectively identify whether or not a table header exists in a table and find a header. The algorithm proposes to consider the row or column of a table from many aspects, such as structure, content, style, and so on. And by combining machine learning algorithm to improve the accuracy. 3. Table sorting. In this paper, TableRank algorithm is proposed to implement the query word independent algorithm similar to PageRank algorithm, which provides some new ideas for the sorting of entities lacking hyperlinks. 4. Build a network table search engine. According to the running situation, we make statistics and analysis on the results of the three stages of the system. The results of the system can help users to find the required tables faster and better, so as to better understand the web page and even the whole network world. Through the construction of the system and the design of the corresponding algorithm, this paper explores some particularities of table search, and makes a meaningful exploration for the related research and tool development.
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;世界首款在線聯(lián)系人搜索引擎問世[J];計(jì)算機(jī)與網(wǎng)絡(luò);2008年11期
2 靳魯黔,秦穎;獨(dú)立搜索引擎基本工作原理分析及其簡(jiǎn)介[J];農(nóng)業(yè)圖書情報(bào)學(xué)刊;2005年05期
3 程彩鳳;杜友福;;搜索引擎技術(shù)分析[J];科技信息;2007年01期
4 孫雁群;周燕青;;人民銀行內(nèi)聯(lián)網(wǎng)搜索引擎探討[J];華南金融電腦;2007年04期
5 戴建中;GnetFtp搜索引擎的算法設(shè)計(jì)與實(shí)現(xiàn)[J];汕頭大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年03期
6 張繼剛;搜索引擎使用技巧[J];網(wǎng)絡(luò)與信息;1999年09期
7 ;關(guān)鍵詞搜索[J];每周電腦報(bào);2000年38期
8 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學(xué)之友;2000年07期
9 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報(bào);2001年01期
10 周毅華;從搜索引擎的分類看其應(yīng)用技巧[J];圖書館理論與實(shí)踐;2002年06期
相關(guān)會(huì)議論文 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
2 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年
3 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
4 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
5 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
6 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
7 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
8 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年
9 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年
10 陳援非;何哲;朱珍民;;基于普適計(jì)算的個(gè)性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 焦艷玲;楓葉之都告百度惡意排名[N];市場(chǎng)報(bào);2007年
2 郭京霞;百度勝訴搜索引擎排名糾紛案[N];中國企業(yè)報(bào);2007年
3 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年
4 周文林;搜狗3.0能否撼動(dòng)搜索市場(chǎng)[N];經(jīng)濟(jì)參考報(bào);2007年
5 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年
6 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,還是門戶[N];中國計(jì)算機(jī)報(bào);2005年
7 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年
8 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國經(jīng)營報(bào);2005年
9 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年
10 本報(bào)記者 趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
2 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年
3 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年
4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
5 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
6 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
9 鄭文良;基于簡(jiǎn)單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
10 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
相關(guān)碩士學(xué)位論文 前10條
1 劉青偉;搜索引擎中的Pagerank排序算法研究分析[D];電子科技大學(xué);2010年
2 宗寶琴;基于自然語言理解的智能檢索接口技術(shù)的研究及其應(yīng)用[D];河北科技大學(xué);2011年
3 王珍;維、哈、柯文搜索引擎中的自動(dòng)分類技術(shù)研究[D];新疆大學(xué);2010年
4 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江工商大學(xué);2011年
5 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學(xué);2011年
6 李玨伶;搜索引擎網(wǎng)頁相關(guān)性評(píng)估方法設(shè)計(jì)及其在rank模型上的應(yīng)用[D];北京交通大學(xué);2011年
7 歐建斌;基于Web挖掘與信息分類的個(gè)性化搜索引擎研究[D];暨南大學(xué);2010年
8 金祖旭;基于用戶反饋的搜索引擎排名算法研究[D];復(fù)旦大學(xué);2010年
9 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長(zhǎng)春理工大學(xué);2010年
10 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2011年
本文編號(hào):1501184
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1501184.html