天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于用戶瀏覽行為的深度網絡挖掘

發(fā)布時間:2018-02-16 01:08

  本文關鍵詞: Deep Web 深度網絡挖掘 用戶瀏覽行為 瀏覽路徑 Deep Web數據源發(fā)現 Deep Web數據源采集 出處:《中國科學技術大學》2012年博士論文 論文類型:學位論文


【摘要】:近年來,隨著互聯網的快速發(fā)展,網絡中蘊含了海量的信息,并且仍在以驚人的速度增長。一般來說,互聯網中信息的主要發(fā)布形式為靜態(tài)網頁,每個靜態(tài)網頁都含有一定數量的靜態(tài)超鏈接,指向其他的靜態(tài)網頁。傳統的搜索引擎正是利用這些靜態(tài)網頁中的超鏈接來收集、索引和顯示用戶所感興趣的網頁和信息。然而,除此之外,互聯網中還有很大一部分信息是以動態(tài)數據源的形式存在的。這些信息并不存在于靜態(tài)網頁中,而是存儲在網站背后的在線數據庫中,并且根據用戶的關鍵詞實時地、動態(tài)地生成網頁來呈現給用戶。由于缺乏足夠的靜態(tài)超鏈接指向這些動態(tài)網頁,傳統的搜索引擎很難發(fā)現和索引這些網頁,因此這部分信息相對于用戶是“隱藏”的。這些“隱藏”信息的集合被稱為深度網絡(即Deep Web,又名Invisible Web或Hidden Web)。與此相對應,那些靜態(tài)網頁集合被稱為Surface Web。 現在,Deep Web的信息量遠遠超過了Surface Web,尤其是Deep Web中的高質量數據,更是高達Surface Web的2000多倍。但是,有效而充分地利用DeepWeb中的高質量數據在目前仍然是一個巨大的挑戰(zhàn),其中最重要的問題就是Deep Web數據源的發(fā)現和Deep Web數據源的采集。一當前的關于Deep Web數據源的發(fā)現與采集的研究工作各有一些不足,比如,有些需要人工參與,有些依賴于特定的領域,所以它們都很難大規(guī)模應用。因此,本文圍繞著Deep Web挖掘的研究,重點關注Deep Web數據源的發(fā)現和采集這兩個問題,以方便用戶利用Deep Web中的信息,進一步推動Deep Web的發(fā)展。本文通過仔細分析用戶在Deep Web中特有的瀏覽行為,歸納出了用戶在Deep Web中特有的瀏覽路徑,并基于此瀏覽路徑提出了全自動的、不依賴特定領域的、高效的Deep Web數據源發(fā)現和采集的方法,使得大規(guī)模的Deep Web挖掘成為可能。 本文的創(chuàng)新之處主要有三點: 1.深入分析了網絡用戶在Deep Web中的瀏覽行為 首先分析了用戶在Surface Web和Deep Web中的瀏覽記錄與瀏覽行為,并將它們轉換為更為直觀的圖形表示(瀏覽圖),然后仔細對比了它們的不同之處;再結合Deep Web中網頁的功能與布局特點和鏈接規(guī)則,最后提出了用戶在DeepWeb中的模型化的瀏覽路徑:表單頁面→列表頁面→目標頁面。這條瀏覽路徑很好地描述了用戶在Deep Web中的瀏覽行為的獨特性。據我們所知,本文是第一次提出類似的概念。 2.提出了一種高效的發(fā)現Deep Web數據源的方法 基于用戶在Deep Web中的獨特的瀏覽路徑,提出了一種高效的從瀏覽記錄中發(fā)現Deep Web數據源的方法。該方法利用Deep Web中的鏈接特點,首先通過鏈接聚類把用戶瀏覽過的表單頁面、列表頁面、目標頁面聚類到一塊,然后根據用戶在瀏覽過程中的轉移關系重建用戶的瀏覽圖;接著,該方法從建好的瀏覽圖中檢測瀏覽路徑,來發(fā)現Deep Web數據源。由于該方法使用鏈接聚類取代了頁面聚類,因此大大提高了Deep Web數據源發(fā)現的效率,而且也不依賴于特定的主題。此外,從用戶瀏覽記錄中尋找Deep Web數據源,進一步降低了代價,而且提高了發(fā)現Deep Web數據源的準確率和發(fā)現高質量Deep Web數據源的概率,降低了發(fā)現低質量Deep Web數據源的風險。 3.提出了一種高效的采集Deep Web數據源的方法 基于用戶在Deep Web中的獨特的瀏覽路徑,提出了一種高效的采集DeepWeb數據源的方法。由于用戶的瀏覽過程就是訪問大量目標頁面的過程,因此我們嘗試模擬用戶的瀏覽行為,沿著用戶在Deep Web中的瀏覽路徑來獲取大量的目標頁面。該方法從表單頁面出發(fā),首先收集一定數目的列表頁面;然后,該方法利用DOM樹對齊技術和目標鏈接的布局特點在列表頁面上檢測目標鏈接;之后,在列表頁面和目標頁面上,該方法利用翻頁鏈接的特點來檢測翻頁鏈接。當收集到足夠的鏈接后,該方法會學習這些鏈接的鏈接規(guī)則,并使用學到的這些鏈接規(guī)則去采集目標Deep Web數據源,以提高采集效率。
[Abstract]:In recent years, with the rapid development of Internet, the network contains a vast amount of information, and is still growing at an alarming rate. In general, Internet information release form is mainly static pages, static static pages each contains a certain number of hyperlinks, refers to static page other traditional search engines are. Is the use of hyperlinks to collect these static pages in the index, and that users are interested in web pages and information. However, in addition, the Internet and a large part of the information is in the form of dynamic data source. This information does not exist in a static page, but stored online database on the site behind and, according to the key words in real time users, dynamically generated web pages to show to the users. Due to the lack of sufficient static hyperlinks to these dynamic pages, the traditional search engine It is difficult to find and index these pages, so this part of the information relative to the user is "hidden". These "hidden" information set is called the depth network (i.e. Deep Web, also known as Invisible Web or Hidden Web). Correspondingly, the static page set is called the Surface Web.
Now, the amount of information Deep Web much more than Surface Web, especially the high quality data of Deep Web, Surface Web is as high as 2000 times. However, effective and full use of high quality data in DeepWeb is still a huge challenge, the most important problem of Web data source is the Deep Web data source discovery and Deep collection. The current research work on the Deep Web data source discovery and acquisition have some shortcomings, for example, some artificial participation, some rely on specific areas, so they are difficult to large scale application. Therefore, this research around Deep Web mining the focus on the Deep Web data source discovery and acquisition of these two issues, for the convenience of users using Deep Web information, promote the further development of Deep Web. Through careful analysis for the user browsing unique in Deep Web To sum up the unique browsing path of users in Deep Web, and based on this browsing path, we propose a fully automatic and efficient way to discover and collect Deep Web data sources, which makes large-scale Deep Web mining possible.
There are three main points in the innovation of this paper.
1. in-depth analysis of the browsing behavior of network users in Deep Web
First analyzes the users in the Surface Web and Deep Web in the browsing and browsing behavior, and convert them into a more intuitive graphical representation (see chart), and then carefully compare their difference; combined with the "Deep in the Web function and layout characteristics and link rules, finally put forward the browsing path the user model in DeepWeb: the form page list page, to the target page. This path has a good description of user browsing behavior in Deep Web's uniqueness. To our knowledge, this is the first time put forward a similar concept.
2. a efficient method for finding Deep Web data sources is proposed.
Users in the Deep Web in the unique browsing path based on the proposed an efficient browsing method found in Deep from the Web data source. This method uses the link characteristics of Deep Web, the first through the link clustering users browse the form page, list page, page clustering to a target, and then according to the user browsing in the process of transfer of the reconstruction of the relationship between the user's browsing map; then, the method built from the browse path detection map, to find the Deep Web data source. Because the method uses link clustering instead of page clustering, thus greatly improving the efficiency of the Deep Web data source discovery, and does not depend on the specific the theme. In addition, from the user browse for Deep Web data source records, to further reduce the cost, but also improve the accuracy of Deep found in the Web data source and found that high quality Deep Web data sources are Rate, reducing the risk of finding a low quality Deep Web data source.
3. a efficient method for collecting Deep Web data sources is proposed.
Users in the Deep Web in the unique browsing path based on the proposed an efficient method of data acquisition source. Because of the DeepWeb user browsing process is to visit a large number of target pages, so we try to simulate the user's browsing behavior, the user browsing paths in Deep Web in order to obtain large amounts of the target page. From the form page of the first collection of a certain number of pages; then, using the layout features of DOM tree alignment technology and target link detection target link in the list on the page; after that, in the list page and the target page, the next page link to detect features page links. When collecting enough after the link, the method will learn these links rules, and use these links to learn rules acquisition target Deep Web data sources, in order to improve the collection efficiency.

【學位授予單位】:中國科學技術大學
【學位級別】:博士
【學位授予年份】:2012
【分類號】:TP393.09

【相似文獻】

相關期刊論文 前10條

1 尹春暉;鄧偉;;基于用戶瀏覽行為分析的用戶興趣獲取[J];計算機技術與發(fā)展;2008年05期

2 何忠秀;;領域內用戶瀏覽行為的用戶需求知識發(fā)現研究[J];鄭州大學學報(理學版);2010年02期

3 華咤鎮(zhèn),任和,施伯樂;一種基于元數據的分布式數據源定位算法[J];計算機工程與應用;2002年14期

4 吳琪;一種基于客戶端的用戶瀏覽行為的采集方法[J];長春師范學院學報;2005年09期

5 何穎;蔣外文;;基于用戶瀏覽行為挖掘的網站個性化推薦系統[J];電腦知識與技術(學術交流);2007年12期

6 李鵬;喬曉東;韓烽;王繼田;梁健;張寅生;;基于用戶瀏覽行為的數據采集及應用[J];現代圖書情報技術;2008年11期

7 李偉超;付永華;;一種改進的基于瀏覽行為的用戶興趣模型[J];電信科學;2011年05期

8 周軍;姜元春;林文龍;;基于有向帶權圖的Web用戶瀏覽行為模型[J];情報理論與實踐;2008年05期

9 王莉;;基于用戶瀏覽行為的文獻鏈接分析[J];現代情報;2009年04期

10 許波;張結魁;周軍;;基于行為分析的用戶興趣建模[J];情報雜志;2009年06期

相關會議論文 前10條

1 林道莊;郭奇;張志強;馮建華;周立柱;孫靜;;基于Metasearch的面向領域的數據源發(fā)現和評價方案[A];第十九屆全國數據庫學術會議論文集(研究報告篇)[C];2002年

2 竇赫男;劉正捷;夏季;;序列模式挖掘在網站可用性分析研究上的應用[A];第二屆和諧人機環(huán)境聯合學術會議(HHME2006)——第2屆中國人機交互學術會議(CHCI'06)論文集[C];2006年

3 張艷;周國祥;;Web挖掘在個性化信息檢索中的應用[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年

4 陳久軍;高濟;;基于無侵犯模式的用戶數據挖掘[A];2004中國控制與決策學術年會論文集[C];2004年

5 由芳;梁穎蕾;王建民;黃海丹;;網站訪問用戶的交互行為模式可視化方法[A];第六屆和諧人機環(huán)境聯合學術會議(HHME2010)、第19屆全國多媒體學術會議(NCMT2010)、第6屆全國人機交互學術會議(CHCI2010)、第5屆全國普適計算學術會議(PCC2010)論文集[C];2010年

6 周延泉;張傳福;張瑞華;李蕾;何華燦;;移動個性化信息服務中的用戶興趣模型[A];2006年首屆ICT大會信息、知識、智能及其轉換理論第一次高峰論壇會議論文集[C];2006年

7 宋愛波;胡孔法;戴青云;董逸生;;Weblog的模糊聚類[A];第十八屆全國數據庫學術會議論文集(技術報告篇)[C];2001年

8 劉紹波;胡盈;鄭涵;樂嘉錦;;Web站點鏈接結構的動態(tài)調整模型研究[A];第二十屆全國數據庫學術會議論文集(技術報告篇)[C];2003年

9 何平;李錦;;基于Web挖掘技術的用戶模糊偏好分析[A];第二十二屆中國數據庫學術會議論文集(技術報告篇)[C];2005年

10 李海宏;翟靜;唐常杰;李智;;基于用戶行為挖掘的個性化Web瀏覽器原型[A];第十九屆全國數據庫學術會議論文集(技術報告篇)[C];2002年

相關重要報紙文章 前2條

1 本報記者 張帆;安全廠商“掐架” 法律“作壁上觀”?[N];中國經濟時報;2011年

2 記者 姚琳;廣西兩位專家入選國家“千人計劃”[N];廣西日報;2011年

相關博士學位論文 前10條

1 蔣敬田;基于用戶瀏覽行為的深度網絡挖掘[D];中國科學技術大學;2012年

2 趙朋朋;Deep Web信息集成若干關鍵技術研究[D];蘇州大學;2008年

3 方巍;基于本體的Deep Web信息集成關鍵技術研究[D];蘇州大學;2009年

4 閆中敏;Deep Web數據獲取問題研究[D];山東大學;2010年

5 李楠;基于關聯數據的知識發(fā)現研究[D];中國農業(yè)科學院;2012年

6 梁浩;Deep Web信息集成架構及相關問題研究[D];吉林大學;2010年

7 田建偉;面向領域的高質量Deep Web數據集成技術研究[D];武漢大學;2010年

8 何麗;基于Web挖掘的決策支持系統模型研究[D];天津大學;2005年

9 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年

10 吳瑞;模糊和粗糙環(huán)境下的網絡用戶瀏覽模式研究[D];天津大學;2006年

相關碩士學位論文 前10條

1 李妹芳;Deep Web數據源發(fā)現和選擇研究[D];東北大學;2008年

2 屈振東;Deep Web環(huán)境下數據源選擇和結果緩存的研究[D];東北大學;2009年

3 王海龍;Deep Web數據源發(fā)現和分類研究[D];蘇州大學;2011年

4 丁寶石;Deep Web數據源分類研究[D];山東大學;2010年

5 吉飛;基于用戶瀏覽行為的網絡資源排序研究[D];大連海事大學;2011年

6 張智;基于本體的Deep Web數據源的分類研究[D];南京信息工程大學;2011年

7 戚春超;Deep Web數據源發(fā)現與分類研究[D];南京信息工程大學;2011年

8 黃泉杰;網站可用性分析中的三維信息可視化技術應用研究[D];大連海事大學;2005年

9 韓思陽;基于狀態(tài)轉移模型的電子商務網站用戶瀏覽行為分析[D];吉林大學;2009年

10 杜鑫;Deep Web數據源發(fā)現與采樣研究[D];山東大學;2011年



本文編號:1514308

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1514308.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶8912e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
成人精品视频在线观看不卡| 久久精品国产一区久久久| 亚洲熟女精品一区二区成人| 日韩人妻一区中文字幕| 成年人黄片大全在线观看| 黄色污污在线免费观看| 我要看日本黄色小视频| 亚洲中文字幕免费人妻| 91亚洲人人在字幕国产| 好吊日成人免费视频公开| 爽到高潮嗷嗷叫之在现观看| 国产成人亚洲欧美二区综| 国语久精品在视频在线观看| 91精品国产av一区二区| 午夜午夜精品一区二区| 精品国产亚洲av成人一区| 中文字幕日韩无套内射| 内用黄老外示儒术出处| 久久久免费精品人妻一区二区三区| 国产精品一区二区香蕉视频| 久久99夜色精品噜噜亚洲av| 亚洲国产精品肉丝袜久久| 九九热视频网在线观看| 欧美成人免费一级特黄| 国产主播精品福利午夜二区| 日本少妇中文字幕不卡视频| 日韩欧美国产三级在线观看| 福利视频一区二区在线| 白白操白白在线免费观看| 老熟妇乱视频一区二区| 午夜亚洲少妇福利诱惑| av国产熟妇露脸在线观看| 亚洲免费视频中文字幕在线观看| 国产成人午夜av一区二区| 中国黄色色片色哟哟哟哟哟哟 | 天堂热东京热男人天堂| 亚洲国产精品国自产拍社区| 国产丝袜美女诱惑一区二区| 久久大香蕉一区二区三区| 亚洲a级一区二区不卡| 日韩一区二区三区久久|