Web表格數(shù)據(jù)提取與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:Web表格數(shù)據(jù)提取與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: Web挖掘 表格數(shù)據(jù) 屬性名標(biāo)注 數(shù)據(jù)特征 假設(shè)檢驗(yàn)
【摘要】:數(shù)據(jù)表格作為網(wǎng)頁(yè)數(shù)據(jù)展示的一種形式,開(kāi)始越來(lái)越多的出現(xiàn)在各種領(lǐng)域的web頁(yè)面中,因其具有簡(jiǎn)潔的展示方式以及顯而易見(jiàn)地描述數(shù)據(jù)關(guān)系的優(yōu)勢(shì)而被越來(lái)越多的人應(yīng)用到網(wǎng)頁(yè)中并成為Web信息抽取中的熱點(diǎn)。然而人們往往忽略表格數(shù)據(jù)自有的不足,通常表頭(下文稱(chēng)屬性名)決定一切,而現(xiàn)實(shí)中,Web上的表格經(jīng)常出現(xiàn)無(wú)屬性名或?qū)傩悦y以理解的情況。因此,在自動(dòng)分析修復(fù)表格的表頭信息方面的研究將在Web挖掘、數(shù)據(jù)理解及決策支持方面提供極大的幫助,同時(shí)也將會(huì)被越來(lái)越多的研究者重視。論文開(kāi)始講述了本課題的研究背景、目的、意義及相關(guān)領(lǐng)域的研究現(xiàn)狀,并對(duì)本文的主要研究?jī)?nèi)容進(jìn)行了闡述。之后詳細(xì)描述了本課題的需求分析、系統(tǒng)的總體設(shè)計(jì)、系統(tǒng)各功能模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)及系統(tǒng)的功能測(cè)試與非功能性測(cè)試,最后對(duì)本文進(jìn)行了總結(jié)及展望。本文的主要研究?jī)?nèi)容主要有以下三個(gè)方面:Web表格數(shù)據(jù)提取與存儲(chǔ)、表格數(shù)據(jù)分析和屬性名自動(dòng)標(biāo)注。Web表格數(shù)據(jù)提取主要實(shí)現(xiàn)了對(duì)HTML網(wǎng)頁(yè)的解析、數(shù)據(jù)表格的識(shí)別和表格內(nèi)數(shù)據(jù)的提取存儲(chǔ)等功能。表格數(shù)據(jù)分析主要實(shí)現(xiàn)對(duì)數(shù)據(jù)的深度分析,由于不同類(lèi)型的數(shù)據(jù)具有不同的特征,因此首先對(duì)表格數(shù)據(jù)進(jìn)行簡(jiǎn)單分類(lèi),不同類(lèi)型的數(shù)據(jù)運(yùn)用不同的處理方法提取特定的特征。本文以數(shù)據(jù)的結(jié)構(gòu)特征與統(tǒng)計(jì)特征作為研究對(duì)象,分別利用正則表達(dá)式表示數(shù)據(jù)的結(jié)構(gòu)特征,利用統(tǒng)計(jì)分布均值和方差兩個(gè)參數(shù)表示數(shù)據(jù)的統(tǒng)計(jì)特征,并利用大量訓(xùn)練數(shù)據(jù)建立“屬性名-特征值”特征庫(kù)。在屬性名自動(dòng)標(biāo)注的研究中,主要完成對(duì)特定數(shù)據(jù)列匹配屬性名。本文針對(duì)不同數(shù)據(jù)特征提出了不同的特征匹配策略并建立匹配模型,對(duì)于正則表達(dá)式表示的結(jié)構(gòu)特征,運(yùn)用編輯距離算法進(jìn)行表達(dá)式串相似性比較,同時(shí)結(jié)合簡(jiǎn)單字符串匹配提高準(zhǔn)確性;對(duì)于統(tǒng)計(jì)分布參數(shù)表示的統(tǒng)計(jì)特征則利用假設(shè)檢驗(yàn)知識(shí)中的樣本均值的檢驗(yàn)方法比較兩樣本間的差異性。最后對(duì)于匹配出的候選屬性名進(jìn)行優(yōu)化,得到最佳屬性名。本文實(shí)驗(yàn)環(huán)節(jié)通過(guò)利用實(shí)驗(yàn)室現(xiàn)有的大量表格數(shù)據(jù)建立特征庫(kù),利用交叉驗(yàn)證的方式優(yōu)化匹配模型參數(shù)(閥值和檢驗(yàn)水平),通過(guò)多次迭代試驗(yàn),證明了綜合運(yùn)用正則表達(dá)式、統(tǒng)計(jì)分布的策略能夠很好的解決數(shù)據(jù)表格屬性名修復(fù)問(wèn)題。
【關(guān)鍵詞】:Web挖掘 表格數(shù)據(jù) 屬性名標(biāo)注 數(shù)據(jù)特征 假設(shè)檢驗(yàn)
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP393.09;TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-17
- 1.1 課題背景及研究的目的和意義9-10
- 1.2 與本課題有關(guān)的國(guó)內(nèi)外研究現(xiàn)狀10-14
- 1.2.1 Web信息提取技術(shù)的研究10-11
- 1.2.2 表格信息提取方面的研究11-13
- 1.2.3 數(shù)據(jù)表格分析及標(biāo)注方面的研究13-14
- 1.2.4 國(guó)內(nèi)外研究現(xiàn)狀分析14
- 1.3 本文的主要研究?jī)?nèi)容14-15
- 1.4 本文組織結(jié)構(gòu)15-17
- 第2章 WEB表格數(shù)據(jù)提取與分析系統(tǒng)的需求分析與總體設(shè)計(jì)17-33
- 2.1 WEB表格數(shù)據(jù)提取與分析系統(tǒng)的業(yè)務(wù)流程分析17-19
- 2.2 WEB表格數(shù)據(jù)提取與分析系統(tǒng)的功能需求分析19-24
- 2.2.1 Web表格數(shù)據(jù)提取的需求分析19-20
- 2.2.2 表格數(shù)據(jù)分析的需求分析20-21
- 2.2.3 屬性名自動(dòng)標(biāo)注的需求分析21-24
- 2.3 WEB表格數(shù)據(jù)提取與分析系統(tǒng)的非功能性需求分析24
- 2.4 WEB表格數(shù)據(jù)提取與分析系統(tǒng)的環(huán)境需求分析24-25
- 2.5 WEB表格數(shù)據(jù)提取與分析系統(tǒng)的總體設(shè)計(jì)25-27
- 2.5.1 系統(tǒng)的層次結(jié)構(gòu)設(shè)計(jì)25-26
- 2.5.2 系統(tǒng)的功能結(jié)構(gòu)設(shè)計(jì)26-27
- 2.6 關(guān)鍵技術(shù)27-32
- 2.7 本章小結(jié)32-33
- 第3章 WEB表格數(shù)據(jù)提取與分析系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)33-54
- 3.1 WEB表格數(shù)據(jù)提取模塊的設(shè)計(jì)與實(shí)現(xiàn)33-38
- 3.1.1 web表格數(shù)據(jù)提取模塊的結(jié)構(gòu)設(shè)計(jì)33-34
- 3.1.2 Web表格數(shù)據(jù)提取模塊類(lèi)圖設(shè)計(jì)34-35
- 3.1.3 Web表格數(shù)據(jù)提取模塊實(shí)現(xiàn)過(guò)程35-38
- 3.2 數(shù)據(jù)分析模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)38-46
- 3.2.1 數(shù)據(jù)分析模塊的結(jié)構(gòu)設(shè)計(jì)38-39
- 3.2.2 數(shù)據(jù)分析模塊的類(lèi)圖設(shè)計(jì)39-40
- 3.2.3 數(shù)據(jù)分析模塊的實(shí)現(xiàn)過(guò)程40-46
- 3.3 屬性名自動(dòng)標(biāo)注模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)46-52
- 3.3.1 屬性名自動(dòng)標(biāo)注模塊的結(jié)構(gòu)設(shè)計(jì)46-47
- 3.3.2 屬性名自動(dòng)標(biāo)注模塊的類(lèi)圖設(shè)計(jì)47-48
- 3.3.3 屬性名自動(dòng)標(biāo)注模塊的實(shí)現(xiàn)過(guò)程48-52
- 3.4 本章小結(jié)52-54
- 第4章 WEB表格數(shù)據(jù)提取與分析系統(tǒng)的測(cè)試54-65
- 4.1 測(cè)試方案54-55
- 4.1.1 測(cè)試目標(biāo)54
- 4.1.2 測(cè)試范圍54
- 4.1.3 測(cè)試環(huán)境54-55
- 4.2 功能性測(cè)試55-60
- 4.2.1 Web表格數(shù)據(jù)提取模塊測(cè)試55-56
- 4.2.2 表格數(shù)據(jù)分析模塊測(cè)試56-58
- 4.2.3 屬性名自動(dòng)標(biāo)注模塊測(cè)試58-60
- 4.3 非功能性測(cè)試60-64
- 4.4 本章小結(jié)64-65
- 結(jié)論65-66
- 參考文獻(xiàn)66-71
- 致謝71-72
- 個(gè)人簡(jiǎn)歷72
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 金穎云;怎樣把表格里的行數(shù)據(jù)轉(zhuǎn)成列數(shù)據(jù)[J];電腦知識(shí)與技術(shù);2002年07期
2 ;善用表格讓辦公更輕松[J];電腦愛(ài)好者;2009年18期
3 金穎云;;怎樣把表格里的行數(shù)據(jù)轉(zhuǎn)成列數(shù)據(jù)[J];軟件;2003年11期
4 陳桂鑫;表格數(shù)據(jù) 頁(yè)頁(yè)心中有數(shù)[J];電腦愛(ài)好者;2004年24期
5 毛毛蟲(chóng);;Word表格行數(shù)據(jù)移動(dòng)有快招[J];電腦迷;2008年12期
6 阮慧寧;;表格中數(shù)據(jù)的編輯加工技巧[J];科技與出版;2011年07期
7 徐群;;通用表格生成系統(tǒng)的實(shí)現(xiàn)[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2012年18期
8 張平,黃尚康,潘保昌;一種復(fù)雜表格識(shí)別和處理方法[J];電子科學(xué)學(xué)刊;1994年03期
9 梁虹,,李天牧;一種通用的表格自動(dòng)處理系統(tǒng)[J];云南大學(xué)學(xué)報(bào)(自然科學(xué)版);1995年01期
10 長(zhǎng)耳朵;;輕松制表[J];電腦界.應(yīng)用文萃;2001年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 靳忠;李橫;李萌;;ASP.NET中動(dòng)態(tài)表格的實(shí)現(xiàn)[A];全國(guó)ISNBM學(xué)術(shù)交流會(huì)暨電腦開(kāi)發(fā)與應(yīng)用創(chuàng)刊20周年慶祝大會(huì)論文集[C];2005年
2 張慧;李學(xué)慶;;基于模型驅(qū)動(dòng)的表格識(shí)別[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
3 王輝;楊凱;郎士寧;馮少華;王月蓉;;.Net控制Excel自動(dòng)生成表格的應(yīng)用研究[A];計(jì)算機(jī)研究新進(jìn)展(2010)——河南省計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
4 高景;;“Word計(jì)算和排序表格數(shù)據(jù)”教學(xué)設(shè)計(jì)[A];2012年河北省教師教育學(xué)會(huì)教學(xué)設(shè)計(jì)主題論壇論文集[C];2012年
5 白慧敏;;基于Moodle平臺(tái)的《表格數(shù)據(jù)的圖形化》網(wǎng)絡(luò)教學(xué)案例[A];河北省教師教育學(xué)會(huì)第二屆中小學(xué)教師教學(xué)案例展論文集[C];2013年
6 袁鴻雁;;Web表格信息抽取技術(shù)的研究[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條
1 伊禮俊;如何讓海量數(shù)據(jù)自動(dòng)進(jìn)電腦[N];中國(guó)計(jì)算機(jī)報(bào);2007年
2 江蘇 羅松林;Word 2000表格中的計(jì)算方法[N];中國(guó)電腦教育報(bào);2001年
3 本報(bào)記者 張智江;中外管理軟件大比拼[N];通信信息報(bào);2003年
4 河北 劉勇;Help Me[N];電腦報(bào);2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 史廣順;文檔圖像中表格結(jié)構(gòu)的自動(dòng)定位與分析[D];南開(kāi)大學(xué);2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉華西;基于眾包的網(wǎng)絡(luò)表格語(yǔ)義恢復(fù)[D];北京交通大學(xué);2016年
2 曹貞興;Web表格數(shù)據(jù)提取與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
3 王小鳳;表格數(shù)據(jù)的采集和處理[D];蘇州大學(xué);2002年
4 羅靜;互聯(lián)網(wǎng)表格數(shù)據(jù)的語(yǔ)義恢復(fù)[D];北京交通大學(xué);2014年
5 任向冉;網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)與標(biāo)識(shí)[D];北京交通大學(xué);2015年
6 任紅偉;網(wǎng)絡(luò)表格間的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)[D];北京交通大學(xué);2015年
7 潘小燕;半結(jié)構(gòu)化文本中的表格信息抽取技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2007年
8 司明;表格識(shí)別的研究[D];西安科技大學(xué);2009年
9 唐皓瑾;一種面向PDF文件的表格數(shù)據(jù)抽取方法的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
10 張伯;基于PDF文字流的表格識(shí)別技術(shù)的研究[D];北京工業(yè)大學(xué);2010年
本文編號(hào):661017
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/661017.html