文檔共享網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-08-02 15:55
【摘要】:自本世紀(jì)以來,互聯(lián)網(wǎng)已經(jīng)成為了人們獲取知識(shí)、信息的主要途徑。個(gè)人、企業(yè)、國(guó)家機(jī)構(gòu),都在利用互聯(lián)網(wǎng)、計(jì)算機(jī)軟件系統(tǒng)等信息技術(shù)改變生活、改善生產(chǎn)活動(dòng)。社會(huì)各行各業(yè)的信息化已成為不可阻擋的趨勢(shì)。文檔共享網(wǎng)站為網(wǎng)民們提供了在線查詢?yōu)g覽文檔、上傳分享文檔的信息平臺(tái),這使得技術(shù)成果、應(yīng)用文檔、小說作品得文檔內(nèi)容都可以便捷得交流,方便了人們的生活,促進(jìn)了文化的交流。國(guó)內(nèi)的文檔共享網(wǎng)站起源于2007年,經(jīng)過十年的發(fā)展,目前已經(jīng)有了數(shù)量龐大但服務(wù)質(zhì)量參差不齊的文檔共享網(wǎng)站。較大且專業(yè)的網(wǎng)站平臺(tái)積累了大量的在線用戶和海量文檔、圖書信息,而較小的網(wǎng)站的技術(shù)依然停留在提供在WEB2.0技術(shù)初期,提供的文檔質(zhì)量差、服務(wù)類別單一。本文圍繞智能WEB理念,基于自然語言處理、信息檢索、文本挖掘等理論技術(shù),設(shè)計(jì)實(shí)現(xiàn)了一個(gè)小型文檔共享網(wǎng)站,并且該網(wǎng)站易于運(yùn)營(yíng)、落地。而該文檔共享網(wǎng)站可以對(duì)用戶提供高質(zhì)量的文檔,使文檔查找更為準(zhǔn)確便捷、用戶粘性更大。其中,網(wǎng)站運(yùn)用文本分類、聚類技術(shù)使得網(wǎng)站的文本類別展示更為合理;運(yùn)用多模式匹配技術(shù)過濾文檔中色情、反動(dòng)、暴力的內(nèi)容以提高文檔的整體質(zhì)量;結(jié)合聚類和LDA語義主題提取技術(shù),設(shè)計(jì)了基于主題內(nèi)容的文檔推薦系統(tǒng),主動(dòng)向用戶推薦其感興趣的文檔;運(yùn)用全文檢索技術(shù),設(shè)計(jì)了豐富的文檔查詢功能,使用戶可以更準(zhǔn)確、快捷的獲取文檔。最后,將各子系統(tǒng)綜合起來,完成了文檔共享網(wǎng)站的實(shí)現(xiàn)、部署。文本還對(duì)網(wǎng)站進(jìn)行了測(cè)試,包括網(wǎng)頁的展示、文檔查詢、文檔推薦功能的使用測(cè)試?梢娫摼W(wǎng)站對(duì)比原有小型文檔共享網(wǎng)站所提供的服務(wù)質(zhì)量有明顯的提高,為其他小型網(wǎng)站的升級(jí)起到了示范作用。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP393.092
【圖文】:
圖 2-1 K 臨近示例圖值為 3,則觀察綠色圓點(diǎn)的最近的 3 個(gè)鄰居是 2 個(gè)紅計(jì)算各顏色形狀的個(gè)數(shù),判定綠色的這個(gè)待分類點(diǎn)K 取值為 5,則觀察綠色圓點(diǎn)的左近的 5 個(gè)鄰居是 2方形,計(jì)算各顏色形狀的個(gè)數(shù),判定綠色的這個(gè)待。要對(duì)某個(gè)實(shí)例判定類別時(shí),可以依據(jù)統(tǒng)計(jì)學(xué)的理論它所在空間周圍鄰居的權(quán)重,而把它歸為(或分配)到 近鄰算法的核心思想。詢的基本方法,a)范圍查詢,即給定查詢點(diǎn)和查詢利查找所有與查詢點(diǎn)距離在閾值之內(nèi)的數(shù)據(jù);b) K 近數(shù) K,從數(shù)據(jù)模型中找到距離查詢點(diǎn)最近的 K 個(gè)數(shù)是最近鄰查詢。示方法,K 近鄰模型的特征空間一般是 N 維向量空間
圖 3-7 實(shí)體關(guān)系 ER 圖3.10 本章小結(jié)本章主要介紹了系統(tǒng)的主要模塊,首先從系統(tǒng)概要設(shè)計(jì),并闡述了其特點(diǎn),然后是 LDA 模型,這是一種成熟的概率生成模型,之后是文檔共享網(wǎng)站最為重要的一部分文檔推薦系統(tǒng),最后是多模型匹配,這些模塊我分別從主要方案思路,算法步驟,系統(tǒng)性能分析三個(gè)方面對(duì)上述的算法構(gòu)建做了詳細(xì)的描述,并對(duì)其中的一些進(jìn)行了舉例說明。
第五章 文檔共享網(wǎng)站的測(cè)試文檔預(yù)覽的功能測(cè)試包括多種文檔類型的預(yù)覽測(cè)試、預(yù)覽展示的相應(yīng)速度測(cè)。經(jīng)測(cè)試,網(wǎng)站可以預(yù)覽文檔類型包括微軟 office、金山 WPS、PDF 文檔的預(yù),并且保留源文檔的展示方式,而文件預(yù)覽的相應(yīng)時(shí)間在 1s 鐘以內(nèi)。如圖 5-1 為文件名查詢結(jié)果展示頁。
本文編號(hào):2778738
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP393.092
【圖文】:
圖 2-1 K 臨近示例圖值為 3,則觀察綠色圓點(diǎn)的最近的 3 個(gè)鄰居是 2 個(gè)紅計(jì)算各顏色形狀的個(gè)數(shù),判定綠色的這個(gè)待分類點(diǎn)K 取值為 5,則觀察綠色圓點(diǎn)的左近的 5 個(gè)鄰居是 2方形,計(jì)算各顏色形狀的個(gè)數(shù),判定綠色的這個(gè)待。要對(duì)某個(gè)實(shí)例判定類別時(shí),可以依據(jù)統(tǒng)計(jì)學(xué)的理論它所在空間周圍鄰居的權(quán)重,而把它歸為(或分配)到 近鄰算法的核心思想。詢的基本方法,a)范圍查詢,即給定查詢點(diǎn)和查詢利查找所有與查詢點(diǎn)距離在閾值之內(nèi)的數(shù)據(jù);b) K 近數(shù) K,從數(shù)據(jù)模型中找到距離查詢點(diǎn)最近的 K 個(gè)數(shù)是最近鄰查詢。示方法,K 近鄰模型的特征空間一般是 N 維向量空間
圖 3-7 實(shí)體關(guān)系 ER 圖3.10 本章小結(jié)本章主要介紹了系統(tǒng)的主要模塊,首先從系統(tǒng)概要設(shè)計(jì),并闡述了其特點(diǎn),然后是 LDA 模型,這是一種成熟的概率生成模型,之后是文檔共享網(wǎng)站最為重要的一部分文檔推薦系統(tǒng),最后是多模型匹配,這些模塊我分別從主要方案思路,算法步驟,系統(tǒng)性能分析三個(gè)方面對(duì)上述的算法構(gòu)建做了詳細(xì)的描述,并對(duì)其中的一些進(jìn)行了舉例說明。
第五章 文檔共享網(wǎng)站的測(cè)試文檔預(yù)覽的功能測(cè)試包括多種文檔類型的預(yù)覽測(cè)試、預(yù)覽展示的相應(yīng)速度測(cè)。經(jīng)測(cè)試,網(wǎng)站可以預(yù)覽文檔類型包括微軟 office、金山 WPS、PDF 文檔的預(yù),并且保留源文檔的展示方式,而文件預(yù)覽的相應(yīng)時(shí)間在 1s 鐘以內(nèi)。如圖 5-1 為文件名查詢結(jié)果展示頁。
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 祝婷;秦春秀;馬曉悅;李祖海;;基于本體與LDA主題模型的文本資源推薦方法研究[J];情報(bào)雜志;2015年11期
2 原玉嬌;羅森林;林萌;潘麗敏;;融合句義結(jié)構(gòu)模型的短文本推薦算法研究[J];信息安全研究;2015年01期
3 段準(zhǔn);劉功申;;基于TextRank的用戶模板構(gòu)建方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年10期
4 聶凱;;一種新的基于用戶的協(xié)作過濾推薦算法[J];物流科技;2006年09期
5 曹毅;賀衛(wèi)紅;;基于向量空間模型的信息安全過濾系統(tǒng)[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年02期
6 王斌;許洪波;王申;;基于結(jié)構(gòu)特征的nBayes雙層過濾模型[J];計(jì)算機(jī)應(yīng)用;2006年01期
7 馬文斌,王慶;Web內(nèi)容過濾實(shí)現(xiàn)方法的研究[J];計(jì)算機(jī)工程;2004年S1期
8 宋華,戴一奇;一種用于內(nèi)容過濾和檢測(cè)的快速多關(guān)鍵詞識(shí)別算法[J];計(jì)算機(jī)研究與發(fā)展;2004年06期
9 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學(xué)報(bào);2004年01期
本文編號(hào):2778738
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2778738.html
最近更新
教材專著