超越數據洪流:第四研究范式下的社會科學研究數據基礎設施
發(fā)布時間:2021-09-01 03:42
在信息技術快速發(fā)展的背景下,科學研究信息化和科學數據的結合推動了科學研究第四范式——數據密集型科學發(fā)現的產生,并促進科研數據管理進入一體化、共通共用的發(fā)展階段。但是,社會科學研究的信息化(e-Social Science)與社會科學科研數據管理卻未引起學界太多的關注,存在理論研究和經驗總結的滯后性。為更好地推動社會科學研究范式的轉型,借鑒自然科學研究信息化和科研數據基礎設施發(fā)展經驗,本文界定了社會科學科研數據基礎設施的概念與內涵,并在此基礎上提出社會科學研究與數據管理組合生命周期模型和社會科學科研數據基礎設施框架模型,并對上述兩個模型框架實施需要的保障條件進行了簡要論述。
【文章來源】:學海. 2019,(03)北大核心CSSCI
【文章頁數】:7 頁
【部分圖文】:
基于eSS的科研與數據組合生命周期模型
社會實驗平臺;數據應用層,則提供接入或反饋社會問題的操作界面。由于社會科學研究對象的復雜性,以及大數據環(huán)境下學科融合的發(fā)展趨勢。使得社會科學數據來源具有多元性的特征,既有傳統(tǒng)社會科學研究所使用的文本(文獻)數據、也有各類智能終端或傳感器產生的時空大數據、行為大數據和屬性大數據。各類數據存儲在異構多源環(huán)境中,要對其進行識別和采集,就需要對數據源進行甄別和管理。在eSS環(huán)境和面向知識的社會科學研究,擬通過構建研究問題的大數據知識源聚合網絡進行解決。通過研究問題(對象)的領域本體,構建數據采集的信息參照集,從而覆蓋與之相關的所有數據源,便于根據研究設計制定線上線下結合、大數據與小數據結合、多類型數據聚合的數據管理計劃。因為數據海量異構的特征,社會科學研究數據采集層較為復雜,并且呈現出種類繁多、碎片化和多變化特點。數據采集涉及調查問卷數據、文獻(文本)數據、智能終端數據、傳感器數據、空間大數據、社會媒體及UGC數據等,這是由于數據來源與存儲的差異性造成的。數據采集需要根據研究設計和數據管理計劃進行,不同來源的數據其存儲、調配、傳輸以及用途需要差別對待。如網絡社交媒體數據,既可以短期存儲在研究團體或機構知識庫中,也可以存儲于更大范圍的數據檔案館或數字圖書館中,其用途可以用以驗證因果假設,也可以用以計算、仿真,發(fā)現相關性。同時,數據采集層需要多種設備與工具的組合應用,要注意數據的互操作性、信任性以及數據獲取的成本(可獲得性)。數據分析層則為社會科學研究提供分析方法、仿真工具和實驗平臺,統(tǒng)計分析、數據挖掘、內容分析、
本文編號:3376218
【文章來源】:學海. 2019,(03)北大核心CSSCI
【文章頁數】:7 頁
【部分圖文】:
基于eSS的科研與數據組合生命周期模型
社會實驗平臺;數據應用層,則提供接入或反饋社會問題的操作界面。由于社會科學研究對象的復雜性,以及大數據環(huán)境下學科融合的發(fā)展趨勢。使得社會科學數據來源具有多元性的特征,既有傳統(tǒng)社會科學研究所使用的文本(文獻)數據、也有各類智能終端或傳感器產生的時空大數據、行為大數據和屬性大數據。各類數據存儲在異構多源環(huán)境中,要對其進行識別和采集,就需要對數據源進行甄別和管理。在eSS環(huán)境和面向知識的社會科學研究,擬通過構建研究問題的大數據知識源聚合網絡進行解決。通過研究問題(對象)的領域本體,構建數據采集的信息參照集,從而覆蓋與之相關的所有數據源,便于根據研究設計制定線上線下結合、大數據與小數據結合、多類型數據聚合的數據管理計劃。因為數據海量異構的特征,社會科學研究數據采集層較為復雜,并且呈現出種類繁多、碎片化和多變化特點。數據采集涉及調查問卷數據、文獻(文本)數據、智能終端數據、傳感器數據、空間大數據、社會媒體及UGC數據等,這是由于數據來源與存儲的差異性造成的。數據采集需要根據研究設計和數據管理計劃進行,不同來源的數據其存儲、調配、傳輸以及用途需要差別對待。如網絡社交媒體數據,既可以短期存儲在研究團體或機構知識庫中,也可以存儲于更大范圍的數據檔案館或數字圖書館中,其用途可以用以驗證因果假設,也可以用以計算、仿真,發(fā)現相關性。同時,數據采集層需要多種設備與工具的組合應用,要注意數據的互操作性、信任性以及數據獲取的成本(可獲得性)。數據分析層則為社會科學研究提供分析方法、仿真工具和實驗平臺,統(tǒng)計分析、數據挖掘、內容分析、
本文編號:3376218
本文鏈接:http://sikaile.net/shekelunwen/shgj/3376218.html
教材專著