2021年10月22日,為順應數字經濟發展,強化同學們的數據挖掘與處理能力,産業經濟系組織了學習分享會,由2021級博士生張文英同學為“商業大數據分析專業”的同學們帶來了一場精彩報告,李景華教授、葛建華教授等出席。


張文英開篇明義,首先簡要介紹了大數據技術發展的三個動力源:計算、存儲、智能。雲計算提供了雲存儲中心和分布式處理,一方面降低了存儲成本,一方面提供了強大的計算能力。雲計算對于大數據具有很強的支撐作用,從某種觀點來說,沒有雲計算技術,就不會有大數據的被分析和利用。随後,張文英形象的講到,雲計算是互聯網大腦的中樞神經系統,大數據是互聯網智慧和意識産生的基礎,人工智能使得機器擁有理解數據的能力。
緊接着,張文英給大家講解了數據采集方法,如代碼現實爬蟲抓取數據、商業爬蟲工具、數據平台公開API接口和網絡爬蟲技術及步驟。現場為大家示範了用pathon爬蟲代碼,如何抓取天氣預報頁面的數據進行分析,還舉例講解了商業爬蟲工具,如八爪魚等。
接下來,張文英講解了數據分析。有監督學習的代表工具有決策樹與随機森林等。張文英特别舉例說明了決策樹最主要的問題點是“這棵樹怎麼長”,即如何計算有效的信息熵,介紹了ID3算法,C4.5算法,CART算法。随後張文英介紹了無監督學習,主要是聚類分析與關聯規則,聚類分析中介紹了基于神經元網絡的SOM算法,并以自己的一篇論文為例,為了大家展示了文本挖掘的應用。
最後,李景華、葛建華老師對大數據與經濟學研究方法的變革做了歸納,鼓勵同學們相互學習、奮發向上,努力提高運用大數據及其工具進行學術研究的能力。
這次學習分享會,使同學們對大數據分析有了更多感性認識,收獲頗豐。
文、圖/商業大數據分析專業2020級碩士研究生:趙豪