CCER讨论稿:文本大数据分析在经济学和金融学中的应用: 一个文献综述

发布日期:2018-11-15 03:39    来源:北京大学国家发展研究院

No.C2018013                                                           2018-11-15

沈艳 、陈赟、黄卓
北京大学国家发展研究院

 

摘要

本文对文本大数据分析在经济学和金融学中应用的文献进行综述。文本大数据具有数据来源多样化、数据量增长快和时频高的特征,能够为经济学和金融学研究提供新的信息和独特的分析视角,但是处理文本大数据存在许多挑战。我们梳理了文本大数据的信息提取步骤,总结了常用的词典法、机器学习方法和深度学习方法的实现原理和技术特点。在经济学研究领域中,文本大数据主要用于测度经济和政策不确定性、基于文本的行业动态分类、度量和预测商业周期,以及量化媒体的政治倾向等问题。在金融学研究领域,文本大数据主要用于度量投资者和媒体关注度、不同市场参与主体的情绪、基于新闻的隐含波动率以及投资者的意见分歧等指标。我们对这些应用研究的数据来源、处理方法和分析结果进行了全面的梳理。在此基础上,本文还讨论了基于文本大数据的实证分析的新特征以及未来可能的研究趋势。

关键词:文本大数据,机器学习,深度学习,不确定性,投资者情绪

JEL分类号: C42, G12, G14

讨论稿全文下载: C2018013