社会经济调查数据分析——2016年秋季学期双学位课程介绍

发布日期:2016-07-21 11:03    来源:北京大学国家发展研究院

 

Social Science Survey Data Analysis

社会经济调查数据分析

2016年秋季

北京大学国家发展研究院

 

 

任课教员: 宋泽 赵耀辉                                  

上课时间、地点:周五:第十一、十二节(19:40-21:30)理教306

周六:第九、十节(17:40-19:30)理教306

答疑时间:TBA

助教:刘雪媛

 

先修课:社会经济调查理论方法与实践或者参加CHARLS实地调研

学分:4

 

课程介绍

 

本课是为完成了中国健康与养老追踪调查的访员同学开设。通过培训课程和实地调研,学生们已经熟悉了调查数据收集的过程,获得了关于老百姓如何生活、工作、如何与家人和社会交往的一手材料。本课将教会学生如何利用这些数据开展研究工作、撰写研究论文。具体来说,学生将学习如何使用Stata统计软件处理数据,如何制作描述性的统计表格,如何进行比较复杂的统计分析,以及如何使用数据写作研究论文。

 

本课基于一个理念,即研究论文的写作是一个可以分解的过程,本课课程的安排就是遵循了研究的过程,循序渐进,这就要求同学们紧密跟随课程的步骤,每周完成布置的作业,这样到期末的时候学期论文将水到渠成。

 

本课成绩比例为:作业50%,期末论文50%。

 

 

参考书:

Donald Treiman, 《量化数据分析,通过社会研究检验想法》,任强译,社会科学文献出版社,2009

 

Jeffery Wooldridge, Introductory Econometrics: A Modern Approach. 特别是最后一章 “Carrying out an empirical project.”

 

课程安排(初步版,可能根据情况进行调整):

课次      

时间

题目

1

9月16日

课程介绍:什么是研究;如何选题;研究程序。注册下载CHARLS基线数据

2

9月17日

如何查文献;如何组织文档;如何组织stata codes;stata基本操作

3

9月23日

数据库合并:保留研究所用数据和变量;数据库改变形状

 

 

作业1:(1)选取研究题目;(2)写一个研究简介;(3)列文献

4

9月24日

变量分类;变量描述(histogram;pie charts;描述性统计)

5

10月8日

数据清理:如何识别、处理outlier;

 

 

作业2:(1)做一个表格,描写CHARLS所有数据库的变量数量、观测值数量;(2)结合你的研究目标写一段描写CHARLS数据的文字;(3)清理你研究所需要的变量;(4)生成一个只包含你研究所需要变量的数据库,做一个统计描述表格,写一段文字来描述变量特征;(5)作图描述你研究中的关键变量,写一段文字描述发现的变量特征;(6)按照研究论文的格式,把所有工作整合为一个word文档,包括题目作者页、摘要页、文献页,包含所有的标题,提交。

6

10月14日

重新构造变量:变量重新分类;连续变量变分类变量;高阶变量构造

7

10月15日

研究要素:理论假说;讨论研究计划

8

10月21日

描述两个连续变量之间的关系:scatter plots,lowess graphs;相关系数表。制作二维表格表示分类变量之间的关系,或者分类变量与连续变量之间的关系

 

 

作业3:(1)定义你的结果变量(Y)、原因变量(X),并且提出你的理论假说;(2)构造你需要的变量;(3)用图和(或者)表格描述Y和X变量的相关关系,把结果写入论文;(3)在论文中用重新定义的变量跑程序,更新论文中的图表、数字;(4)在论文中增加理论框架部分,补充变量描述部分,提交修改过的研究论文。【如果题目有变动,补充上在新题目下的所有内容。】

9

10月22日

描述三个变量之间的关系:画图;制作三维表格

10

10月28日

检验假说:组间均值、分布是否相同

11

10月29日

如何写论文?如何引用文献?如何写文章的介绍、总结、摘要; 学习Note Express

 

 

作业4:(1)分类(如性别、城乡等,根据研究需要)表现你的表格,写一段文字描述这个关系,补充到论文中;(2)进行假说检验,检验不同类别(如性别、城乡或其它根据你的研究需要做的分类)之间的Y变量、X变量是否相等,Y*X是否相等,文字补充进论文中;(3)在论文中加入研究结果部分;(4)用endnotes重新组织文献;(5)重新提交论文。

12

11月4日

最小二乘法回归基础 - 单变量回归:基础概念;假说检验

13

11月5日

最小二乘法回归基础 – 多变量回归:系数的含义,分类变量用法,交叉项用法和含义

 

 

作业5:(1)运行Y对X的单变量回归,解释各个统计量的含义,并且检验系数是否为零;(2)在Y对X的回归中依次加入一些你研究需要的哑变量(如性别等),性别与X的交叉项;(3)写一段文字描述你的结果,包括解释各个系数的含义,放入论文的结果部分;(4)重新提交论文。

14

11月11日

回归模型变种:probit,ordered probit,mlogit, Tobit, duration model

15

11月12日

缺失变量的识别和处理:数据库制作过程表;imputation

 

 

作业6:(1)在论文中研究方法部分,写下你研究所需要的回归模型,写一段文字描述模型构造、变量含义;(2)如果更换了回归模型,更新回归表格;(2)制作与你研究相关的数据库生成过程表,impute除X以外的控制变量;(3)在此基础上重新跑结果,更新图表和文字;修改描写数据、回归结果的文字;(4)重新提交论文。

16

11月18日

判别作用渠道 – 分步加入渠道变量

17

11月19日

解释回归结果:什么是因果关系?处理内生性的方法概述:IV;DID

 

 

作业7:(1)写论文的介绍、结论部分;(2)重新写摘要;(3)在你的研究中加入渠道变量,并且写一段文字进行表述;(3)重新提交论文。

18

11月25日

Panel data处理介绍

19

11月26日

权重的概念,统计量加权

 

 

作业8:(1)将你的描述性统计表格做加权处理;(2)更新论文;分组报告论文;老师点评

20

12月2日

如何自动生成表格?如何组织研究结果?

21

12月3日

分组报告论文;老师点评

 

 

作业9:(1)用自动生成excel表格的办法重新跑程序;(2)提交自动生成的excel表格、stata codes。(3)重新提交论文

22

12月9日

分组报告论文;老师点评

23

12月10日

分组报告论文;老师点评

24

12月16日

分组报告论文;老师点评

25

12月17日

分组报告论文;老师点评

 

 

12月31日交期末论文