深度报道
您所在位置:首页 > 走进SNAI > 新闻中心 > 深度报道
【SNAI课堂】让数据说话——全日制《数量分析方法》课程侧记
日期:2020-12-14

(撰稿:朱瑞祺,摄影:刘荣光)数据是当今讨论关注的热点,购物、旅游、娱乐……我们的每一项活动和行为都会产生数据,不少企业和个人通过分析数据发现事物之间的潜在关系,利用数据在行业之中率先占领高地获取利润。面对这庞大而混杂的数据,我们往往知道这其中蕴藏价值却无从下手,幸而遇到《数量分析方法》这门课程,带领我们了解数据、分析数据、利用数据。

《数量分析方法》重点讲述统计方法在财务会计、财务管理、金融、税收领域的应用,同时涉及统计方法在其他社会科学,如法律、医学、社会学等领域的应用。与想象中枯燥的学习不同,郑德渊老师通过案例讲述和一些操作演示生动形象的向我们讲述数量分析方法的原理、模型、检验方法等,而赵春光老师主要负责实践方面,教我们如何真正的处理数据,如何运用软件和模型得到结果。两位老师的教学各有侧重,但同样的丰富精彩,同样的让人受益匪浅。

一、从认识数据到了解数据

在郑德渊老师的讲解下,我们系统的认识到不同类型、不同结构的数据,它们有着不同的含义和用途,需要经过不同的处理,以及描述统计、相关分析、区间估计、假设检验、回归分析、事件研究法等一系列研究方法。

按照数据类型,数据分为定类型、定序型、定距型和定比型四种类型——定类数据的值只能把研究对象分类,例如性别区分为男性和女性;定序数据能把研究的对象排列高低和大小,例如工厂大小可以分为大、中、小;定距数据除了包括定序数据的特征以为还能确切测量同一类别各个案高低、大小次序之间的距离,具有加与减的数学特质,例如摄氏温度40℃比30℃高10℃;定比变量除了具有定距变量的特征外,还具有一个真正的零点,具有乘与除的数学特质,例如年龄和收入。

按照数据结构可以分为截面数据、时序数据和面板数据。截面数据是指由同一时期、不同个体的一个或多个统计指标所组成的数据,强调同一时期,也被称为静态数据;时序数据指不同时期,同一个体的一个或多个统计指标组成的数据集,强调不同时期并且严格按照时间顺序排序,可以用来分析事物的发展变化规律;面板数据是前两者的结合,指在不同时期、不同个体的一个或多个统计指标做成的数据集,具有个体和时间两个维度。

常用的描述分析方法包括均值、方差和标准差、极大值和极小值、中位数和四分位数,利用这些数据可以看出数据的分布状况以及极端值,以便在后续的数据处理中排除极端值或是更好的将数据分组。

不同的研究目标需要选择不同的数据,具体举例来说,学者DaronAcemoglu等在研究收入水平与民主水平时选择的是截面数据(如图1),学者Richard H. Thaler等在股票反转效应的研究中选择的是时序数据(如图2),学者Conghui HuWei Xiong对于商品期货价格的作用研究则采用面板数据(如图3)。


 二、从了解数据到分析数据

对数据和分析方法理论有了解之后,在实践中运用才是最重要的目标,在郑德渊老师和赵春光老师的教导下,我们自己寻找数据、分析数据、得出结论,下面以研究上市公司高层管理者的薪资报酬情况为例。

我们知道,不同公司的高管所得报酬不同,从十几万到几百万几千万,这除了与公司的盈利状况有关之外受其他因素的影响——行业、企业类型、企业存续时间、高管学历、高管性别……通过对数据的分析,我们能够看到高管薪资报酬受哪些因素影响,受影响的范围有多大。

    (一)  描述性统计——全方位了解数据

描述性统计一般包括均值、中位数、四分位数、方差、标准差、极大值和极小值等,在进行数据分析的初期进行描述性统计,能够更加直观、全面的了解数据情况,为数据进一步处理和分组等操作提供了基础。

我们选用A股上市公司2016171819年四年的相关数据,对报告期高管报酬总额进行描述统计,结果如图4,可以看到共有11163个有效数据,平均年薪61.28万元,最低年薪8.17万元,最高年薪1661.74万元,可以看到最高报酬和最低报酬差距较大,为了之后数据分析得到较为一般普遍的结论我们需要将极端值处理,这里我们选择将1%以下的数据和99%以上的数据删除。同时,可以采用图表这种更直观的方法来观测数据(如图5),通过直方图和正态分布曲线可以看到报酬额处于30万到40万之间的高管最多。

    

除此之外,可以对数据进行分组分类统计,通过“比较均值”选项,分析不同学历背景下高管的薪酬状况(如退6),其中1为中专及中专以下,2为大专,3为本科,4为研究生,5为博士生,6为其他,7MBA,从这张表中可以简单看出学历越高,高管的平均薪酬越高。同样按照性别分类统计高管薪酬情况(如图7)其中1为男性,2为女性,我们可以得到较为简单的结论男性高管比女性高管人数更多,平均薪酬更高。

 

但是,在我们所进行的统计研究中仅仅得到这样的结果是不够的,我们需要知道那些因素与高管的报酬总额有关,在多大程度上有关,能够怎样影响报酬总额,这就需要进行假设检验和回归分析了。

 

(二)  假设检验和回归分析

报告期报酬总额作为因变量,将高管性别、年龄、学历、roe(净资产收益率)、diqu(企业所在地区)、age(企业存续时间)、cont(企业实际控制人)、size(企业规模)作为自变量进行线性回归分析。从下列图7的结果中可以看到线性回归的常数项即截距为-18.768,高管的报酬总额与年龄负相关,相关系数为-2.2113,与年龄、学历、企业净资产收益率、企业规模等正相关,其中高管学历的相关系数最大为13.188,同理也可以对其他科目进行分析。

 

除此之外,我们还有许多其他模型能够对数据进行分析,例如T检验、Logistic回归等,正如两位老师所强调的“只要你有灵感与好奇心,模型、方法、软件都会帮你实现”。

 

三、从分析数据到分析问题

软件和模型分析所得到的结果并不是研究的所有目的和终点,筛选数据与建立模型的的过程中我们一步步抽丝剥茧,一步步分类细化,一点点建立假设和推翻假设,在这个过程中我们思考为什么研究这个问题,为什么选择这个数据和指标,为什么要把这个数据进行处理,为什么要把这些数据进行关联……比我们所学到的数量分析方法和软件模型使用方法更为重要的是我们对于一个问题或现象发生之后的好奇与探索。

感谢两位老师一个学期以来的辛勤付出与耐心指导,这门课程所学将会在未来的学习和工作中为我们带来良多益处,也感谢所有同学12节课以来的认真听讲与课后练习,正是这样良好的氛围促使这门课程更加生动更加精进。

 




微信
  • 上海国家会计学院
    微信二维码
  • 财政部
    微信二维码
微博