深度报道
您所在位置:首页 > 走进SNAI > 新闻中心 > 深度报道
【SNAI课堂】全日制《机器学习》课程侧记
日期:2020-12-14

(撰稿:张硕静,摄影:刘荣光)随着大数据和人工智能时代的到来,机器学习的算法和思想已经深入渗透到信息处理领域的方方面面。在未来的十年内,掌握基础的机器学习理论和方法,可能是每一位受过高等教育的人士的基本要求之一。

《机器学习》这门课程主要针对机器学习这个领域,重点介绍了机器学习中的核心算法和理论,旨在帮助大数据与会计专业及有兴趣了解机器学习相关知识的其他专业同学,通过理论学习掌握机器学习中的经典理论,了解当前最新发展,并学会针对各自学科的具体问题设计算法。具体要求学生掌握线性回归、逻辑回归、模型选择、模型收缩、决策树等内容。同时,课程规划了一系列编程训练,提高同学们应用机器学习解决实际问题的能力。

本课程的主讲教师为复旦大学数据科学学院助理教授林晓蕾老师。林晓蕾老师本科毕业于中山大学,研究生就读于美国爱荷华大学,后就读于芝加哥大学,在Donald Hedeker博士的监督指导下,与2018年获得生物统计学博士学位。研究兴趣包括生物统计学、密集纵向数据的统计方法以及聚类和纵向数据的统计学习

在林晓蕾老师的指导下,短短四天我们便对机器学习有了初步的理解与认知,并且能够独立地使用机器学习来解决一些实际问题。这可能仅仅只是机器学习这个庞然大物的冰山一角,却让我们这些有志于向会计大数据方向发展的同学获益匪浅。

林老师的课程总是通过列举日常生活中的例子来使我们更加清晰地了解这个模型的适用范围,最典型的便是用预测房价来讲解线性回归以及用判断违约来讲解逻辑回归。

线性回归模型——房价预测

线性回归是一种主要的实证工具,它通过对一个或多个自变量因变量之间关系进行建模,来预测诸如消费支出、存货投资、劳动力需求、劳动力供给等等现实的问题。

在上课过程中,林晓蕾老师为我们提供了一个已经清洗过的房价数据集,变量主要有房价、房屋面积、卧室数量、洗手间数量、是否为单楼层等等。我们将房价这一变量作为因变量,其他变量作为自变量,通过构建线性回归模型来分析它们之间的关系。

首先我们对数据进行了描述性分析,发现了房屋面积这个变量与房价有显著相关性,且大致呈现线性相关趋势(如图1),因此我们选取这个变量和房价建立线性回归模型,所用代码及运行结果如下:

上述的运行结果表明该地区的房价与房屋单位面积呈正相关,即在其他条件相同的情况下,随着房屋面积的增大,房价越来越高,具体的模型为:

逻辑回归模型——违约判断

线性回归主要用来预测呈线性相关的变量之间的关系,但生活中我们更多遇到的其实是选择题,例如有没有生病、会不会违约等等,这时候便是采用逻辑回归的时候。逻辑回归虽然被称为回归,但其实际上是分类模型,我们可以利用大量数据构建逻辑回归模型,并根据这个模型,判断之后是否会发生某种情况、发生某种情况的的概率有多大等等。

在上课过程中,我们使用了某银行的客户数据集,通过分析客户的基础信息、收入指标和额度指标等来判断这名用户欠款概率有多高,从而进一步判断是否应该通过他的贷款申请。

我们通过简要的分析发现一个人欠款概率与他的信用卡额度之间存在显著相关性(如图2),在此基础上我们进一步建模得到了这两个变量之间的逻辑回归模型,代码及运行结果如下:

上述的运行结果表明在其他条件相同的情况下,额度越高,欠款的概率就越大,具体的模型为:


大数据时代下,各行各业对数据分析的需求都在持续增加,会计行业也是如此。通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力,而大数据时代的机器学习更是强调“学习本身是手段"。在林晓蕾老师的带领下,我们学会了如何基于机器学习对数据进行分析、如何更高效地利用信息。以具体问题入手学习方法,再将方法运用实际解决更多问题,相信每位同学都在这样生动有趣、简单明了的课堂上收获颇丰。




微信
  • 上海国家会计学院
    微信二维码
  • 财政部
    微信二维码
微博