【学术讲座第八讲】邱晗:机器学习和非传统数据如何影响信用评分

2020-06-12

6月7日晚8点,北大数字金融线上学术讲座第八讲由北京大学国家发展研究院、北大数字金融中心博士生邱晗主讲《机器学习和非传统数据如何影响信用评分——来自中国某代表性金融科技公司的证据》。北京大学国家发展研究院助理教授、北大数字金融中心研究员胡佳胤主持讲座并点评论文。                      

研究背景与问题

当前,金融科技在贷款决策中发挥着越来越重要的作用,代表着金融包容性的重大进步,且有助于提高企业的表现。从信贷角度而言,金融科技的优势主要体现在两点,一是信息优势,二是模型优势。围绕这两点优势,文章主要探讨五个方面的问题。第一,是否基于机器学习的模型要比传统线性模型在预测借款人的违约或者是贷款损失上有更好的表现。第二,手机和电商平台等非传统信息源,比如社交数据和电商平台上的消费购买数据,是否能在传统信息基础上提供增益作用。第三,不同的模型在外生冲击下的表现如何。第四,金融科技模型的优势是否会随着客户和传统银行关系的改变而变化。第五,金融科技模型对宏观经济的潜在影响。

数据和模型

文章使用中国某代表性金融科技公司2017年5月-2017年9月的贷款层面数据。贷款的最长期限是24个月,还款记录持续到2018年10月。在信用卡数据等传统信息和数字应用程序或电子商务平台数据等非传统信息的基础上,通过机器学习计算出金融科技信用评分。

实证策略是分别构建Tobit模型和Logit模型。每一类模型下再分别包含三个子模型,第一种模型是基于所有信息使用金融科技信用评分,第二种模型是基于传统信息使用传统方法,第三种模型是基于所有信息使用传统方法。这样,通过二、三模型的比较就可以识别非传统信息的贡献,通过一、三模型的比较就可以识别新的模型方法的贡献。

研究发现和意义

初步的结果显示,金融科技信用评分在预测违约率和损失率上都是表现最好的,且金融科技方法的区分度更高,能够对用户进行更精准的区分。因而机器学习模型有增益的效果,对于非传统的信息可以提升模型的预测能力。而在2017年年底,中国资管新规政策的出台,对中国经济金融体系产生了一定影响,这家平台的违约率开始大幅度上升。通过不同模型间的比较,发现在有外部负面冲击的情况下,所有模型的预测能力都会降低。但是相对来看,由于使用了更多的数据,机器学习模型预测能力的下降幅度会更小,其表现要比传统模型更稳健,也能更准确地刻画借款人的行为。在平稳时期,传统数据能够发挥重要作用,但是在压力测试下的非平稳时期,非传统数据的贡献就提升了。金融科技模型也可以使用传统信息,二者相互配合可以产生一加一大于二的效果,但是随着借款人和传统银行关系的深入和强化,机器学习的增益程度体现出先增后减的特征,这可能是由于经过一段较长时期的了解,银行已经相对充分地掌握了借款人的信息,此时机器学习的增益效果就会开始下降。

研究发现表明,金融科技风控模型相对传统银行风控模型也许更加有效。大数据风控模型通过实时数据可以更精准地描述客户的行为特征,再加上机器学习的模型优势,大幅增强了金融科技风控模型预测违约率的能力,也提升了普惠金融的可能性。这一发现在对宏观经济的潜在影响上可能体现出更深层的意义。相比银行贷款,金融科技信用贷款与房价弹性之间的关系在减弱,根据美联储前主席伯南克提出的 “金融加速器”理论,这意味着金融科技可能有助于金融市场和宏观经济稳定性的提高。

点评

胡佳胤老师认为这篇文章选用全面独特的数据,通过传统数据和非传统数据、机器学习模型和传统线性模型的对比分析,在金融科技信用评估领域做出了非常重要和前沿的工作。文章的主要贡献在于评估了机器学习和非传统数据在预测违约率方面的价值,这也继承了当前金融科技领域研究前沿的文献脉络。胡佳胤老师建议,对于数据和模型背后经济学机制的分析、软硬信息在缓解信息不对称中不同作用的探究、以及数据和模型相对重要性的评估可以成为下一步的研究方向。此外,推动金融科技借贷发展的动力、数据隐私问题和金融科技借贷对传统银行理论的改变也是值得探讨的问题。

在互动环节,邱晗回答了参会听众的提问。

(整理自邱晗讲座)