如下是速记文稿,可能有些拼写错误,大家见谅。PPT见前一篇博文。

大家好,我叫侯松,来自宜信大数据创新中心。题目叫解密姨搜,基于数据的风控系统和应用。我为什么没用大数据这个词?其实大数据和数据技术本身不是天然分开的,只是有更先进的技术实现,但它基本上原理是一致的。

今天主要分享五个方面,首先说一下我们是谁,我们在做什么。第二个是基于数据如何做风控,说一下我对风控的理解,数据技术和风控之间有什么关系。第三个是风控系统的建设,如何把数据的各种技术落实下来,能实际的在产品中进行应用。第四个是两个典型应用案例。第五是我对大数据风控的未来的一些想法。

第一,我们是谁。

我们来自宜信,对金融和互联网金融的都清楚,宜信有超十年的稳健经营历史,去年还是世界上最大的P2P金融公司之一,今年应该也是,但我还没有看到具体数字。

姨搜在做什么呢?我们为整个宜信公司提供风控各种基础的数据服务和模型服务,里面包括各种各样的产品,各种各样的技术。这里有风控搜索引擎,还有决策引擎,离线分析建模平台等。

我本人来宜信有两年多时间,来了以后一直在做姨搜的产品。目前主要负责技术,产品也代管比较多的方面,协助各个产品线和业务提升风控的水平。

第二,基于数据如何做风控。 对风控的理解是什么样子的?数据的技术和风控之间用什么方式结合是最有效的?

首先,个人信贷业务,像其他大额借贷或者消费金融是类似的原理,但具体实现的细节可能会有所不同。 另外什么数据是有用的数据,这个会稍微花时间跟大家讲。 第三点是风险,个人借款风险的原因。 第四点是我们怎么利用数据来预测借款风险。

首先是信贷产品一般的组成部分,越靠上越靠近产品,越往下越偏技术和实施。大概可以分成五个部分,产品设计、市场营销、风控策略、客户管理、客户服务。风控是比较核心的地位,保证了产品最核心的资产的价值,但是它并不是一个独立的,虽然我们这次分享是偏风控,但是它和前面和后面都有非常紧密的联系。产品设计和市场营销决定什么人进来,人群又决定我们用什么样的风控策略,有什么风控策略我们还需要把风控策略的结果或者逻辑简要地和客户进行沟通。风控策略最主要的部分就是中间的预测模型,它来自于我们对数据分析之后的理解,对数据对平台的理解。模型在运行过程中我们还要持续对结果进行观测。刚才说了数据的分析、检测和执行都需要基础的数据系统来对它进行支持,数据系统里面的数据源又包括很多种数据源。

什么样的数据是有用的数据?数据大家都理解,我们可以观察或者记录下来的其实都是数据。我们现在对数据的处理能力非常强大,我们可以用APP记录用户的各种行为,可以用各种爬虫或者各种信息抓淘宝或者信用卡的消费记录,甚至可以给用户拍照,做人脸识别或者做字迹对比。所以数据不只是数字或者结构化的表格,也可也是更丰富的非结构化的数据,视频、录音等等,很多很多。

数据收集方式分两种,一种是被动收集,一种是主动收集。被动收集是这样,我们一个借款人,他把资料交给我们,这些都是被动的数据,我们并没有进行任何干预。主动收集又分为两类,一类是我们看到借款人信息,还需要从各个数据源主动找和借款人相关的数据,他可能没有提供上来,这些有各种各样渠道的数据可以丰富他的借款信息。第二类,产品运行过程中我们需要不断尝试新的客群。但是如果把风控放开我们就需要进行很多实验,而实验就需要我们主动放出来一批“高风险”的客户。但是高风险可能不是真正的高风险,可能是被现有模型误杀的。这个对产品其实是非常重要的,这种风控的实验其实需要持续不断的进行。这里面肯定会有成本的,这需要大家根据自己的实验目的和自己的产品的成本来进行一些预判。

数据有不同的价值,这个怎么理解?产品会用到各种社交数据,比如说微博发了什么东西,这个数据有没有用?是有用的,但是用处有多大需要大家多想想。比如社交数据和信用卡记录,这两者对比哪个更重要?大家都明白信用卡更重要。如果你没有信用卡数据只有社交数据那没办法,但是我们需要拓宽自己的视野寻找更多更新的更有效的数据源。同时每一种数据源其实都有成本,如果说成本小于它的价值,那可能这不是特别好的方向。具体价值是多少还是需要很多的实验来支持你的结论。

个人借款风险,我们知道风险来自于哪才能尝试用数据找到风险。风险包括欺诈风险和信用风险。欺诈风险又分为第三方欺诈和主动赖帐。信用风险包括财务收入、支出管理、不良嗜好。比如说赌博成瘾,这对人的信用风险比较大。这几种风险会进行这样一种划分,第三方欺诈有伪冒申请和组团骗贷,这种我们其实有很多方法可以识别,比如伪冒申请可以用多要素鉴权等等很多技术做到。组团骗贷可以用社交网络的聚团的分析等。除了第三方欺诈其他的都是和人自身的特性和行为习惯是有关的。比如对承诺特别重视的人,就不会倾向于赖帐,善于规划的人可能支出上不会大手大脚,对生活有积极态度的人可能就不会有各种不良嗜好。如果用数据找到对应的行为模式,对这个人的风险就会有比较好的把握。

以上的行为模式怎么判断?我们需要通过数据尝试找出这个人的风险点在哪。刚才提到我这里说的主要是个人信贷,个人信贷有一个特点就是它是数量非常多,申请特别多,非常分散,什么人群都有,额度也非常小,期限多。这个特点就决定我们可以用统计模型对这部分人进行分析。同时信贷的特点也决定我们必须要用统计模型进行分析,因为每一个借款额度都特别小,从每个借款人获得的利润很小,我们只有用统计模型才能把成本降下来。

第二点可能是大家没有太想到过的,就是因果关系和相关性之间哪个更重要。一般从人性来讲看到一个事情的时候往往会倾向于寻找因果关系,但是不是所有事情都是有因果关系的。举个例子之前发生过的,在美国有一个信贷公司发现一个规律,借款人额度越大逾期概率越小,这之间没有因果关系?有的话是哪个方向?之前有人会提到这样一个观点,把所有人的额度都提出上,是不是逾期率就会下降?其实这个人就犯了一个把因果关系没有分清楚的错误。再说个我前一段时间也听到一个例子。在美国如果开车通过一个小镇,这个小镇是否安全,你是否应该停下来修整一下?对一个新到这里的人来说,小镇犯罪率他是不知道的。之前很多科研人员做了各种各样的研究,结论是ATM机的数量和小镇的犯罪率是有非常强的相关性的。解释是有很多的,但是不管是什么解释,来到一个小镇,是否决定要停下来可以简单的看看小镇的ATM机的数量。类比个人信贷其实是类似的,我们可以尝试去找各种各样的解释,各种各样的原因来证明借款人的资质良好。但是如果我们有一些指标,就好比ATM机的数量,我们就可以非常明显地知道这个人逾期率非常低。大家可以想一下,确实比较早的银行的业务对因果关系也是比较看重的,但是额度越来越小的个人信贷具体是什么样的逻辑,大家心里可以有一个考量。

数据整理、数据整合和数据特性。数据是有各种各样的来源和类型的,我们需要把数据进行整理,整理之后进行整合,把数据结合到一起,才能看出数据之间的关联关系和它的具体价值。举个例子,我们有客户的通话记录和申请表里提供的联系人,我们单独看一个数据可能没有太大价值,但是如果我们放在一起就能发现之前没有的规律。如果说申请表里的联系人是之前从来没有通过话,但是最近两天突然通话数量特别多,那就有可能是中介参与。我们可以通过数据融合才能看出这种规律,各种数据放在一起才有1+1大于2的作用。

定性的了解数据之后,我们还需要定量的分析才能得出具体的风控策略。一般情况下我们是无法直接用裸数据的,需要拼装出合适的特征变量才能制作模型。比如说信用卡,信用卡的每一条记录有时间、地点、金额。这些数据不太好直接使用,我们需要进行一些梳理,把它加工成变量。变量有两种类型,可以是特别简单的比如交易的品类、时间段、地点和频次等,这都是一些从原始数据的特征。然后还可以有简单特征变量的组合,比如在深夜购买游戏点卡的金额和频次。到底哪些特征变量是有用的,目前来看没有特别理想的方式。更多时候是与大家对一个数据的理解和认识有关的。怎样从裸数据建立出特征变量,是需要主观判断的。主观判断并不是说想怎么写都行,还是有一些判断标准的:建立在主观认识之上应该做到更加客观、更加全面。一般来说这个都需要长时间的积累才会对数据有比较好的sense。

最后就可以建立模型应用,比如各种复杂的机器学习算法,你也可以进行各种各样混合的使用。如果有很好的件大变量和复杂见谅,用不同类型的算法都会得到比较好的效果。

第三,风控系统的建设。 刚才说了很多对风控体系,对数据的应用的理解和整个系统的理解。我们怎么把这些理论应用到实践中呢?简单介绍一下我们姨搜在做的事情,我们做事的逻辑。首先看一下我们的总体结构,然后讲一下三个比较主要的部分。

总体结构:三种划分,三个系统。数据整合的系统,我们必须要有数据才能有各种各样的应用。具体数据的使用有两个,一个是分析平台,把数据拿到这里来分析,跑有各种类型的实验,设置实验的模型,然后判断它的好坏。用户可以把表现好的模型推给决策执行。决策引擎会实际把模型跑出来,数据的来源就来源于数据整合的系统,由产品来调用。 我们这套系统是有三个类别用户,第一个是数据挖掘科学家,他们理解数据是什么样子,它可以在平台上执行各种分析的任务,还可以引入比较新的数据挖掘的算法。第二个是风险政策人员,他们可能并不是特别懂技术,但是他们特别懂产品和风控细节。在我们的系统里面它可以使用到分析平台,就是数据挖掘科学家给他们提供好的风险模型模板。用这些模板跑各种实验,然后他可以选择其中比较好的直接运行或者说进行各种测试、灰度发布等,也可以由政策人员手动来调整。第三个是贷款产品的开发人员,他们会用到政策人员制定出的模型。他们要做的就是通过数据来调决策引擎,然后把引擎得到的结果理解出来反馈给其他系统,是需要放款、拒贷,需要提供材料的等。同时他们还需要把数据和贷后的还款记录发给数据整合系统,这样就可以形成一个完整的循环。这样可以给宜信的决策提供非常好的技术支持。

下面说一下三个系统组件各是什么样子,这里比较技术化。

数据整合:这个里面讲的是数据使用的大概的结构。我们的系统是以知识图谱的形式来管理数据的,而知识图谱基于语义网的概念。有很多人不太理解或者知道这个东西但不知道什么含义。它是数据整合的形式,一这是比较早期的一个概念了。比如说一个人或者说一个公司,一个房产,都是大的网络中的一个点,而这个点有各种各样的属性,比如人有姓名,公司可以有银行流水,房子可以有房子的价格。点与点有关联关系,一个人可以工作在一个公司,同时说拥有某一个房产。当然不只是这三个概念(人、公司和房产),有很多其他的概念,成百上千个。这样的组织形式特别灵活,又有足够的表达能力,它可以把各种各样数据放在一起做连接,然后放在里面又能保持它们之前的特性,同时还可以与其他的数据源进行整合的分析和管理。 除此之外还会有简单的推理。比如说父子关系,我们知道数据中有两个关系,A是B的父亲,B是C的父亲,可以得出A是C的爷爷这样的结论。 接下来看一下系统组成,最中间的是数据的存储,是一个图数据库。数据有几个来源,可以用公网或者其他的网站上抓取各种各样数据,数据抓下来进行解析和抽取结构数据,然后可以放在数据库里。另外一种是上面的数据库,我们有各种的ETL工具把数据库都导成结构性的,然后放到数据库里面。 还有我们合作的第三方数据,把第三方数据整合到数据库里面。主要是这三个比较大的来源。除此之外还可以用户可以给我们发各种实时数据、消息。接下来是数据使用,可以看到有三个方面,一个是右上角可以是一些Restful接口,右边第二个我们是做了一个查询引擎,这个查询引擎可以进行实时查询,也可以进行离线分析。这是第一部分,数据的整合部分,我们可以把数据放在一起,接下来才可以使用。

决策引擎:它把我们的决策执行跑出来。左侧是用户的进件数据,包括身份证号、手机号、地址之类的信息。中间的部分是决策执行时候的一些逻辑,对裸数据我们会查询各种数据源进行丰富,比如说通过他的手机号查到他之前有没有在我们公司贷过款,表现怎么样。在这些丰富后的数据上可以执行特征变量的提取操作,然后执行简单的规则集合,也可以跑各种复杂的模型。我们把模型和规则的结果保存下来,进行统一报表展现,这样起到了模型监控的功能。对于一个模型不是写完了放上去就可以了,而是需要长期不间断的监控。这一块是监控的出口,决策引擎是用户导向的,我们有很多的管理页面,这一块可以由技术人员来写各种代码,也可以由分析技术写一些简单代码进行一些值的调整和管理。这是我们的决策引擎。

分析平台:就是执行各种实验,尝试找到我们的潜在风险的系统。我把它分成两层,第一层是逻辑层,是用户定义实验和流程展现。下面是执行层,就是如何把用户定义的实验实际执行出来。这边是比较技术化了,这边显示了一个最简单的实验。首先读数据,数据放在一起,数据整合系统(知识图谱)里面的数据读出来以后会过滤,因为绝大部分时候我们并不需要所有的数据,只需要特定的,比如年龄、地点等等。然后进行特征的计算。像之前的信用卡的例子,可以看到各个场景、时间、地点的消费情况。算出来特征之后就会进行简单的分析,最后对实验提出的结果进行一些可视化演示。下面大家不用太关心,因为执行可以有不同种类的执行引擎。

第四,应用案例。 我们花了这么多精力做了这么复杂的系统应该怎么用?怎么发挥它的作用?这里说两个比较简单的应用案例。 第一个是小额短期的借贷场景,第二个是审核流程的拆分创新。这两个案例在我们公司里面都是两个真实的产品,并不是我虚构出来的。

小额短期接待场景:一个是短期小额借贷,这个产品的特点就是额度特别小,一千或者两三千。它的期限特别短,只有30天或者半个月,或者更短的是一周。然后时效性强,有时甚至是一个小时以内就需要钱,过了一两个小时可能就不要了。他就是临时想起来买一个东西,但是过一段时间理性又回来了不想买了。虽然我们不鼓励这种冲动消费,但是真的需要的话我们也无法避免。

对信审流程的要求:首先必须是全自动的,有人工干预成本控制不好,而且时效性也不会强。我们只有尽量节省成本才能降低用户的资金成本。第二他提供的资料肯定有限,因为时间很短,他不太可能把各种资料都提供齐全。第三个是高效的试验环境,表现窗口期短,需要利用试验环境提高效果,非常快地迭代我们信审的政策和模型。我们还需要比较顺畅的流程反馈,因为时间特别短,我们需要及时的发现问题才能把问题及早解决掉,所以我们需要非常好的反馈,才能快速发现问题,定位出问题。如果定位出问题,就可以比较快的进入试验环境来尝试把这个问题用某一种数据源或者某种新的组合形式把这个问题解决掉。这就是信审的流程的要求。

姨搜怎么来帮助这种场景呢?姨搜有自动化的网查服务,一般我们需要人工查看网络信息,这时候我们提供自动化网查服务,不需要人工看,可以用公网爬虫抓取各种公开数据,用NLP的方法分析和提提取风险信息。有的时候通过手机号就能查出来是不是贷款中介。另外是强授权的爬虫,我们利用爬虫抓各种数据,时间短无法准备太多资料,我们可以就用强授权方法,他可以通过用户扫二维码等等就可以抓下来各种资料,抓下资料之后就可以执行风控模型。最后是利用分析平台,在分析平台里快速定位人群,可以尝试不同的特征变量与政策模板的组合,对结果进行可视化的理解。最后是决策引擎中对数据结果的详细统计分析,并支持自定义的各类报表,各指标的有效性一目了然。我们是全自动的,自动抓取各种资料,有高效的实验环境。

案例二审核流程的拆分创新:传统的做法是,收集各种资料结束后直接告诉客户是批了还是拒了。这个产品所做的事情就是把这个流程拆分开。先说什么叫拆分开。客户可以先提供手机号、身份证、银行卡号之类,我们可以进行一次审批,看审批结果什么样,如果是特别好的可能就通过了。如果说不行,还有第二步,第二步可以提供淘宝交易记录,可以用一个包含淘宝交易记录的模型再审一次,看得出来结果是什么样。还是不行的话还有其他各种类型的资料。这样可以给用户更多的选择空间,用户可以自主决定有什么资料可以用什么资料,而不是在一个合同上写好必须给我什么资料,不给我资料就不给批贷。好处有很多,首先给用户更多的选择空间,金融服务以人为本。第二点,对于优质用户可以只提供很少的资料,提升体验。第三点是更快地完成审核,他不需要各种资料都收集完才能给他结果。比如他只需要借一万块钱,如果他把资料都填齐了可以借给他十万,但是他不需要完整的资料,只要填两批资料就给了,那我看可以了就不填剩下的资料了,这样就可以提升时效性。最后一个,之前被直接拒绝的客户,现在有了更多的选择。他们可以选择提交更多的资料,因为之前资料是固定的,他的这些资料不会得到审批。但是现在我们拆分成很多,他属于资质不太好的,可以提供更多的资料来增信。那这样的信审流程对于信审系统提出什么要求呢?

对信审系统的要求:系统更易用,将有很多的审核步骤,比较繁杂,对易用性提出更高要求。第二个是更高能性,因为需要和用户有非常强的标准,我需要把时间控制在5秒或者10秒给用户反馈。第三是过程与结果的监控,因为是非常多用户的,所以对每一个步骤的方法最好是自动的监控方式,对于这些要求我们姨搜能为他们提供什么样的帮助呢?

姨搜决策引擎是支持多步骤依赖管理,在方便管理的基础上,给用户提供更多的自由度,他可以选择100或者200个步骤,这些步骤之间是有各种各样的关系,我们都可以在系统中非常简单的管理。 姨搜优化决策引擎自身性能,并整理依赖数据服务的统计信息。因为我们的是需要调取第三方的外部数据源,很多数据源是我们无法控制的。我们需要给决定流程的人员提供准确的性能信息让他们好做决策,比如一个步骤的时间不能超过5秒,那平均返回时间超过5秒的数据源就不能使用了。 姨搜做了基于Pentaho的统计系统,可以自定义出各种报表及dashboard。 系统更加易用,需要有更高性能,需要对流程过程结果进行非常详细的跟踪。

第五,大数据风控的未来。

一、由降低风险,到控制风险,再到利润最大化。对于刚进入金融领域的人都更希望降低风险,但是不是风险越低越好,我们需要把风险控制在一个范围内。风险特别低说明能进来的人特别少,说明挣的钱就少,但是进来的人多风险控制不住利润也同样会少。所以最后不是说纯粹把风险控制在某一个点,而是说需要动态调整风险来保证利润最大化。信贷的获客成本是比较大的,不同的渠道风险不一样成本也不一样,所以这样对于不同渠道或者不同来源的客户进行不同级别的风险的定义,来达到每一个渠道,或者说整体的利润都能得到最大化。

二、更加自动化、系统化和体系化,这个刚才说得比较多了。

三、对不同数据的价值的理解和使用方法进一步细化。过去几年互联网金融或者更细得说互联网借贷对各种各样的数据的使用越来越多了,接下来这个路线肯定会走下去,使用场景会进一步细化,对价值的判断会更准确。

四、数据的价值其实并不仅限于贷款中审批的管理,其实可以前移或者后移,会在获客、预审批、贷后管理、失联修复等环节起到作用。我们可以在获客的时候直接把风险特别高的客户过滤掉,也可以把数据放在贷后管理上。比如我们有借贷人在还款过程中发现他被另外一个借款公司列入黑名单了,那可能这个人风险就会特别大,然后我们进行收款或者催收的时候就会格外注意这样的人。还有失联的,这个人彻底消失了,我们是不是有数据方式可以重新把这个人找回来。这些方面其实数据的技术都可以起到非常大的作用。

我的主要分享就是这些,最后做一个广告。校招马上开始,如果大家感兴趣,或者有认识的朋友、同学都可以申请。第二个是金融产品经理招募中,如果大家感兴趣可以联系这个邮箱jianmindong@creditease.cn。