日本游

近半年来,做了6次飞机,标准配置都是传说中的豪华航线emirates的高级舱,很多细节确实考虑的很周全,比挤经济舱舒服多了,虽然价位高些,不过也是值得。人生不就应该吃美味的食物,坐舒服的航班,住豪华的酒店,和漂亮的女生一起去美丽的地方吗?

大阪篇:

飞机直飞关西国际机场,确实不大的机场,取了上网的设备,有很多说汉语的研习生可以提供咨询,取了火车线路图,各种火车,jr混着一起,让第一次去的人很困惑。入住的酒店就在大阪城边上,当年丰臣秀吉就是从这里统一日本,而他的子辈们也是在这里被德川家康在夏之战中打败而开始了历史上的幕府时代。

远处白色的建筑就是大阪城的天守阁。残念石就在那边。同学笑说我住的房好大,考虑到日本的居住面积,哈哈,我想说没见过世面:-)

晚上出去吃饭,感受了一下日本人的细节,每个桌子上都有个平板电脑点菜,自动就传到厨房,另外宇哥小按钮,不会有很多人大叫“翠花,买单”,比较方便。

20161020_140627

一夜无话,只是时差不好倒,很早就醒了,继续赞一下阿联球航空,给了个小包裹,适合旅游用!

20161020_232436

从酒店遥望大阪城,居然看的不如晚上清晰,哎!

酒店的泳池,说实话不是太敢恭维,不过第一次去,不计较那么多了,出发直奔天守阁。

有城墙,有护城河,我绿树,有大门,还有极乐桥(这个名字和残念石是我最喜欢的大阪2个名字了)

 

发表在 未分类 | 发表评论

数据监管

by zz

欧洲新的通用数据保护监管将于2018年实施。将对信用评分,保险风险评估,推荐系统,计算广告和社交网络有很大影响。现今很多标准和常用的算法都见需要重新更新。它从以前指导性的原则变成了强制性的法律。它的主要影响: 1)限制了所有对自然人能产生重要影响的完全基于自动(没有人工介入的)处理(保护概要分析)的决定,除非法律授权认可。2)禁止自动处理基于个人信息的特别属性类别除非恰当的措施保护用户的权利,自由,和合法利益。3)禁止任何利用任何特别属性会导致对自然人歧视对待的概要分析。

注意到这里是在假定用户的个人数据是合法获得的基础上,对这些数据的处理做出的规定。

不过从一定程度上说利用计算的概要分析来分配资源就是歧视。大数据号称是中立的,可惜实际上不是,因为数据来自社会,社会本身包含不公,排斥等。而且机器学习将这些存在的歧视模式具体化(如果歧视存在于数据中,那么算法将学到这些模式),这样客观的算法也会产生偏见的决定。

对于第2点的特别属性类别是指一些敏感信息,比如种族,财政情况等,但是移除这些数据不够,比如特地区域有低收入或少数群体居住,这样用地区来决定放贷自然会产生效果上和种族,收入一样的结果。更广泛的解读是敏感信息也包含其他属性和敏感信息相关联。对于小数据,我们可能可以发现这些相关性。然而对于大数据,情况就很复杂和不那么明显,比如上网时间和收入的相关性,非常可能存在在大数据中从而导致歧视的效果(对不起,凌晨3点上网的人,我知道你们的收入通常很低,风险大,不能借钱给你)。德勤有个报告发现用购买历史可以发现买人生保险的申请者的健康情况,准确性可以和医疗检测相比。所以有了大数据,这个发现于敏感信息关联的其他特征的要求很不有效,而且不可行。

另外一个重点是用户有权知道对结果的解释,一般的监督学习主要是发现数据间的相关性来预测未知数据,大多数模型不考虑统计意义上的因果性,相关性指告诉我们为了事情同时发生的概率,但是不能告诉我们为什么发生。我们常常把神经网络,支持向量机当成一个黑匣子,监管往往要求我们提高算法的透明度(我们logic glue的朋友这方面做的不错),透明度的阻力有时在公司不想把自己的核心东西被公开调查,提供一些代码也往往不够,而且在机器学习高维度特征空间的数学优化和人类一般只能在低维度做推导解释的不匹配。

我们往往需要在模型的代表能力和解释能力间取得平衡。非参数模型,组合模型,深度神经网络都很困难做到透明。

这些国内做互联网金融的大可不必担心,隐私,歧视在国内不是特别大的问题,但是如果偶尔有1,2家公司打算走出国门的话,这些需要注意一下。

我们正在邀请牛津大学统计系的Seth同学就此做个微型讲座,有问题欢迎提出啦。

发表在 未分类 | 发表评论

密码保护:Implemetation of classification algorithms in R

这是一篇受密码保护的文章,您需要提供访问密码:

发表在 未分类

密码保护:Nice list of RNN and LSTM

这是一篇受密码保护的文章,您需要提供访问密码:

发表在 未分类

密码保护:小贷公司

这是一篇受密码保护的文章,您需要提供访问密码:

发表在 未分类

P2P Lending

by – zheng zhu

zheng.zhu.city@outlook.com

2015-01-04

2015年是中国互联网金融发展迅速的一年,宜人贷在Lending Club纽约交易所上市1年后与12月18日登陆纽交所,2015年的成交量突破一万亿,同时我们也看到了很多问题,这一年近1000家p2p平台跑路,市场上良莠不齐,需要监管机构加强管理。p2p监管细则(征求意见稿)也于12月28日问世,提供了一个指导思想(也有业内人士指出定位于信息中介无法让风控能力强大的平台获得差异化,往往会形成几家独大的垄断局面),我们要遵循方针,保持自己的判断。

我们部门的业务策略是运用互联网数据和技术经营平台,打造特色产品,增强线上获客能力,发展场景消费金融,加快交易规模增长速度,积累数据验证风险模型,逐步实现风控模型自动审批。根据我自身在这个行业的一些经验,我提出一下一些想法。

一. 平台的核心 – 信任

互联网金融业务主要分为小额借贷,p2p平台,众筹等。其中p2p平台提够了信息中介的功能。满足借贷双方对资金的需求。P2p由于其利用相对简单的商业模式降低了交易费用:他们通常不需要严格的预留金要求,不受相对严格的银行业监管(比如巴塞尔协议)。他们利用在线平台进行业务,而大部分业务可以自动运行而不需要人工干预。而传统的银行业,运行成本是银行利润的重要因素之一。比如富国银行运营成本开支比率是Lending Club的的2倍多。[1]

p2p的一个问题是信息的借贷双方的信息不对称。贷款人不能准确的掌握借款人的可信度,这将导致不利的判断风险。所以对p2p平台,如何建立一个信任机制是关键,这不仅包括贷款者对借款人的信任,跟包括了p2p平台的信任。

信任是p2p的核心,我们的业务可以从市场营销,风险控制来实现这个目标。

二. 工作计划

市场推广

在借款人一端,目前国内大部分p2p公司主要依靠线下获客,而在英美国家,往往都是线上线下相互结合。市场的推广中采用了很多不同的模型。比如给中小企业提供资金的p2p平台,就采用了response model来发掘潜在的客户。对于线上市场的推广,我认为有一下几点。

简单来说,线上客户获得的流程包含一下部分:

  1. 信息的感知,给在线用户以印象(impression)。
  2. 用户对感知到信息的进一步发掘。
  3. 用户对产品的考虑,比较。
  4. 用户转换为顾客。
  5. 维持与顾客的良好关系
  6. 保持顾客。

[2]

市场推广方式

  1. SEO(搜索引擎的优化),包括对关键字的研究和优化(关键字需求曲线的长尾,趋势,周期性的影响等等),可检索的内容,优化信息架构,用各种标签,文字来对关键字的优化,创建内容吸引外部链接,利用网站目录,社交媒体等获得链接。[3]
  2. 联盟营销(Affiliate Marketing)。[4]

帮助用户发掘价值

在传递了印象后,对潜在的客户我们需要进一步的描述业务。

  1. 利用社交平台加大与用户的联系,比如微博,微信,博客,脸谱(facebook),推特加强和用户的互动,并可以及时了解用户的要求,同时也扩大自己的软实力。
  2. p2p是一个很好的题材,每个成功的交易背后都有一个的故事,适当的介绍这些故事可以让更多的用户了解信任平台。
  3. 在线调研。

市场推广影响的研究

一般而言,用户不是马上成为我们的顾客,从用户感知产品的第一个接触点到最终的转换为顾客,往往是需要经过多个渠道的影响,市场的分析研究可以发掘对用户最优化的接触点。

常用方式为

  1. 最简单的回归分析(regression analysis)。
  2. 倾向评分匹配模型(propensity modelling,推特利用其做A/Btest)。
  3. 相对复杂的归因模型,归因模型分析用户的第一次接触点,最终转换成用户前的最后一次接触点,以及中间的助攻接触点等多个渠道,它能够帮助我们更客观的评估各个渠道的贡献,优化资源的分配,指导我们的市场策略。归因模型有很多第3方工具可以实现,比如谷歌分析,webtrends。

有观点认为随着数字营销成为业务产品,技术应用,用户体验,社交媒体交互,金融风险管理的中央枢纽[5],市场管理职能将愈发重要。

在线风控

风险控制是互联网金融的核心问题。由于互联网金融中借款人和贷款人是在线上实现交易的,他们并不会真正的见面,所以对用户的验证,对他银行账号的交叉验证对预防反欺诈显的尤为重要。更重要的问题是用户的信用风险,由于国内的信用记录覆盖率,数据质量等原因,我们必须采用有新意的数据来建立信用模型。

数据

在线风控最核心的就是相对可靠的数据,传统的央行的信用数据,据说改数据已覆盖8.7亿自然人,但其中有实际征信记录的只有3.2亿人,占全国总人口的23.7%。国内可以接入央行征信中心的机构只有银行,持牌照的第三方征信服务商以及部分小贷公司。央行发了8张征信牌照,芝麻信用等其他提供征信业务的机构。国外对个人的信用(另一个是企业信用记录)常用的一些特征包括个人在同一地址的借贷情况,破产记录和法院裁决(County Court Judgement),失业率,债务构成,个人信息被查询次数等。

另外用户自己提交的数据,在线行为数据(用户从哪里来,也就是source of referral,在一定时间里访问网站次数,逗留页面的时间,申请递交时间,申请用时),历史上的借贷数据(比如以前申请被拒绝比例),用户提供的第3方数据(社交,电信[6]等),以及平台收集的第3方数据(常用的有iovation[7])。

数据的收集,整理,存储,清理,并转化成容易消费的形式是p2p平台的基础。一些p2p平台利用了cassandra等NoSQL平台,利用大数据运算平台(spark)和机器学习的技术,发掘潜在的模式。我个人认为p2p平台更应该属于解决融资问题的科技公司,而不仅仅是金融公司。充分利用大数据的同事,也要注意大数据可能有的偏差,所以对数据的收集要谨慎。大数据包含通常认为包含一下几个特征,怎么构造数据模型架构对分析利用数据非常重要。关于通过大数据实现以客户为中心的讨论,参见[8]

[9]

模型框架

审核贷前检查:全方位对用户是否符合贷款条件的检查,例如年龄,是否在各类黑名单中,是否已有贷款(live loan),姓名和身份是否符合,是否死亡,lending club检查用户的信用评分(FICO)并过滤低FICO分数的用户,通常这个包含数十到数百个检查。

审核数据处理过程:理解数据的可靠性和质量,处理缺失数据,离群数值等,以及选择偏差(reject inference)。

审核打分系统:打分系统传统上是用银行业的scorecard技术,也就是逻辑回归,外加证据权重(weight of evidence),特征选择一般采取前向/后向逐步选择的技术,这主要是由于监管机构的要求模型易于诠释。实际中如果我们希望能准确的模型,一些先进的机器学习技术可以被应用进来,比如lasso regression, 支持向量机,随机森林,梯度提升树,以及整体学习演算法(super learner),很多算法已经包含了特征选择,优化不同的偏差-方差均衡(bias-variance tradeoff),过适应(overfitting)是主要防止的问题,常用的方法是(分层)交叉验证模型的效果,通常采用接受者操作特征曲线(roc)和曲线下面积(auc)来衡量性能。对系统稳定度报告,检查用户特性的迁移(psi)。

审核打分系统的阀值选择:可结合收益损失率(结合roc曲线)生成优化阀值。

贷后管理:

国内贷后管理主要作用和意义是了解客户,拓展客户渠道,及时发现和化解风险。

贷后管理一些常用的风险预警信号,比如第一类缺乏合作诚意(不易联系,不提够资料,不配合检查)。 第二类是现金流异常。第三类是外部评价不佳,包括同业内对授信客户评价,上下游合作伙伴对授信客户评价和客户邻里,朋友对其评价。第四类是不稳定因素。第五类是产生纠纷。第六类是财务信息虚假,财务指标异常。第七类是客户资金链紧张。第八类是担保条件弱化。第九类是主营业务出现问题。第十类是管理混乱。

贷后检查可按不同类型的客户,不同类型的贷款,不同的贷款条件和贷款处的不同时期来制定不同的管理方案和侧重点。

贷后检查的基本办法:询问高管,财务人员和普通工作人员。审核贷款用途,合同履行情况,近期合同,订单情况,财务报表,水电费情况。抽查抵押物,财务报表数据抽查,企业生产的情况抽查。观察高管神情面貌,企业员工面貌,工作状态,经营材所。

国外用一些行为模型来进行预测,可以分为静态的行为模型和动态行为模型。静态行为模型与之前的风控模型类似。比较有趣的是动态模型:在工业界常见的有2大类, 1. 生存模型。2.马科夫转移模型。

生存模型是一个可靠性的模型,很自然的模拟违约过程并能把在观察期间没有违约的信息考虑进来(censor)。比较常用的是Cox proportional hazards模型。我们可以预测每个贷款的生存概率(不违约的概率),利用这个信息我们可以和用户及时沟通,预防或者减少损失。

通常的特征可以分为时间不相关特征和与时间相关特征。时间不相关特征可以有收入(log), 和银行一起的年龄,银行卡数目,在当前地址的居住时间,职业,年龄,信用分数。和时间相关特征包含付款状态,当前余额(log),信用额度(log),逾期月数,逾期数目(log),交易的次数,交易的金额(log)等等。根据国情,生存模型可以采用之前提到的贷后检查的其他信息。

生存模型可以结合到借款的净现值计算中。

马科夫转移模型通常在集合的层面上做利润损失分析,不过我们实际中也可以把行为数据结合到状态空间,或者对不同的用户集做不同的转移模型。

数学工具的发展和丰富,计算机存储能力和运算能力的迅速提升,大数据和信用库等的诞生,风险控制数学模型的建立将会不断逼近客户信用的真实信息,但企图完全依赖线上的运算而对客户进行授信和防范风险在可预见的未来也是不现实的,线上线下的互动依然是风险控制的常态,数学家和计算机科学家能做的就是不断降低银行风控成本,并使人力资源成本在风控总成本中的比重不断降低,并尽可能缩短贷审时间,方便容户。

报表

在整个流程中,我们需要产生日常的报表(dashboard),这对了解系统的健康状况,用户的特征,业务的情况起着重要的作用。

  1. 我们需要定义关键性能指标(KPI),比如申请率,通过率,违约率,并有和上一周期的比较和去年同一时期的比较。
  2. 代码系统,对于每个节点用户申请被拒绝,都赋予特定的代码,每日对各个不同代码的出现率监控。

三. 建议

  1. 加大与国内(当地)互联网公司的合作。
  2. 加强与学术界的联系。
  3. 加深与国内外同行间的交流。

四. 开放的问题:

  1. 对于一个以盈利为目的的企业,我们可以考虑利润模型(违约概率和奖励)[10].
  2. 考虑用户的顾客生涯价值(customer lifetime value),这对市场,风控都有指导意义。
  3. 大多数的机器学习算法(特别是深度学习)都是数据饥渴的算法,类似于婴儿的学习,可以有只需要少量数据就可以训练出好的模型的算法,类似成人学习[11].
  4. 机器学习的高利率分析[12]

附件:FICO

FICO模型在欧美国家银行中得到广泛应用,Lending Club也用FICO来滤除不良用户。FICO模型中用到的很多特征在我以前的打分卡中也有应用。所以有必要简单介绍一下FICO。

FICO分值是在300到850之间。一般而言,大于650分代表了有良好信用记录的用户,而小于620代表着用户将比较困难找到低利率的贷款。

image1

FICO分考虑了大量的用户数据,主要包括5大类[13]

  1. 付款记录:35% FICO分值是基于借贷人的付款历史记录,偿还过去的债务是最重要的因素,过去的长期行为被用来预测将来的长期行为。这个衡量一下:信用,在不同类型账户上的付款行为,其中包括了信用卡,零售账户,分期贷款和房贷。不良的公共记录,比如破产,被起诉,拖欠等等。拖欠付款的期限,拖欠账户的金额,自任何拖欠,不利的公共记录开始的时间跨度。信用报告中逾期未还的项目数。多少个账户同意付款。
  2. 信用的利用率:30%FICO分值是基于借贷人的信用利用率,即在有效信用额度下借贷的百分比。它由6个特征组成,未还贷款人债务金额,未偿债务的账户数量,拖欠个人账户的债务金额,借贷类型,信用额度在旋转账户的使用百分比,分期贷款的债务百分比。
  3. 信用历史的长度:15%FICO是基于每个账户开启的时间长度和自最近活跃的时间长度。FICO把信用历史的时间长度分为3类,账户被开启的时间长度,特定账户类型开启的时间长度,账户被使用的时间长度。
  4. 新的信用申请:10% FICO是基于它。其包括在过去6到12个月里新账户被开启的数量,以及在各种账户类型的比例。最近信用查询的次数。开始任何新账户的时间长度,任何信用查询的时间长度等。
  5. 信用混合:它占10%FICO分值。它代表了借贷人偿还各类贷款的能力,包含分期贷款,房贷,银行信用卡,零售信用卡,被讨债中介追讨的未付贷款,租赁等。

对于银行,除了FICO分值外,对房贷通常还考虑房屋价值稳定评分,对于p2p,我们可以考虑工作安全性评分,用来衡量用户是否会失业的分值,一般考虑行业,工作类型,雇主,工作头衔,工作经验,年龄,教育程度,技术,业内的发表文章和讲演,个人的影响度(Klout scores)等等。


[3] Eric Enge, Stephan Spencer, Rand Fishkin, Jessie Stricchiola The Art of SEO – Mastering search engine optimization

[6] Joshua Blumenstock, Gabriel Cadamuro, Robert On, Predicting poverty and wealth from mobile phone metadata, Science, 350(6264), 1073-1076

[10] Lyn C Thomas, Consumer Credit Models – Pricing, Profit, and Portfolios, Oxford university press

[11] Brenden Lake, Ruslan Salakhutdinov, Joshua Tenenbaum, Human-level concept learning through probabilistic program induction, Science, 350(6266), 1332-1338

发表在 未分类 | 发表评论

密码保护:Recurrent Neural Networks

这是一篇受密码保护的文章,您需要提供访问密码:

发表在 未分类