揭秘:芝麻信用是怎么做的
上周五,我在电脑上找到了一份文件,是芝麻信用的产品介绍。我不知道它是从哪里来的,我也不容易找到同一份文件。但既然是产品介绍,我有权将其视为公开文件。作为外行,我们来谈谈。
我显然没有做过芝麻信用,我什至没有研究过,但我做过类似的产品。这样的信用产品与消费金信用公司的A、B卡有很大的不同。这个行业懂数据和算法的人很多,但懂信用和风控的人很少。因此,我认为这种差异值得一本小书。
主要是揭示芝麻信用分是怎么做的。据说是秘密,但因为我不是幕后操作者,所以更准确的说法是推测,也可能只是猜测。
此外,华北还接入央行征信系统。我们将讨论我们消费者在使用此类产品时是否应该考虑。
关于芝麻分,官网有一段如下:
芝麻信用是一家独立的第三方信用评估机构——芝麻信用管理有限公司。互联网上的各类消费和行为数据,结合互联网金融借贷信息芝麻信用,利用云计算和机器学习等技术,通过逻辑回归、决策树、随机森林等模型算法,对各个维度的数据进行综合处理和评估。用户信用记录、行为偏好、合同履行能力、身份特征、人际关系五个维度客观地呈现了个人信用状况的综合评分。芝麻评分从350到950不等,评分越高,信用越好,对应的违约率相对较低。芝麻分越高,可以帮助用户获得更高效、更优质的服务。
01
信用衡量的是先享受后付费的能力,即让应该享受服务的人享受服务。一个应该可以。对的人不行,错的人可以,是要解决的关键问题。
想想两件事,你就会知道如何制作这样的产品。
首先,哪些信息可以衡量一个人的信用?
两个维度,一个是能力,一个是意愿。能力取决于您的财务状况以及保持平衡的稳定性水平。所以,你的就业,你的收入,你的消费,很重要,不光是现在的水平,更重要的是是否稳定。如果你来自世界各地,如果你赌毒,这对稳定性都是不利的。
衡量意愿的本质在于违约成本,这在一定程度上与收支相关,但又不一样,因为数字时代的法律约束已经变弱,多靠道德约束。这个时候,很难描述意愿,但是意愿会反映在你的信用记录中。
一个月挣10万的人让你借1万,下个月每次借钱都及时还钱的人让你借钱,你更愿意借给谁?
p>
无论您收集什么数据,它们都是表征这两个指标的工具。
第二,做信用产品的根本目的是什么?
很明显,做一个产品的目的是希望它可以尽可能的使用,但一定要尽可能的有效才能尽可能的使用?
答案是否定的。
企业做信用评分,取悦用户,但要为需要查看评分的商家付费。让用户满意的是,你应该关注几乎所有用户的几乎所有方面的需求,而不仅仅是大多数用户的大部分需求,否则客户的投诉可能会让你的产品不可持续。企业应该考虑面向用户的可解释性,而商家则不需要。
商家付费意味着公司需要的是越来越多的商家打来的电话,目前还不够,但长远来说足够了,商家需要的是效果,效果是更准确,从长远来看不会更多。两者的利益并不完全平等。
这意味着通过凭经验选择涵盖所有维度的变量并保持它们绝对可解释来构建这样的模型,而不是仅仅选择具有高度区分性的变量。前者是芝麻信用这样的产品视角,后者是A/B/C/F卡的视角。
你说应该在企业内部使用,最好不要越有效?
企业不仅仅使用这个工具。
02
让我们关注芝麻信用的数据变量。
本数据变量服务共包含65个变量,按照芝麻信用评分维度(一级分类)和DAS变量类别(二级分类)分类如下:
@ >
如前所述,我相信您对这五个维度一点也不感到惊讶。身份特征和履约能力体现“接受”,行为特征体现“费用”,信用记录体现意愿,人脉也体现违约成本。
图中变量的数量基本反映了这些类别的重要性。信用记录通常是最重要的,其次是业绩。
把同样的10000元借给下个月每次按时还款的人,比借给月入100000元的人更可靠。
这 65 个变量进一步分为 8 个核心变量和 57 个基础变量。
这些变量的分割逻辑,根据文档,是根据DAS变量在全线上的数值分布,考虑好用户和坏用户的区分程度,将DAS变量分割成最多15个段。芝麻用户数量。 段号01-15代表变量值从小到大排列的顺序。
我们详细看一下这8个核心变量,后面总结57个基本变量。
在身份特征项中,更核心的变量是稳定性指标,而不是职业信息。一方面,一般很难获得准确的职业信息;另一方面,您工作的公司和职业需要分类为主要类别。没有直接关系。无论是消费信用还是信用生活,还款能力的表征根本不需要提升到专业,但稳定性指标更重要。
第三方支付的核心在于深度和广度。在行为特征中,活跃支付场景的数量就是这种广度的一个很好的例子。支付金额和资产的维度体现在以下性能能力上。
绩效能力选择一种资产、一种支出和一种消费水平。资产和支出不用多说,消费水平的意义在于,只有生活必需品的消费和对精神物品的强烈需求才代表了不同的水平。
在信用记录中,更多关注的是信用还款而不是逾期。我推测有两个原因。一是还款信息丰富度高。有许多。其次,正面信息在用户可见的产品中更加友好。不仅可以在一定程度上起到与负面信息相近的效果,而且相对关系的负分与正增长相差不大,还可以激励用户更频繁、高利率地借贷和还款。
其余47个基本变量排序如下。
除了选取的指标值得学习外,时间窗口也值得关注。另外揭秘:芝麻信用是怎么做的,很明显,这些变量很多都是相关的,会不会都用在芝麻分里?它们如何结合起来获得芝麻信用评分?
当然是按重量组合的。
如何获得重量?
“通过综合考虑DAS变量在芝麻全用户量上的数值分布来分割好用户和坏用户”,由于变量的分组是基于好用户和坏用户的区分,专业名词是WOE,变量的组合当然是通过对好用户和坏用户建模得到的。
但是,这些变量(高度相关的变量)会被记分卡过滤掉。一个有效的模型不可能使用所有这些变量,即使他们这样做了,我怀疑其中的许多变量被人为地赋予了无害的权重。
请注意,这是一份 DAS 可变数据服务文档,不称为芝麻信用评分产品介绍。我推测芝麻信用评分的关键是这8个核心变量。我说的是关键,并不是说57个基本变量根本不用。
此外,芝麻分作为面向用户的产品,还具有营销激励的作用。除了模型计算,最终的芝麻分还应该有其他的链接来增加或减少分数设置。
03
花呗将全面融入央行征信系统。用户在使用花北时需要注意哪些问题?
征信与个人信用有关。花杯是当代人提前度过的好助手。当他们一拍即合时,消费者应该怎么想?
我不谈责任和义务,但我觉得不得不说几句话。
目前央行收集的自然人约有11亿人,其中有信用数据的不到一半。我们消费金业务的应用率略高,在60%左右。也就是说,绝大多数人的信用数据信息相对较少,也就是那些简单的身份信息,没有金融信用数据。
传统的信用评价模型是根据一个人的贷款历史和还款情况,通过逻辑回归的方式判断这个人的信用状况。现在越来越多的大数据模型涌现,其数据来源非常广泛,包括电子商务、社交网络、搜索和浏览等产生大量数据的行为。
那么,很明显,华北接入央行征信对各大平台来说是有很大好处的,因为用户的信用评价比较好,所以对用户不好,对吧?毛呢?
不会,对用户影响不大,但要注意养成按时还款的习惯。
华北对征信的补充主要影响两点:贷款数量增加,逾期信息增加。
至于风控策略,即信用评价,借款次数影响不大,借款次数只有一个机构。一般不认为是不良行为,主要是逾期、逾期等。不良行为很容易被风控拒绝,偶尔逾期其实也不算太糟糕。银行征信中有一句话叫“三连六”,即连续三个逾期期,两年内共逾期六次。这是严重的违约行为。但最好不要迟到。
所以,你可以照常使用,养成按时还款的习惯。
我首先是消费者,然后是消费黄金行业的从业者。我的立场始终是消费者。我这么说的一个原因是,我对个人信息保护法出台的第一感觉是它是好的,不是坏的。
04
我还是要声明,上面提到的很多事情,我都没有取证,也懒得请朋友们确认一下,我们有时会注意做事的原则和原则。精华就够了。至于一个实例的所有细节,没有太大的研究价值。就像结构工程师盖房子一样,真的不需要知道在建筑物的立面上要做什么装饰。这可能只是某些人的要求。
另外,在这篇文章中,我提到了这几个信用分数,包括芝麻信用分数、微信支付分数和小白承诺分数。以下陈述来自那篇文章。
无论是天猫淘宝京东的消费揭秘:芝麻信用是怎么做的,还是花呗白条支付的海量交易数据,都可以用来评估一个人的还款能力和还款意愿。结合马斯洛的需求理论,即生理、安全、情感、自尊、自我实现依次升级,能够反映更高层次需求的数据可以被赋予更高的权重。也就是说,重要的不是单一的购买行为,而是消费习惯。
对于那些店铺商户来说,平台有他们所有的交易、资金、物流信息,可以作为金融服务的依据。
你控制了一个人的关系,你也控制了那个人。社会关系链,不仅可以用来评价信用,还可以直接作为抵押品,因为大家都关心,关心。
我在知乎上搜索这个话题时芝麻信用,发现有很多问题在问如何提高芝麻分。也说点什么。
如果您想提高分数,请考虑这些核心变量。还值得注意的是,这些变量都是时间窗口和分段的,你的动作在一段时间内被拉平,你需要在分段之后跳跃才能对结果产生影响。这使得分数难以提高,同时也是预防索引造假的科学方法。
本文最初由@雷帅发表于人人都是产品经理。未经允许禁止转载
题图来自Unsplash,基于CC0协议
给作者打赏,鼓励TA抓紧创作!
欣赏
评论前必须登录!
注册