首页 > 科学 > 释疑解惑

风控数据沉淀,风控数据模型不扎心

释疑解惑 2026-04-25 菜科探索 +
简介:风控数据沉淀,风控数据模型不扎心在开发模型的过程中,无论是针对传统的线性回归、逻辑回归模型,还是对于随

【菜科解读】

在开发模型的过程中,无论是针对传统的线性回归、逻辑回归模型,还是对于随机森林、GBDT、XGBoost等决策树模型,特征相关性分析是数据建模特征工程阶段一个必不可少的环节。

特征相关性分析及其变量筛选,可以有效优化模型的信息维度,并提升模型的区分能力,使模型在实际业务场景中保持较好的应用性能。

因此,特征的相关性分析是我们从事建模工作必须掌握的一项数据分析处理能力,做好这道处理工序也自然让流水化的作业稳稳的。

1、特征相关性分析

在分析样本特征变量的相关性时,针对不同取值类型的特征有不同的方法,主要分为以下几种情况:

(1)连续型与连续型:相关系数(pearson、spearman、kendall等)(2)连续型与离散型(二分类):T检验、Z检验(3)连续型与离散型(多分类):方差分析(4)离散型与离散型:卡方检验

在实际建模过程中,我们最常见的特征相关性分析情况是连续型与连续型之间,即采用perarson等相关系数来评价变量的相关程度,下面我们以具体样本数据来实现这个过程。

现有一份样本数据,包含5000条样本和16个特征,部分样例如图1所示,其中X01~X14为特征变量,Y为目标变量(取值二分类0/1)。

风控数据沉淀,风控数据模型不扎心(1)

编辑

添加图片注释,不超过 140 字(可选)

图1 样本数据

针对以上样本的特征类型情况,我们通过python语言的corr()函数来实现变量的相关性分析,并指定系数类型method ='pearson',最终输出的二维矩阵系数结果如图2所示。

其中,对角线位置的数值表示变量本身的相关系数为1,其余数值为纵向变量与横向变量之间的相关性系数,例如变量X01与X02的pearson相关性系数大小为0.783652。

风控数据沉淀,风控数据模型不扎心(2)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

图2 特征pearson系数

由上图分布结果,可以很直观的了解到变量之间的相关性情况,pearson系数绝对值越大,代表变量之间的相关性越强,正值代表正相关,负值代表负相关,pearson系数的取值范围为0~1。

从图中可见部分特征字段的相关性系数已经达到了0.9以上,如果将这些变量都保留下来进入模型拟合阶段,显然是不合理的,很有可能使模型存在较严重的共线性(线性回归、逻辑回归),或者导致模型在应用过程中容易出现较大波动等情形。

因此,对于相关性较强的变量,必须对其进行特征筛选,这是建模场景特征应用的要点,也是本文将要介绍的重点内容。

2、特征相关性筛选

在实际业务场景中,通过pearson系数来选取变量的过程,往往是通过某个阈值来进行保留和剔除。

一般情况下,当建模变量池的字段数量较多时,可以初步设置0.5作为筛选标准;

当建模变量池的字段数较少时,可以调整为0.6或0.7作为筛选标准。

因此,以0.5~0.7的某个阈值作为特征相关性选择标准最为常见,也符合信贷业务的建模需求与业务表现,具体数值也需要结合样本特征情况以及实际业务需求综合而定,但这是一个核心思路。

以图2的特征样例说明,变量X04与X05的相关性系数为0.992021,说明这两个字段的相关性很强,在某种角度理解,二者数据分布趋势基本一致,完全可以通过其中某一个字段来代替另一个字段,是不需要将其全部选入建模变量池中。

通常情况下,我们根据相关性系数分布,采用某个判断阈值例如0.7来进行特征选择,当系数大于0.7时会删除,但是当变量X04与X05之间相关性系数(0.992021)远大于0.7,虽然满足特征阈值的剔除条件,但注意不能全部将其删除。

针对这两个变量相关性程度较高的情况,我们在实际业务中往往会参考特征的其他指标来进一步分析确定最终需删除的变量,例如特征的缺失率miss、信息值IV等,现简要总结几种比较常用的实践处理方法:

(1)删除缺失率miss较高的变量;

(2)删除信息值IV较低的变量;

(3)删除稳定性PSI较大的变量;

(4)删除重要性importance较低的变量。

对于以上几种方式,方法1对模型的拟合效果不一定有效,有时特征的缺失分布情况也可以表现出较好的区分度;

而方法2~4虽然从贡献度(IV、importance)与稳定度(PSI)方面对变量池进行了合理选择,也有利于模型训练的拟合效果,但针对相关变量的指标计算也会消耗较多时间。

此外,还可以结合特征变量的其他维度指标来选取变量,例如共线性VIF、异常率outlier等,其应用逻辑与以上方法类似。

针对以上情况,本文要介绍的方法是仅针对特征相关性系数分布来展开变量筛选,也就是对于相关性系数较大的两个特征,不借助其他维度指标来进行变量删除,而是要结合当前两个特征与其他特征的相关性程度,具体实现过程如下:

(1)获取所有特征变量的相关系数矩阵;

(2)选择相关系数值最大的变量组合(例如X1与X2);

(3)算出变量X1、X2与其他所有变量{Xn}相关性系数的平均值w1、w2;

(4)比较平均相关性系数w1、w2的大小关系;

(5)当w1>w2删除X1,当w1<w2删除X2,当w1=w2删除X1或X2均可;

(6)重复步骤2~4,直到变量相关系数最大值低于预设阈值(常见0.5~0.7)。

以图2分布结果的变量组合X04与X05为例,由于二者相关性系数(0.992021)很高,需要删除其中之一。

X04与X05与其他变量之间的相关系数及其平均值结果具体如图3所示。

风控数据沉淀,风控数据模型不扎心(3)

编辑

添加图片注释,不超过 140 字(可选)

图3 特征X04与X05相关系数

从结果可知,X04与X05与其他变量的平均相关性系数分别为0.637524359、0.63713694,由于前者大于后者,说明X04相比X05在所有变量中的相关性较强,因此可以将变量X04删除。

这样在剩余的13个特征变量中,仍然选取相关性系数较高的变量组合,然后采用以上平均相关性系数分析的方法,依次实现变量的相关性筛选,直到满足剩余变量的最大相关性系数小于阈值即可。

为了自动化完成以上特征筛选过程,可以通过图4代码实现批量特征分析与处理,由于本文实例样本数据的特征相关性系数普遍较高,我们以0.8为最终相关性判断阈值。

风控数据沉淀,风控数据模型不扎心(4)

编辑

添加图片注释,不超过 140 字(可选)

图4 特征相关性筛选过程

在生成的数据del_column中,字段Value便是根据特征相关性分析需要删除的变量,具体结果如图5所示,但Value的取值并非特征变量名称,而是特征X变量对应的列索引,也就是数字0~13依次表示变量X01~X14。

风控数据沉淀,风控数据模型不扎心(5)

编辑

添加图片注释,不超过 140 字(可选)

图5 特征相关性删除变量

为了便于对待删除变量的分析与处理,我们将其列索引转换为变量名称,实现过程如图6所示,根据变量相关性筛选阈值0.8,最终需要删除的变量为X04、X13、X10、X05、X12、X07、X08共7个变量。

风控数据沉淀,风控数据模型不扎心(6)

编辑

添加图片注释,不超过 140 字(可选)

图6 样本待删除变量汇总

当然,在实际业务场景中,还可以根据特征变量与X与目标变量Y的关系,得到每个特征的信息值IV,可以对特征变量进一步筛选,从而有效保证模型变量拟合训练的综合效果,即使模型具有较好的区分度和稳定性,这也是特征相关性筛选最终需要实现的目标。

以上内容便是围绕特征相关性分析来完成特征变量筛选的介绍,这在数据建模中特征工程的数据分析环节是非常重要的,在具体实际场景中可以与特征共线性、特征重要性等其他特征处理方式相结合,以获取一个综合性能较优的模型。

为了便于大家理解本文特征相关性分析及其筛选的相关内容,本文额外附带了与实例分析同步的样本数据与python代码,详情请移至知识星球查看相关内容。

风控数据沉淀,风控数据模型不扎心(7)

趁着美国被拖入中东泥潭,深夜,俄军突然出手,把乌克兰炸成火海

俄乌战争没有受到中东局势动荡的影响,反而更加激烈。

趁着美国被拖入中东这个大泥潭,俄罗斯对乌克兰继续下狠手,根据乌克兰媒体《基辅独立报》报道,在2026年4月15日到4月16日,俄罗斯军队借着夜幕掩护,发动了大规模的空袭。

俄军对乌克兰恢复大规模空袭 这一次大规模空袭在深夜时分,基辅的空袭警报在凌晨2点35分左右才发布,几分钟后,就听到导弹落下时发出巨大爆炸声,当太阳升起时,基辅上空烟雾弥漫。

《基辅独立报》专门刊发一张照片,以展示空袭之后,基辅上空依旧有浓烟。

空袭在天亮之后,依旧继续进行,基辅上空不时响起空袭警报。

这次俄罗斯军队突然出手,对乌克兰多座城市发动大规模空袭,把乌克兰炸成火海。

乌克兰官方淡化了损失,乌克兰国家紧急情况部门仅承认,造成基辅、第聂伯罗和敖德萨至少14人死亡,91人受伤,称为,是2026年俄罗斯对乌克兰平民发动的最致命的袭击之一。

天亮了,空袭之后,基辅上空依旧有浓烟 实际损失远大于官方报告,在乌方报告仅提及平民的伤亡,只提及住宅楼等民用建筑遇袭情况,例如第聂伯罗彼得罗夫斯克州州长汉扎称,受到“大规模袭击”,但是只承认,公寓、办公室、行政大楼、一家工厂和车辆受损,压根不会提及军方的损失,也不会提及军事设施的损失。

乌克兰方面不承认损失已成传统,还虚报战果,造成乌克兰的报道越来越不信,公开发表的空袭后的现场,往往“一片狼藉”,可是在报道中提及居民区燃起大火,城市公园遇袭,借机指责俄罗斯袭击平民。

这时就会形成前后矛盾,2026年4月14日,乌克兰总统泽连斯基表示,防空导弹严重短缺,特别是美制“爱国者”防空导弹,将形势称为“情况已经非常糟糕了,不能再糟了,”可是转身之后,又是高得让人无法相信的战报。

在介绍2026年4月16日凌晨的空袭情况时,乌方宣称,俄方一共发射了19枚弹道导弹、25枚巡航导弹和659架无人机,其中8枚弹道导弹,23枚巡航导弹,636架无人机被拦截,这个拦截率高得完全离谱。

乌方仅承认,12枚导弹和20架无人机击中了26个目标,被拦截的导弹碎片落入了25个目标。

乌克兰的战报完全就是编造的,美国提供给乌克兰的“爱国者”防空导弹数量已非常少,可是每天仍可以大量拦截弹道导弹,到底使用什么武器? 乌克兰发布的拦截率连美军也不敢说能办到,从中东战争的情况看,在消耗大量防空反导弹药的情况下,依旧有大量弹道导弹和无人机可以突防。

被炸的这么惨,居然还说高拦截率? 乌克兰编造战报的意图相当简单,掩盖自身的实际损失,夸大战果以树立良好形象,以求争取西方的援助,一个完全达不到目的行为。

西方援助越来越少,已经无法维持战局。

现在西方对于乌克兰的关注度下降了许多,如果不是为了利用乌克兰消耗俄罗斯,可能早就抛弃了乌克兰。

不要再妄想什么北约出兵参战,现在西方与俄罗斯关系并没有恶化,相反有了一定的改善。

在中东战争爆发之后,美国总统特朗普对俄罗斯石油发布了豁免令,以维持国际市场的油价。

俄罗斯接石油翻身了 根据乌克兰媒体《基辅独立报》的报道,美国对俄罗斯石油实行的是临时豁免,到期就会失效,在2026年4月15日,美国财政部长贝森特表示,将不会续签俄罗斯石油的豁免,但是俄罗斯已经从中获益不少。

美国的豁免只是允许各国购买已经滞留在海上的俄罗斯石油,属于“针对范围狭窄且是短期的”,但是上有政策,下有对策。

本来俄罗斯石油就没有因制裁,驱逐出国际市场,连西方都大量进口俄罗斯石油,只是变得隐蔽。

俄军现在有充足的预算来作战 现在的豁免给俄罗斯石油出口提供了方便,将给俄罗斯带来巨大的收入,虽然贝森特表示,不会给俄罗斯带来显著的经济利益,实则没法避免。

有说法称,在美国发出豁免令时,俄罗斯大约有 1.45亿桶石油漂浮在海上,考虑到中东战争带来的油价上涨,可能给俄罗斯带来接近100亿美元的收益。

乌克兰坚持将战争打下去,自以为在保护整个西方,实则在被西方利用,只是一枚棋子。

六小龄童谈《西游记》片酬:25集拍了6年,2000块都不到

“观众心目中,给我的要求是不能老,或慢慢老:因为觉得孙悟空吃了人参果,怎么会老呢?”聊起央视版《西游记》的影响力,剧中孙悟空的扮演者六小龄童分享了一件趣事,“一个演员连老的权利都没有,是最大的幸福。

” 大约40年前,86版《西游记》播出后风靡一时,至今仍是许多观众的电子榨菜。

剧中,六小龄童饰演的孙悟空极为传神,赢得无数观众的喜爱,成为一个非常经典的影视角色。

网络时代,人们依旧喜欢孙悟空,给他贴上了“完美男友”“国产剧男主人设天花板”等一系列标签,调侃“果然年轻时不能遇见太惊艳的猴”。

对此,他在接受中新网记者采访时表示,吴承恩先生笔下的孙悟空原本就很传神可爱,故事雅俗共赏,涉及神话世界、天文地理等方方面面,聊到孙悟空,自己跟不同年龄段的读者都能交流。

六小龄童饰演的孙悟空非常经典。

受访人供图 提到大家说孙悟空的穿搭“引领时尚潮流”,六小龄童亦哈哈大笑,“我看到过一些视频,说孙悟空很爱美,喜欢戴各种好看的帽子,在不同场合穿不同风格的衣服,分析得很好。

” 一部经典之作的诞生 聊起当年拍摄《西游记》的往事,六小龄童总是会陷入回忆。

很多年前,六小龄童被杨洁导演选中,在86版《西游记》里饰演孙悟空。

“我们两千多号人,第一部拍完就花了6年时间。

到2000年又拍第二部,前后一共花了17年。

” “我们四个人住一屋,上下铺,我年轻,回来往上铺一爬,觉得也挺好。

能给我演这个角色,就是很大的一个荣誉了。

”他说。

秉承着严谨的态度,杨洁导演打算先拍摄试集看看效果。

于是,1982年2月份摄制组成立,当年10月份就拍出了《除妖乌鸡国》。

试集播出后,观众反馈还不错,但对六小龄童期望也更大。

所以,在此后的拍摄中,他总在琢磨怎么把孙悟空演的更好,所有主创人员都拿出细心与耐心,来“磨”这一部戏。

图片来源:86版《西游记》视频截图 1986年,《西游记》正式播出,风靡大江南北,迄今为止已在海内外重播4000多次,成了难以超越的经典。

六小龄童饰演的孙悟空,也成了不少观众心中难以忘怀的荧屏符号。

在他看来,《西游记》拍得好,是所有主创人员共同的努力,当时包括导演在内,演职人员的酬金很少。

“我25集拍了6年,2000块片酬都不到,但是非常开心,非常满足。

” “杨洁导演一直在说,我们要把央视版《西游记》拍成观众心目中的最大公约数。

所以从人物造型、服饰、道具乃至演员的表演等,都要做到最佳。

” 他说。

表演要“悟”,人生也要“悟” 很多人都觉得,六小龄童饰演的孙悟空灵动且传神。

六小龄童说,角色的神韵,其实就来自对人物和戏的理解,以及表现力。

比如,孙悟空是火眼金睛,可六小龄童是近视眼,除了不停地练眼神以外,就得克服困难,看看怎么通过化妆、灯光摄影来进行弥补。

他跟摄像师商量,有的镜头,当孙悟空一落地、一回头,先来一个全景,然后镜头马上急推,来个特写,“我这一瞪眼,观众一看,火眼金睛可太厉害了。

其实就是大家共同合作。

” 六小龄童。

受访人供图 此外,六小龄童强调,“这一版孙悟空得到大家认可,不是我个人多厉害。

我的靠山就是中国戏曲艺术,手眼身法步、一举一动都有讲究。

我演的影视版孙悟空,95%的表演源自于此。

” 学习戏曲中的“猴戏”,但又不能止步于此。

比如,化用到影视剧中后,表演就不能木讷、程式化,孙悟空听到师父说话或处在其他情境下,要给出反应,这就要求演员必须用心。

再比如,孙悟空在取经路上不断成长,在演技和形体上就得有变化,“最初动作神态什么的比较像小猴子,后来‘猴气’还有,但也慢慢地接近于人,性格也在不断完善。

” “我们过去讲一句话,身为演员,演同一个人物,要做到人无我有,人有我好,人好我精,人精我绝,人绝我化。

”他认为,难学的就是“化境”。

“你跟老师学习戏曲基本要素,鲜活的东西要靠自己领悟。

人生亦如此。

”六小龄童说,孙悟空很勤奋,且悟性高,不断总结、走向成熟,其传奇经历对每个人都有启示。

为何它能火到现在? 其实,除了孙悟空,六小龄童还演过很多角色,只不过名气都没有“孙悟空”那么大,他也不否认这一点,反倒时常说,自己可能是全中国乃至全世界最幸福的演员。

“很多时候,到一个地方,我问观众谁没有看过我演的央视版《西游记》?几乎没人举手。

一个演员能达到这个程度,很开心。

”他乐呵呵地说道。

在短视频时代,86版《西游记》依旧富有魅力,人们对它的开发相当多元化,各种有趣的“二创”视频层出不穷。

为何这个版本的《西游记》能火40年?在六小龄童看来,原因在于抓住了传统文化的根,“从故事人物包括剧本的改编,杨洁导演遵循八个字:忠于原著,慎于翻新。

” 这种改编理念,从剧情中可见一斑。

86版《西游记》并非完全照搬原著,他说,剧中把不适合孩子们看的东西去掉了,也把小说里比较简单的地方进行了更为细腻的演绎。

一个比较典型的例子,就是“趣经女儿国”。

六小龄童表示,杨洁导演亲自写了歌词,又加了很多文戏。

有翻新,但这一集恰恰也成为了一个经典,大家也都能接受。

也就是说,影视改编需要有一个度,即情理之中,意料之外。

也正因如此,大浪淘沙,经过一代又一代观众的筛选,很多年后再去看,86版《西游记》依旧经典,没有过时。

风控数据沉淀,风控数据模型不扎心

点击下载文档

格式为doc格式