数据集:https://www.kaggle.com/datasets/ealaxi/paysim1/data
背景
在金融服务领域,特别是新兴的移动支付交易领域,缺乏公开可用的数据集。金融数据集对许多研究人员非常重要,尤其是对我们进行欺诈检测领域的研究人员而言。部分原因在于金融交易本质上具有隐私性,这导致没有公开可用的数据集。
我们提出了一个使用名为 PaySim 的模拟器生成的合成数据集,作为解决此类问题的方法。PaySim 使用从私人数据集中提取的聚合数据生成一个合成数据集,该数据集模拟正常的交易操作,并注入恶意行为,随后用于评估欺诈检测方法的性能。
内容
PaySim 基于从一个非洲国家的移动支付服务中提取的一个月的金融日志样本,模拟移动支付交易。原始日志由一家跨国公司提供,该公司是该移动金融服务的供应商,目前在全球14个以上的国家运营。
这个合成数据集缩减为原始数据集的四分之一,并专门为 Kaggle 创建。
注意:被检测为欺诈的交易会被取消,因此在进行欺诈检测时,不能使用以下列(oldbalanceOrg、newbalanceOrig、oldbalanceDest、newbalanceDest)。
字段
以下是1行示例及字段说明:
1,PAYMENT,1060.31,C429214117,1089.0,28.69,M1591654462,0.0,0.0,0,0
过往研究
有 5 个类似的文件,包含 5 个不同场景的运行。这些文件在我的博士论文第 7 章中有更详细的说明(博士论文可通过此链接获取:PhD Thesis Available here)。
我们使用随机种子运行了 PaySim 多次,共 744 步,代表了一个月的现实时间中的每小时,这与原始日志相匹配。每次运行大约需要 45 分钟,使用 i7 英特尔处理器和 16GB 内存。每次运行的最终结果包含大约 2400 万条金融记录,分为 5 种类型:CASH-IN、CASH-OUT、DEBIT、PAYMENT 和 TRANSFER。
https://github.com/sahidul-shaikh/credit-card-fraud-detection
https://github.com/shakiliitju/Credit-Card-Fraud-Detection-Using-Machine-Learning
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!