2024-09-04
深度学习
00

目录

关于数据集
有关项目

数据集:https://www.kaggle.com/datasets/ealaxi/paysim1/data

关于数据集

背景
在金融服务领域,特别是新兴的移动支付交易领域,缺乏公开可用的数据集。金融数据集对许多研究人员非常重要,尤其是对我们进行欺诈检测领域的研究人员而言。部分原因在于金融交易本质上具有隐私性,这导致没有公开可用的数据集。

我们提出了一个使用名为 PaySim 的模拟器生成的合成数据集,作为解决此类问题的方法。PaySim 使用从私人数据集中提取的聚合数据生成一个合成数据集,该数据集模拟正常的交易操作,并注入恶意行为,随后用于评估欺诈检测方法的性能。

内容
PaySim 基于从一个非洲国家的移动支付服务中提取的一个月的金融日志样本,模拟移动支付交易。原始日志由一家跨国公司提供,该公司是该移动金融服务的供应商,目前在全球14个以上的国家运营。

这个合成数据集缩减为原始数据集的四分之一,并专门为 Kaggle 创建。

注意:被检测为欺诈的交易会被取消,因此在进行欺诈检测时,不能使用以下列(oldbalanceOrg、newbalanceOrig、oldbalanceDest、newbalanceDest)。

字段
以下是1行示例及字段说明:

1,PAYMENT,1060.31,C429214117,1089.0,28.69,M1591654462,0.0,0.0,0,0

  • step:映射到现实世界的时间单位。在此例中,1步对应1小时的时间。总共744步(30天的模拟)。
  • type:交易类型,包括 CASH-IN(存入现金)、CASH-OUT(取出现金)、DEBIT(借记)、PAYMENT(支付)和 TRANSFER(转账)。
  • amount:交易金额,使用当地货币表示。
  • nameOrig:发起交易的客户。
  • oldbalanceOrg:交易前客户的余额。
  • newbalanceOrig:交易后的余额。
  • nameDest:接收交易的客户。
  • oldbalanceDest:接收者在交易前的余额。注意,对于客户名以 M 开头的(即商户),此字段无信息。
  • newbalanceDest:接收者在交易后的余额。注意,对于客户名以 M 开头的(即商户),此字段无信息。
  • isFraud:由模拟中的欺诈代理进行的交易。在此特定数据集中,欺诈代理的行为旨在通过控制客户账户并试图将资金转移到另一个账户并取现来获利。
  • isFlaggedFraud:该业务模型旨在控制从一个账户到另一个账户的大规模转账,并标记非法尝试。在此数据集中,非法尝试是指试图在单笔交易中转账超过 200,000。

过往研究
有 5 个类似的文件,包含 5 个不同场景的运行。这些文件在我的博士论文第 7 章中有更详细的说明(博士论文可通过此链接获取:PhD Thesis Available here)。

我们使用随机种子运行了 PaySim 多次,共 744 步,代表了一个月的现实时间中的每小时,这与原始日志相匹配。每次运行大约需要 45 分钟,使用 i7 英特尔处理器和 16GB 内存。每次运行的最终结果包含大约 2400 万条金融记录,分为 5 种类型:CASH-IN、CASH-OUT、DEBIT、PAYMENT 和 TRANSFER。

有关项目

https://github.com/sahidul-shaikh/credit-card-fraud-detection

https://github.com/shakiliitju/Credit-Card-Fraud-Detection-Using-Machine-Learning

https://github.com/Carlos-Muniz/Fraud-Detection-Classifier

https://github.com/zhao-tong/DeepFD-pyTorch

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!