互联网金融毕业论文选题最新，互联网金融毕业论文任务书？

导读：新冠疫情冲击了全球经济，全世界各个行业加速了数字化的进程，在大量传统业务迁移到线上的同时，各类线上新产品和服务也与日俱增，这其中包括大量金融产品和服务。线上金融产品服务增加的同时，平台遭受金融欺诈的风险也在增加。因此，中科院计算所的敖翔副研究员讨论了基于图神经网络的互联网金融欺诈检测，以应对与日俱增的互联网金融欺诈挑战。本次分享主要围绕以下问题展开：

后疫情时代的互联网金融欺诈
用图神经网络为什么行？
用图神经网络有什么坑？
用图神经网络有什么趋势？

后疫情时代的互联网金融欺诈

新冠疫情的爆发以前所未有的方式冲击了世界经济，进一步增加了平台遭受金融欺诈的风险。根据一份英国媒体的报道，2020年4月，英国金融产品的欺诈率环比上升了33%。同时，根据美国FIS的报告，同一时期美国的交易欺诈率同比上涨35%。由此可以看出，新冠疫情打击了全球经济，下行的经济趋势导致了金融欺诈案件数量的攀升。在金融欺诈数量增长的同时，金融欺诈的形式也出现了变化，例如：

金融业务因疫情被迫向线上转移。如传统银行、保险和证券的业务从传统线下业务向线上迁移。在此过程中，机构难以获得全面的客户身份验证信息，加之现今信息欺诈技术的升级，导致信用欺诈频发。
很多互联网公司进军金融行业，推出新的金融产品和服务。一方面推动了金融的发展，但另一方面为互联网金融欺诈提供了新的舞台。比如阿里巴巴在其平台上向小企业主提供低息贷款，这类小型贷款无需抵押，贷款人存在较高违约风险。

接下来先了解一下传统欺诈检测和互联网欺诈检测任务。

1. 传统欺诈检测任务的挑战

在传统的欺诈检测任务中，主要会面临以下几个挑战：

类别不平衡，在数据中欺诈数据比例相对较低。
概念漂移，数据分布随着时间会产生一定的变化。
数据不可信，未被标注为欺诈的数据并不一定是可信的，有可能是因为发生了欺诈但未被识别。因此训练样本可能不是100%真实准确的。

2. 互联网欺诈检测任务的挑战

我们现在所面临的互联网欺诈检测任务挑战更加严峻：

类别极度不平衡，导致样本价值敏感度不同。由于互联网用户基数更大，欺诈率从传统银行约2%降低至万分之一甚至更低，因此识别欺诈案例难度再次升级。
对抗攻击，导致出现分布外的样本。欺诈者可能通过改变以往行为、模仿正常用户行为等方式逃过反欺诈模型的检测。欺诈手段的快速变化也对欺诈检测提出了新的挑战。
标注稀缺，导致特征学习的指导信号弱。互联网金融产品大多都是创新性产品，由于出现时间较短，大多数据尚缺乏完备的标注，如何在新场景中检测欺诈就变成了新的挑战。

总结以上三点，对于互联网欺诈检测最大的难点在于发现有效的特征。

—

用图神经网络为什么行？

在详细讨论为什么图神经网络可以用于解决以上问题之前，需要先了解一下欺诈检测数据和方法的演化。

① 欺诈检测数据的演化：

早期数据是基于量化表格的结构化数据，使用简单模型就可以得到较好的结果。
随着时间发展，数据逐渐变复杂，出现了大量半结构化数据如XML文件和访谈表格等。
现如今，很多数据是非结构数据如文本、视频甚至遥感数据等。

② 欺诈检测方法的发展：

1980年代，欺诈检测方法是基于规则系统。
1990年代，欺诈检测方法借鉴了传统机器学习模型。
现在，由于数据结构非常复杂，特征很难提取，深度学习模型开始成为主流，即让模型自己去学习特征。

综上所述，欺诈检测的数据和方法都趋于复杂。

1. 图神经网络：一种新的趋势

互联网的数据往往呈现多源异构的特点。我们可以将多源异构数据整合成图来表示，并设计基于图神经网络（GNN）的方法来发现欺诈活动。图神经网络作为一种深度学习模型，具有特征学习能力，可用于半监督学习问题，贴合欺诈检测场景的特征，所以成为了新的趋势。在我们的实验研究中，运用图神经网络研究欺诈检测取得了一定进展。

比如在我们的一项研究中，结合专业风控专家的建议，将八种风控规则以元路径形式指导节点特征采样，优化特征提取过程。

相比于以往采样该用户所有的邻居，基于这些元路径，我们在采样时会有一定的侧重，可以提升采样效果。接着我们对采样的路径进行编码，并在编码中加入注意力机制以学习到更强的表示。最后基于学习到的表示判断该用户是否存在欺诈行为，具体模型如下图所示：

我们在阿里巴巴真实的数据集上进行实验，与当时最好的方法相比均有提升，实验结果如下：

综上所述，经过研究，融合多源异构数据并结合图神经网络方法有助于特征的提取。随着我们对于GNN的进一步了解，我们也发现了在使用GNN时遇到的一些问题。接下来讨论在用GNN可能会遇到哪些坑，以及如何缓解。

—

用图神经网络有什么坑？

图神经网络的核心思想是消息传递。对于一个目标节点，周围的邻居通过消息传递生成目标节点的embedding表示。GNN的一个基本假设是同质偏好假设，意思是在图中邻居之间是相似的。但在我们面对的问题中，数据类别极度不平衡，一个欺诈用户的邻居可能大部分为好人，个别为欺诈者，GNN根据邻居传递消息后很可能错误地将此用户识别为好人，因为他的邻居大部分为好人。

1. PC-GNN：面向类别不平衡图的采样GNN

为了解决因数据不平衡带来的问题，我们采用了PC-GNN对GNN近邻采样的机制进行改造，以缓解类别不平衡的问题。PC指Pick和Choose，两种采样方式。具体来说，Pick是指我们根据标签类别分布占比，进行全局采样，使得多数类别和少数类别的采样更加平衡。

在局部，我们对少数类别的节点实施自适应过采样，对所有节点实施自适应降采样，这就是Choose，具体采样方式如下图所示。

举例说明，下图中节点 u,v,c 同属于一种少数类别。假设我们需要对节点v进行采样，我们会采样节点v周围与其所属相同类别并且隐含表示距离小于一个特定阈值的同类节点。如图，虽然u和v在图结构中本身不是邻居节点，但因为两者隐含表示的间距小于所定阈值，所以我们在采样时会把节点u也包含在内。这就是对少数类别的过采样。此外，还会对所有类别进行降采样。在采样时，我们不采样节点的全部邻居，而是将其邻居集合中隐含表示间距小于特定阈值的节点保留，其他的删除，从而挑选与该节点更相似的个别邻居。

通过以上两种方式，我们可以得到一个相对平衡的训练数据。下图是整个结构的示意图：

训练阶段，Pick和Choose过程所有的步骤都可以正常做。但是在测试阶段，由于类别的信息不可知，所以Pick以及Choose中的过采样是做不了的，但Choose中的降采样依然可以做，我们通过实验发现，它依然可以提升效果。我们在公开测试集（YelpChi和Amazon Musical Instrument商品评论）和真实数据集（阿里巴巴真实数据）进行实验，用F1-macro, AUC和GMean作为评价指标，与GCN, GAT, DR-GCN, GraphSAGE, GraphSAINT, Graph Consist和CARE-GNN等进行比较，得到如下实验结果：

在Amazon和YelpChi数据上，PC-GNN比作为state-of-art的CARE-GNN的AUC提升3.6%-5.2%，比GMean提升了0.6%-3.7%。

与此同时，我们还进行了消融实验，实验结果如下。我们发现，Pick的全局采样是基础，Choose板块可进行一些精细化操作，使得模型进一步提升。

2. AO-GNN：面对类别不平衡图的AUC最大化GNN

有了采样的方法后，我们进一步思考是否可以借鉴价值敏感方面的方法来解决类别不平衡的问题。根据最近一些机器学习理论会议关于AUC优化的研究，我们尝试将AUC最大化与GNN进行融合，因为优化AUC的训练倾向于获得一个既能区分良性节点又能区分欺诈节点的模型。按此思路，我们提出了AO-GNN结构模型。

首先，因为直接优化AUC的计算复杂度相对较高，我们将其转化为鞍点搜索问题，以此实现AUC最大化。具体数学公式推演可参照论文 “AUC-oriented Graph Neural Network for Fraud Detection”（Huang, 2022）。运用GNN可能存在的另一个问题是欺诈者可能主动伪装导致图结构已被“污染”，欺诈节点经常通过与其他节点交互来混淆他们的身份。因此，我们提出在进行AUC最大化的同时，设计一个拓扑结构优化器净化被污染的图拓扑结构。其基本思路是向着AUC增大的方向优化图拓扑结构。优化结构的方式是运用强化学习对于图结构进行剪边，具体结构如下图所示。

需要注意的是，这里我们在两处分别运用GNN，一个是环境中我们使用GNN编码，在reward的计算过程中我们运用GNN分类器预测得到AUC-ROC变化值。