基于PU-Learning的恶意URL检测_基于机器学习的恶意url识别系统的设计与实现-程序员宅基地

基于PU-Learning的恶意URL检测

原文作者：Ya-Lin Zhang, Longfei Li, Jun Zhou, Xiaolong Li, Yujiang Liu, Yuanchao Zhang, Zhi-Hua Zhou
原文会议：The ACM Conference on Computer and Communications Security (CCS)
原文链接： CCS’17 https://dl.acm.org/citation.cfm?id=3138825

一、论文主要内容

本文描述了一种基于PU-Learning（正例和无标注学习）的潜在恶意URL检测系统。以往的基于机器学习的解决方案是将它定义为有监督学习问题。然而在很多时候，我们所获得的数据总是包含少量已知的攻击URL以及大量的未标记样本，这使得有监督学习不可行。在这项工作中，我们将其定义为PU-Learning问题，并结合两种不同的策略（two-stage strategy and cost-sensitive strategy）。

实验结果表明，我们所开发的系统能够有效地发现潜在的恶意URL攻击。该系统既可以作为现有系统的辅助部署，也可以用来帮助网络安全工程师有效地发现潜在的攻击模式，使他们能够快速更新现有的系统。

二、作者工作

2.1 相关工作

传统的URL攻击检测系统主要通过使用黑名单或规则列表。而这些名单将变得越来越长，但是以这些方式防范所有的攻击是不现实的。更严重的是，这些方法难以检测潜在的威胁，这使得网络安全工程师很难有效地发现新出现的恶意URL攻击。

为了提高算法的泛化能力，很多研究人员采用基于机器学习的方法来完成这项任务。这些方法主要分为两类：大多数转化为有监督学习问题，则需要对数据进行标注，而其他的一些研究人员则试图以无监督的方式解决问题，例如通过异常检测技术，就不需要对数据进行标注。

在更多时候，我们可能只得到一小部分恶意URL和大量未标记的URL样本，缺乏足够可靠的负例样本，这也就意味着我们并不能直接使用上述的机器学习算法。另一方面，如果我们简单地以无监督的方式解决它，那么已知恶意URL的标注信息就难以充分利用，可能无法达到令人满意的性能。

2.2 模型设计

设计思想

在本文中，我们将上述问题抽象为PU-Learning（正例和未标记学习）问题，它可以更充分地利用所检测到的恶意URL以及未标记的URL，并实现了更强的性能。

基于此，我们开发了一个基于PU-Learning的潜在恶意URL攻击检测系统。有许多策略可以用来处理PU学习问题，如two-stage strategy、cost-sensitive strategy等。在这项工作中，我们将two-stage strategy、cost-sensitive strategy结合起来构建我们的系统。最后，我们对所开发的系统进行了验证评估，结果表明该方法能有效地发现潜在的恶意URL攻击，大大降低了网络安全工程师的工作量，使其在实际的URL攻击检测中非常有用。

具体实现

系统主要包括3个模块：

特征提取，将原始URL转换成特征向量；
模型训练，利用所提取的URL训练集的特征向量，采用基于logistic回归的方法来训练PU-Learning模型；
预测，预测输入的URL以及输出可能的恶意URL集。

特征提取

首先将原始URL转换为特征向量表示，以便于应用到后续的机器学习算法中。下面，简要地解释我们所开发的系统，并介绍我们在系统中使用的特征提取过程的细节。

一般来说，URL可以分成几个部分，包括协议部分、认证部分、路径部分、query部分和fragment部分，如图2所示。

攻击者可能修改任意一个部分以发起攻击。在我们的场景中，由于前几个部分受到限制，攻击主要来自fragment部分，所以我们主要关注的是基于恶意修改fragment部分的攻击的执行情况。具体而言，fragment通常是形如“key1 = value1&…&keyn = valuen”的形式，攻击者可以通过任意修改value部分以发起攻击。因此，我们的系统主要处理这个部分，而特征提取过程直接从fragment的Key-Value对中提取特征。

更具体地说，给定一组URL，我们首先将它们分别划分为上述部分，并从每个URL的fragment中提取Key-Value对。其次，由于我们的目标是发现恶意网址的特质，因此我们过滤了Key-Value对，只保留恶意网址出现的前N个Key，并将剩余的Key-Value对合并为一个Key-Value对，从而每个URL将最多提取（N + 1）个Key-Value对。

最后，我们试探性地提取8种不同的统计信息从每个过滤值，包括value中出现所有的字符、字母、数字、标点符号的次数和value中出现的不同的字符、字母、数字、标点符号的数目。因此每个URL将被描述为一个（N + 1）∗8维特征向量。

模型训练

PU-Learning是半监督学习的一种特殊情况，它用于解决只提供正例和未标注样本而不提供负例的问题。研究人员已经提出了许多策略来解决这个问题。

为了绕过缺乏负标注的问题，two-stage策略首先试图挖掘出一些可靠的负例，然后将问题转化为一个传统的监督和半监督学习问题。另一方面，用于二分类的cost-sensitive策略由于具有不对称的误分类成本，因此非常适合用于解决PU-Learning问题。在我们开发的系统中，这两种策略都被采用并进一步结合形成最终的预测模型。

two-stage strategy：在第一阶段从未标记实例中选择可靠的负例，算法1显示了相关的细节。在第二阶段，利用正例和第一阶段选择的负例，训练传统的监督模型，并进一步用于预测新样本。

考虑到效率，我们采用Logistic回归来训练分类模型。

cost-sensitive strategy：我们假设在未标注样本只有少量正例。将所有未标注样本设定为负例，最小化以下目标函数：

其中C+和C-分别是正例和负例误分类的惩罚因子；l(yi,f(xi))表示损失函数，例如log损失函数或hinge损失函数；λ是归一化系数，R(w)是归一化范数，例如L1-范数、L2-范数。

本文中，我们将损失函数设置为log损失函数，将L2-范数作为归一化范数。因此具体的函数如下：

其中LL(z)=log(1+exp(-z))就是log损失函数，在实际中，C+和C-是基于验证集选取的，并且C+总是大于C-，这表明正例误分类的惩罚因子要大于负例误分类的惩罚因子。这也就使得模型将更关注于对恶意URL的正确分类。

预测

在预测阶段，一个新输入的URL首先将在特征提取模块被转换为（n + 1）∗8维特征向量，然后所提取的特征向量将送入一个双策略模型，每个模型都将输出一个分数表示恶意URL的概率。得分越高，这个URL就越有可能是恶意的。我们把两个分数平均作为URL的最终得分，选择具有较高分数的URL构造为候选恶意URL集。

在工程实践中，我们会基于候选恶意URL集过滤K个URL，这些过滤的URL将由网络安全工程师进行人工验证。

三、实验

3.1 实验数据

该数据集来自于发送至蚂蚁金服的URL请求的采样。

数据主要分为两部分：一大组未标记的URL和少数已经通过现有的系统标注的恶意网址，并出现了不同的攻击类型，包括XXE、XSS和SQL注入等。

我们并没有把这些不同类型的恶意网址进行进一步细分。由于总数据集太大，我们从每天的请求中抽取1亿个URL，其中由现有系统检测到的恶意URL的数量从几万到数十万不等。该模型使用连续7天收集的数据进行训练，并用于预测每天新出现的未标记URL的分数。

当提取Key-Value对时，N被设置为99，因此每个URL将由一个800维的特征向量来描述，使用min-max归一化方法来处理不同量纲下的特征。在模型训练部分，我们采用基于logistic回归的方法来训练PU-Learning模型，C+、C−和λ等参数由验证集进行选取。

3.2 实验结果

由于我们并没有未标注URL的具体情况，我们借助网络安全工程师来帮助检查结果并验证我们系统的有效性。

由于检查结果非常耗时，因此我们将候选恶意URL集的大小K设置为至多150，并由网络安全工程师将手动检查所选URL是否是恶意URL。

表1展示了实验结果的细节。从表中可以看出，过滤后的候选集的精度可以达到90%，表明该系统能有效地发现潜在的恶意URL，而现有的系统无法捕获这些恶意URL。应该特别提到的是，我们基于候选恶意URL集发现了新的攻击模式，而蚂蚁金服的网络安全工程师已经通过这个发现改进了现有系统。同时，开发的系统还可以与现有系统协同使用，提高整体的网络安全水平。

四、总结

在这项工作中，我们开发了一个基于PU-Learning的潜在恶意URL检测系统。与基于监督学习的方法相比，我们的方法只需要少量恶意URL以及未标注URL，而这正好适合我们遇到的实际情况。

该系统的优点利用了两种策略来辅助训练分类模型，并且实验数据量大，保证了模型的有效训练，而模型采用的逻辑回归算法是一种较为简单的机器学习模型，也许可以用其它机器学习算法实验对比，不过可能面对大量数据需要更多训练时间。

本文链接：https://blog.csdn.net/Ronnyz/article/details/106679942

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

AVFrame&AVPacket_天天av-程序员宅基地

文章浏览阅读1.5w次。AVFrame：（ This structure describes decoded (raw) audio or video data. AVFrame must be allocated using av_frame_alloc(). Note that this only allocates the AVFrame itself, the buffers for the data mus_天天av

Java经典例题07：用100元人民币兑换10元、5元、1元的纸币_编程把100元换成1元5元10元-程序员宅基地

文章浏览阅读3.5k次，点赞2次，收藏12次。解题思路分析：1.100元兑换10元纸币，可以兑换10张，但每种纸币都要有，所以最多只能兑换9张，最少兑换1张。则初始值为1；循环条件小于10或者小于等于9。2.100元兑换5元纸币，可以兑换20，但每种纸币都要有，所以最多只能兑换19张，最少兑换1张。初始值为1；循环条件小于20或者小于等于19。3.100元兑换1元纸币，可以兑换100张，但每种纸币都要有，所以最多只能兑换99张，最少兑换1张。则初始值为1；循环条件小于100或者小于等于99。_编程把100元换成1元5元10元

猜三次年龄_找人猜三次年龄-程序员宅基地

文章浏览阅读450次。1、允许用户最多尝试三次2、每尝试三次后，如果还没猜对，就问用户是否继续玩，如果回答Y，y，就继续猜三次，以此往复，如果回答N，n，就直接退出times=0count=3while times<=3:age=int(input(‘请输入年龄：’))if age == 18:print(‘猜对了’)breakelif age > 18:print(‘猜大了’)else:print(‘猜小了’)times+=1if times3:choose = input(‘继续猜Y_找人猜三次年龄

SDOI2017 Round2 详细题解-程序员宅基地

文章浏览阅读152次。这套题实在是太神仙了。。做了我好久。。。好多题都是去搜题解才会的 TAT。剩的那道题先咕着，如果省选没有退役就来填吧。「SDOI2017」龙与地下城题意丢 \(Y\) 次骰子，骰子有 \(X\) 面，每一面的概率均等，取值为 \([0, X)\) ，问最后取值在 \([a, b]\) 之间的概率。一个浮点数，绝对误差不超过 \(0.013579\) 为正确。数据范围每组数据有 \...

嵌入式数据库-Sqlite3-程序员宅基地

文章浏览阅读1.1k次，点赞36次，收藏25次。阅读引言：本文将会从环境sqlite3的安装、数据库的基础知识、sqlite3命令、以及sqlite的sql语句最后还有一个完整的代码实例，相信仔细学习完这篇内容之后大家一定能有所收获。

C++ Builder编写WinForm从Web服务器下载文件-程序员宅基地

文章浏览阅读51次。UnicodeString templateSavePath = ChangeFileExt(ExtractFilePath(Application->ExeName),"tmp.doc");IdAntiFreeze1->OnlyWhenIdle = false;//设置使程序有反应.TMemoryStream *templateStream ;templateStre..._c++webserver下载文件