网络方面的英文文献

  • 格式:docx
  • 大小:37.15 KB
  • 文档页数:13

下载文档原格式

  / 13
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在IEEE通信学会的主题专家的方向在IEEE ICC这全文论文同行评审的出版2009程序

敏感数据要求:做网站询问是否正确?

克雷格A.树和Minaxi古普塔

计算机科学系

印第安纳大学

{cshue,minaxi}@

摘要:为了确保敏感的Web内容的安全性,一个组织必须使用TLS以确保这样做正确。然而,很少有人知道如何使TLS实际使用在网站上。在这项工作中,我们进行大规模的网络范围内的测量,以确定如果网站需要使用TLS的时候,当他们这样做,确保他们使用它正确。我们发现,其中TLS几十万页要么不使用要么使用不当,将会使敏感数据处于危险之中。

引言

该网站提供了电子商务前所未有的机遇。

此类交易的安全性是一般

通过使用传输层安全提供

性(TLS)协议[1],在标准跟踪安全的后继

套接字层(SSL)协议。TLS允许客户端验证

他们访问和服务器的真实性保证

在客户端之间的通信的保密性和

服务器安全。虽然以前的工作分析TLS证书和

该协议本身,很少的工作重点在其网站上使用。

本文由愿望所驱使,了解TLS是怎么

在今天的网络上被使用的。Web内容的很大一部分是公开可用的,并且不要求保密性。在

很多情况下,如阅读新闻的文章或使用搜索

发动机,TLS保护的好处不超过

性能开销与该协议有关。在

其他情况下,敏感信息被发送并应

通过TLS进行保护。然而,仅仅使用TLS不

够了;它仍然必须正确使用。调查TLS

使用在网络上,我们提出两个主要问题:是否有

在网络上的网站,不使用TLS时,他们应注意什么?做到这一点使用TLS这样做正确的网站?动力

对于第一个问题是敏感信息可能

通过窃听者很容易被截获,除非使用TLS。

第二个问题是通过观察,TLS动机

保护必须从Web服务器发送一个表格前

到客户端。否则,将含有一个表格页可以

被攻击者改变,允许敏感截取

数据。几大机构,包括,

,或,建立了TLS

客户端后,保护已下载的网页,但在此之前

提交表单数据。这种做法,被称为安全的岗位,是通常由具有高体积的组织

用户流量从未签署到页面上的表单。此

特别常见的,当窗体出现在主

一个网站的页面。这些组织使用安全后,以避免

与TLS的nonauthenticating相关的性能开销

客户端。不幸的是,这种做法提供了anopening 攻击者假冒网站和推出 一个中间人攻击的Web 客户端。

为了研究这些安全性差的做法的程度,我们 实现了一个网络爬虫和检查HTML 表单 430万网页。我们做了几个关键的观察 从这样的分析。首先,网页31-36%不使用

TLS 在所有的时候,他们应该。为了解决这个问题,我们 已经实现了浏览器扩展,警告用户约 进入网页上做的核潜艇和信用卡号码 除了不使用TLS 来识别领域的询问敏感 数据。这导致更少的,但更精确的警告。在 手动评估分机的有效性,我们

没有发现假阳性和两种可能的假阴性。

其次,我们发现不安全的网页,有形式,1.65%的 - 4.49%有被通过HTTPS 提交的至少一种形式中, 导致安全交漏洞。如果剥削,不安全 入口点可能会导致欺诈,可能与显著 财务影响的用户和脆弱的部位。

我们提出了一个浏览器扩展,试图验证这些 使用TLS 提交敏感数据的切入点和 如果这样的验证失败发出警告。

本文的其余部分的结构如下。在第二节, 我们讨论我们的数据收集和方法。在第三节, 我们研究的网站,不提供TLS 保护敏感

数据并提出了一些预防措施,用户可以利用。在第 第四,我们分析认为滥用TLS 和建议clientbased 网站 策略来解决这个问题。我们回顾相关 在第五节工作,并得出结论:在第六节。

II 。数据收集和方法

为了获得对TLS 使用的见解,我们进行了大规模的, Internet 范围的Web 爬行。我们把我们的抓取成四 数据集,其被选择来捕获不同类型的 网页:热门的网页,这些访问的机器上我们 网络,并且这些随机选择的。 在第一数据集,我们把它称为DMOZ 广度的数据集,我们获得了从一个网址列表 DMOZ 开放目录项目[2]。 DMOZ 的项目包括 形成一个目录查找用户提交的链接的

数据,而不是使用一个检索的方法。数据集,

收集在2008年2月13日,载9165163链接。的

这些,4025911联系是独一无二的。大多数这些链接使用

HTTP,HTTPS不,这意味着他们没有使用TLS。共

的2312链接使用TLS。我们消除这些TLS保护

因为在这些任何形式进一步考虑链接

网页将牢固地被默认发送。在courseof几个星期,我们能够以检索总共3213764

从DMOZ链接的网页。这广度为基础的抓取是

肤浅的;它只检查直接链接的页面

DMOZ。虽然这种策略让我们的抓取工具来检查

从大量的域的页面,它会无法捕捉

形式的二级页面。

对于其余的数据集,我们进行了更详细的

爬行。对于每个这些数据集,我们得到一个URL

一个首页,下载的网页和链接的任何页面

从该页面是一样的DNS域的内

原来的页面。这个更详细的爬行限制的广度

域,而发现的形式被直接从挂钩

主页。某些URL可能存在于多个数据

集。由于其独特的爬行方法,我们允许

DMOZ宽度数据集与剩余的三个重叠

没有试图消除??重叠。

所述第二数据集(DMOZ深度)再次使用从链接

在DMOZ开放目录项目。然而,而thanconduct一个完整的扫描,我们随机选择了16,500独特的链接来执行我们的抓取。这使我们能够直接比较

浅表抓取诗句详细的爬网的策略

寻找形式。我们获得78 726Web从这个抓取网页。

在我们的第三个数据集(Alexa的),我们分析了流行的Web

站点。我们使用的Alexa网络信息服务[3],这

居互联网上最流行的Web站点,获取

1,000最流行的网站在每个16顶级类别,

以及前500个最流行的网站的整体。有些网站

存在于多个类别;在删除重复,

我们发现15,341独特的网站。我们使用的每个站点

来自Alexa的获得首发的Web爬行网页。此

爬行导致344,868的网页。

在最后的数据集(DNS),我们针对实际用户

行为。要创建这个数据集,我们捕捉到所有的DNS

对于为期一周的发行我们部门的网络上查询

期。我们使用包含在A(地址)的主机名