在robots.txt中列出敏感文件信息好不好

如题所述

  一些人担心在/robots.txt文件中列出页面或目录可能邀请到一些意想不到的访问。关于这个问题有两个答案。第一个回答是一个变通方案:你可以把所有你不想让蜘蛛访问的文件在一个单独的子目录,使这个子目录不在列表单上(通过服务器配置),然后把你的文件放在里面,只在robots.txt文件中列出文件名。现在恶意蜘蛛不会遍历目录,除非你或者其他人在互联网直接连接给你其中的一个文件,这并不是robots.txt的错误。
  例如,与其这样写:
  User-Agent: *
  Disallow: /foo.html
  Disallow: /bar.html
  不如这样写:
  User-Agent: *
  Disallow: /norobots/
  并做一个“norobots”目录,把foo.html和bar.html放进去,并配置你的服务器在目录列表不生成该目录。现在,所有攻击者可以知道的是你有一个“norobots”目录,但是他不能列出那里的文件,他需要去猜测这些文件的名称。
  然而,在实践过程中,这是一个很糟糕的注意——它太脆弱了。有人可能在他们的网站发布一个链接到你的文件。或者他可能变成一个可公开访问的日志文件,也就是说你的用户代理服务器,或者他可能会在别人的网络服务器日志中作为Referer显示出来。或者有人在将来某一天错误配置你的服务器,“固定”它显示在一个目录列表中。这些引导我找到真正的答案:
  真正的答案就是robots.txt文件不能用于控制访问,所以不要尝试这样使用它。把它看做一个“不准进入”的标志而不是一个门锁。如果你有不希望非授权人访问的网站文件,可以配置你的服务器做认证,并且配置适当的授权。在网络初期基本身份验证(在UNIX系统的Apache程序中的不重要配置)就已经出现。现代的内容管理系统支持个人网页和资源集合的访问控制。
温馨提示:内容为网友见解,仅供参考
第1个回答  2017-09-23
什么信息 直接禁止就可以啊

robotx.txt怎么写?对网站优化有什么好处
需要注意的是,robotx.txt文件应该仅用于控制搜索引擎的访问,不应该包含敏感信息,例如用户密码和个人信息等。同时,网站管理员应该定期更新robotx.txt文件,以确保搜索引擎可以正确地识别新的内容。

网站robot设置是什么意思
对于网站运营者来说,合理地设置robots.txt文件至关重要。一方面,它可以防止敏感信息被搜索引擎收录;另一方面,通过优化爬虫行为,可以提高网站的搜索引擎优化效果,从而提升网站在搜索引擎中的排名。3. 具体的Robot设置内容 在robots.txt文件中,可以设定不同的指令来控制爬虫的行为。例如,“Disallow:”指...

敏感文件目录探测方法大全
敏感文件、敏感目录通常包括后台入口如 `admin\/`、`robots.txt`、`数据库log`、`sitemap.xml`、`mysql.sql`、`licence.txt`、`Git`、`hg\/Mercurial`、`svn\/Subversion`、`bzr\/Bazaar`、`Cvs`、`WEB-INF`、备份文件、配置文件等。常用的后台入口有 `admin\/`、`admin.后缀`、`admin\/login.后缀`...

网站哪些内容需要通过robots.txt文件禁止搜索引擎抓取
通常网站的登录页、注册页、网站后台地址、网站测试页、联系我们(边框QQ)等。您只要想明白一点就可以,那就是哪些内容让搜索引擎抓取是没有意义的,那你就用robots.txt文件禁止搜索引擎抓取。希望我的回答能帮助到您,也希望您能采纳,谢谢!

怎么把网站去除安全风险
网站的robots.txt文件里可以获得敏感目录的信息,这可能允许攻击者获得有关应用程序内部的其他信息,这些信息可能被用来攻击其他漏洞。 分析:robots.txt不应在提供管理界面的信息。如果robots.txt文件暴露了Web站点结构,则需要将敏感内容移至隔离位置,以避免搜索引擎机器人搜索到此内容。 改善:当然robots.txt要根据SEO的...

robots.txt文件如果不设置又有什么影响呢
robots.txt仅仅是参考,很多不守规矩的网络爬虫不会去看。但是,从搜索引擎优化角度,还是要认真编写该文件,尤其你采用CMS建站,一个网页内容可以用不同的URL地址加不同参数查询到,这就造成了站内内容重复,搜索引擎会很反感,因为你浪费了网络爬虫的时间。所以,你需要用很多disallow将一些重复内容禁止掉...

robots.txt文件中应该屏蔽哪些目录
回答:但是,你真的知道网站的robots.txt文件设置是否合理,哪些文件或者目录需要屏蔽、哪些设置方法对网站运营有好处? 那下面带着这些疑问,笔者会进行详细的解答,希望对新手站长朋友们有所帮助,老鸟勿喷。 一、什么是robots.txt 笔者引用百度站长工具中后段话来解释。搜索引擎使用spider程序自动访问互联网...

robots. txt文件有何作用?
方法:1.修改robots文件并取消对该页面的阻止。机器人的标准写法详见百度百科:网页链接。2.更新百度站长平台(更名为百度资源平台)上的网站机器人。过一段时间,你的网站会被正常抓取收录。影响:Robots协议是网站出于安全和隐私原因设置的,旨在防止搜索引擎抓取敏感信息。搜索引擎的原理是通过一个爬虫蜘蛛程序...

由于该网站的robots.txt文件存在限制指令
网站管理者可以通过Robots告诉搜索引擎某些内容不允许其进行收集。。。出现这种情况说明你的搜索引擎室是负责任的搜索引擎,不想某种叫做360的东西从来都不管Robots协议,自己想要搜就会搜索。。。不过也难怪了,连盗取用户文件的事情都能做,还有什么不敢做呢。。。

robots协议违反事例
国内的违规行为同样存在,2012年8月的360搜索事件就是一个例子。360综合搜索被指在未经许可的情况下,大量抓取百度、Google的内容,甚至记录用户的敏感信息,严重违反了robots协议。这种行为不仅违反行业规范,也损害了用户的隐私和体验。互联网专家强调,robots协议是搜索引擎与网站间的道德约定,网站主通过...

相似回答