使用scrutiny mac破解版您可以定义黑名单和白名单规则,选择要使用的线程数和超时间隔,确定是否要检查是否存在损坏的图像,扫描是否应考虑子域等等。如何使用Scrutiny 限制网站的爬网是本篇文章要介绍的内容。

Scrutiny 8 for Mac使用教程
1.基于网址的黑名单(完整性或审查)
所有手册页都在网址中有'/ manual /',因此我可以输入'/ manual /'(不带引号)。包括斜杠确保它只会将名为'manual'的目录列入黑名单。如果我确信没有其他网址包含“手动”这个词,就没有必要使用斜线。
只需键入关键字或网址的一部分即可。(如果你愿意,你可以使用星号表示'任意数字的任何字符'和一个美元符号来表示'到最后')
我可以选择使用'忽略','不检查..'或'不要跟随..'检查意味着获取标题信息并报告服务器响应代码。跟随意味着更进一步,收集目标页面的html并找到它上面的链接。
因此,为了忽略手册,但仍然检查该区域的外向链接,我想要'不要关注..'如果我甚至不想检查这些链接,但看到它们列出,那么它是'不要检查.. '如果我想完全忽视它们,那就是'忽略'。
“不检查”框的另一个用途是通过忽略某些文件类型来加速爬行,或者您不需要检查或无法正确检查(例如,如果您正在使用Integrity,则为安全页面)不允许身份验证)。例如,您可以在该框中键入.pdf,.mp4或https://(或用逗号分隔的多个值)。
以下是在“请勿关注..”框中键入“手动”来抓取我的网站的结果。您可以看到我的网页上的手册链接很好(200)但是红色,因为我选择突出显示列入黑名单的网址(通过首选项)。您可以看到如何使用它来根据网址或内容中的术语查找网页,但这是另一个教程的主题。2.基于URL的白名单(完整性或审查)让我们假设在另一个场合我想只检查手册页。这次我将'/ manual /'这个词输入'Only follow ..'。重要的是我在与白名单相匹配的页面上开始爬行,例如http://peacockmedia.co.uk/scrutiny/manual/v3/index.html。
这一次,未列入白名单的链接(即那些不包含“手动”的链接)会被检查并且似乎没问题,但是因为没有被关注而我们仍然突出显示列入黑名单的链接。
3.基于内容的黑名单(审查)
这次我们假设我想要排除手册页,但是我没有可用于列入黑名单的网址中的关键字。我将使用“手册/帮助”这个短语,它出现在手册页的页脚中,但没有其他页面。因此,我将该短语键入“请勿关注..”并勾选“检查内容以及网址...”结果与第一个示例中的屏幕截图相同,但是Scrutiny在页面内容中找到我的搜索字词而不是比网址。
在此示例中,将不会在网址中找到该短语,因为它包含空格,但对于单个关键字,Scrutiny会在网址和内容中查找该字词,并在页面中找到它时将其列入黑名单。
如果手册都在子域上,例如manual.peacockmedia.co.uk,则可以使用术语“手册”将其列入黑名单或白名单。但也可以使用“首选项”中的“将子域名视为内部”复选框。子域名是一个更大的主题,也是一个自己的教程。