至强措施防采集,实实在在立杆见影,对搜索引擎友好
这世界有矛就有盾,有采集就有反采集。自己耗时数月或数年攒起来的站,若没有任何防护措施,很容易被别人用采集工具将文章采过去。不过采集工具也有弱点,它需要获取大量文章链接才能进行批量采集,最有效的反制手段就是提高其获取文章链接的难度,再加上一点文章内容采集限制,基本就属于地狱级了。
大量获取一个网站的文章链接,主要有两大途径:一是对有规律的文章URL批量生成,二是通过列表分页批量提取。
针对第一种情况,Z-Blog默认会将文章/列表动态链接301转向伪静态地址(这简直太方便采集了),当前插件首先提供的功能就是废掉301转向。文章地址本身就很有规律又该肿么办呢?新站可以改伪静态规则,老站似乎不宜随便动,此时可以考虑启用加密文章网址,此后新文章网址瞬间就没有规律了,若仍不放心,还可以启用文章内容JS动态输出,这将导致绝大部分采集工具采个寂寞;
接下来是第二种情况,无论你的文章链接有多复杂,只要列表分页在,采集工具随时可用选择器或正则提取,这时候程序性限制翻页才是王道!此处特别感谢用户简云赞助!
插件功能↓
关闭动态链接:网站开了伪静态,www.abc.com?id=123/www.abc.com?cate=1仍可用?想防采集,这必须关掉啊!
限制列表翻页:只要业务熟,通过列表提取全站文章链接也就分分钟,正常访客要么从百度来、要么顺着文章点,限制翻页可以有
加密文章网址:www.abc.com/post/123.html,1~999999能顺溜到底?老站补救新文章专用,不用改伪静态规则(也是自动随机别名神器)
文章内容JS动态输出:一篇文章都不想让人采去的豪横绝招!一般而言,有前3招保底,这招不用、或只对较新文章用都行
其中限制翻页和JS动态输出两种功能支持对搜索引擎友好,不影响真蛛蛛爬取内容;
自带搜索引擎白单名判断,简单UA模拟难以突破;
--------------------------------
v1.2:文章内容JS动态输出变量转码处理,进一步提升豪横程度;1.2.*为细微优化;
--------------------------------
v1.1:新增加密文章网址功能,强势拯救顺溜型文章网址,不改伪静态规则,不影响过往文章
特别说明↓
※全站生成静态页面网站限制翻页和JS动态输出功能不可用!目前支持搜索引擎:百度、谷歌、神马、360、头条、搜狗、必应;
※开启加密文章网址功能时,文章伪静态规则包含别名参数时仅起自动随机别名作用,否则将强制以自定义路径关键字+随机别名形式生成文章网址;
※开启文章内容JS动态输出时,其它应用对文章内容进行插入替换等操作可能会受影响,需自行权衡选择,必要时请询问;
※当前插件仅针对程序采集,如需禁止人工手动复制等功能,推荐使用《网站控制小神器[VIP]》插件;
※演示站所有列表第6页起普通访客浏览将显示404,10月1日以后的文章查看源代码看不到内容部分文字;
附图查看↓
插件设置项↑
启用加密文章网址功能↑
启用文章内容JS动态输出功能↑
什么?有人说隐藏翻页条、少显示几个页码就可以防采集?!表天真咯~
还有人说往文章内容里加些随机字符和签名就算防采集?好吧,好歹增加了替换成本,侬喜欢就好~
本文由隔壁老李于2023-02-03发表在极致时空,如有疑问,请联系我们。
本文链接:https://www.jz52.com/post/1742.html