说白了,俄罗斯最大的底牌是人。他跟土耳其的战争,打了241年,差不多每二十年就干一仗,只要年轻人攒够了就开打,生娃打仗两不误。只是这次北约这把软刀子再耗下去,只怕他会把自己耗到连翻身的机会都没了。
这次的俄乌冲突,俄罗斯一开始气势汹汹,结果打了这么久,别说乌克兰没拿下,连自己的经济都快被拖垮了。
北约虽然没直接下场,但给乌克兰送武器、送钱,还搞经济制裁,俄罗斯的日子越来越难过了。说白了,俄罗斯现在就是“外强中干”,表面上看军事实力强,但实际上经济不行,科技落后,连最基本的后勤保障都成问题。
你看俄罗斯的坦克部队,号称世界第一,结果在乌克兰战场上,坦克被乌克兰的无人机打得满地找牙。为啥。
因为俄罗斯的坦克虽然多,但技术落后,防护差,信息化程度低,根本扛不住现代战争的打击。
再比如,俄罗斯的空军,号称世界第二,结果在乌克兰战场上,连制空权都没拿到。为啥。
因为俄罗斯的飞机虽然多,但技术落后,电子战能力差,根本扛不住北约的电子干扰和防空导弹。
所以,我看俄罗斯撑不了多久了。北约这把软刀子,慢慢耗,俄罗斯迟早会被耗到连翻身的机会都没了。说白了,俄罗斯现在就是“外强中干”,表面上看军事实力强。
但实际上经济不行,科技落后,连最基本的后勤保障都成问题。再这么耗下去,俄罗斯迟早会被耗到连翻身的机会都没了。
伪道学是一个复杂且多维度的概念,可以从不同的角度进行理解和阐述。以下是对伪道学的详细分析:

一、定义与特征


定义:
伪道学通常指的是表面上标榜着高尚的道德或宗教教义,但背地里却干着与这些教义相悖之事的言行不一的现象。它不仅涉及对宗教或道德教义的歪曲和滥用,还包括了利用这些教义来谋取个人私利或进行不正当行为的情况。
特征:
言行不一:伪道学者在公众面前往往表现出对道德或宗教教义的尊崇和捍卫,但私下里却可能违背这些教义,做出不道德或非法的行为。
利用教义:他们可能会利用宗教或道德教义中的某些内容来为自己的不正当行为找借口或辩护,甚至以此来欺骗或误导他人。
追求私利:伪道学的核心往往是追求个人私利,无论是物质上的还是精神上的满足,他们都可能不择手段地利用宗教或道德教义来达到自己的目的。

二、表现形式与危害


表现形式:
伪宗教活动:一些人可能会打着宗教的旗号进行非法的宗教活动,如非法传教、收取高额费用等。
道德沦丧:伪道学者在道德上往往没有底线,可能会做出欺诈、背叛、贪污等恶劣行径。
文化扭曲:伪道学还可能表现为对传统文化的歪曲和滥用,如利用封建迷信来满足人们的心理需求或进行不正当的商业活动。
危害:
破坏宗教形象:伪道学的存在严重破坏了宗教在公众心目中的形象,使得人们对宗教产生误解和偏见。
损害社会道德:伪道学者的不道德行为会损害社会的整体道德水平,破坏社会的和谐与稳定。
误导群众:伪道学往往会利用人们的信仰需求进行欺骗和误导,使人们陷入迷信和盲从的境地。

三、如何辨别与防范


辨别方法:
观察言行:通过长期观察一个人的言行举止、对待他人的态度以及在面对利益冲突时的选择来判断其是否言行一致。
查阅背景:了解一个人的教育背景、工作经历和社会关系等,以便更全面地了解其为人处世的方式和价值观。
理性思考:对于任何宗教或道德教义,都要保持理性的思考态度,不盲目相信或跟风。
防范措施:
加强教育:提高公众对宗教和道德的认识水平,增强辨别真伪的能力。
依法打击:政府应依法打击伪宗教活动和道德沦丧行为,维护社会的公平正义。
营造氛围:营造一个真实、诚信、充满正能量的社会环境,让伪道学无处遁形。
综上所述,伪道学是一种言行不一、利用宗教或道德教义谋取私利的现象。它破坏了宗教形象、损害社会道德、误导群众,因此我们需要提高警惕、加强教育、依法打击并营造良好的社会环境来防范和抵制伪道学的蔓延。

前言


生成式 ai 的发展和逐渐成熟,给人们带来了便利的同时也给内容创作者带来了负面影响。它降低了资料原始出处的访问价值,减少了网站的利益(流量、收益和创作积极性)。如果你跟我一样,想在自己的网站屏蔽 ai 的抓取,那么这篇文章就是为你准备的。
这是一篇新手向教程。过程十分简单。

屏蔽原因


虽然我在前言中有所提及,但并没有特别深刻的剖析所谓的负面影响。因为本文的重点是屏蔽方法,而不是屏蔽原因。
你可以参考此文了解我的更多看法。

配置 robots.txt


具备最基本 seo 常识的站长应该都知道 robots.txt 是什么,它是一个用来控制搜索引擎爬虫抓取范围的文件。我们可以在 robots.txt 屏蔽某些页面/某些爬虫,或仅允许某些爬虫。
举个最典型的例子:
user-agent:*disallow:/admin/。
上述 robots.txt 规定了任何爬虫都不允许访问 /admin/ 路径的页面。这个声明非常常见,因为将网站后台索引到搜索引擎中是毫无意义的,还会招来不必要的风险。
当我们要屏蔽特定的爬虫时,就需要将 * 改为该爬虫的 user-agent 字符串。如果要屏蔽多个,那么就写上多个 user-agent 字段,再接一个 disallow 字段即可。
user-agent:gptbotuser-agent:claude-webuser-agent:claudebotdisallow:/。
以上 robots.txt 屏蔽了 chatgpt 和 claude 这两个目前最著名的 ai 产品的抓取。

扩充列表


在了解原理后,我们通过网友们整理好的 ai.robots.txt 仓库,进一步扩充 ai 爬虫的 ua 规则。

robots.txt 的可靠性


配置好 robots.txt 能代表相安无事吗?此文件真的能有效拒绝它们吗?
答案是否定的,因为 ai 的爬虫并不像搜索引擎爬虫那样成熟。它们可能会忽略 robots.txt 的后续更新,甚至在规则的解析和执行中发生错误。搜索引擎往往不用我们担心,因为从控制台能看到爬虫的行为,或自行测试搜索结果。但 ai 爬虫的行为就是黑盒,你什么也无法确定。所以我们要进一步的使用 nginx 屏蔽它们。

配置 nginx


如果你跟我一样并不信任 ai 爬虫的行为,那么就有必要在访问控制层面去屏蔽它们。nginx 是绝大多数网站都会使用的反向代理工具,在 nginx 层面可以轻松做到针对 user-agent 的屏蔽。
我们添加以下配置片段:
set $is_bot 0;# 定义变量表示此次访问是否为 ai bot,默认为 0(否)if ($http_user_agent ~* (gptbot|claude-web|claudebot)) { # 如果请求的 user-agent 和 ai bot 的规则匹配,那么设置 `is_bot` 为 1(是) set $is_bot 1;}if ($is_bot = 1) { # 如果是 ai bot,返回 403 return 403;}
nginx 中的 $http_user_agent 是一个内置变量,表示当前请求的 user-agent 字符串。~* 是一个正则匹配操作符(忽略大小写)。我们用正则来判断请求是否是 ai bot,如果是就返回 403 页面。
进一步的,按照扩充列表章节中的开源仓库补充正则,就能轻易的从访问控制层面屏蔽这些 ai 爬虫。现在无论这些爬虫是否遵循 robots.txt 规则,我们都能有效的拒绝它们。
现实情况是,往往这个列表太长了。所以单纯的 if 和正则并不推荐,我们应该将其转换为 map 块,如下:
map $http_user_agent $user_agent_from_ai { default 0;# 默认值为 0 ~*gptbot 1; ~*claude-web 1; ~*claudebot 1; ~*kangaroo\sbot 1; # 添加更多...}
注意以上的 kangaroo\sbot,它实际上对应 kangaroo bot。但我们不能包含空格,因为它会被解析为新的参数。使用正则表达式中的 \s 来表示一个空格。
最后用 if 判断 $user_agent_from_ai 的值:
if ($user_agent_from_ai = 1) { # 如果是 ai bot,返回 403 return 403;}

足够了吗


答案仍然是否定的。尽管在以上方法中,我们貌似在“约定”层面和“访问”层面都拒绝了它们,但这基于我们对 ai 公司/爬虫一定程度上的信任。
起码我们认为它们不会伪装而是使用固定的 user-agent。所以这样做只能防君子,不防小人。假设爬虫简单的伪装一下自己,访问控制就失效了。不过,我仍然认为行业巨头在这方面是值得信任的,但小团队的产品就不一定了。
要屏蔽经过伪装的 ai 爬虫其实是很困难的,但也不是没有办法。如果对大量的 nginx 日志/请求日志进行复杂的特征/行为分析,我认为能一定程度上识别出爬虫。甚至收集到它们的 ip 地址,针对 ip 进行更彻底的屏蔽。但我们往往没有那么庞大的数据量来做这样的分析,若是 cloudflare 这样的大型 cdn 服务商,那就有条件做到。恰好我了解到 cloudflare 已经研发了相应的功能,并且是免费使用的。

使用 cloudflare


进入 cloudflare 的“安全性” ->“自动程序”页面,勾选“阻止 ai 爬虫程序和爬网程序”功能即可。
此功能可以一定程度屏蔽具有伪装性的爬虫,也包括老实使用自己的 user-agent 的爬虫。如果使用过 cloudflare 的防火墙等抵御攻击相关的功能,应该会知道它们有对客户端 ip 进行评分,以及可靠的指纹识别、大模型行为识别等技术。所以我认为 cloudflare 还是可以做好这部分的。
那么使用这个功能,会对 seo 造成影响吗?毕竟搜索引擎的爬虫也可能具有明显的特征。好问题,cloudflare 自然也考虑到了。它们维护了一个已验证机器人列表,其中包含几乎已知的主流搜索引擎爬虫,并允许它们的抓取。

对抗 ai


以上配置中我们对 ai 爬虫响应 403,但它不是唯一可取的响应方式。如果你认为有些爬虫过于困扰,反复变化毫无规则。那么就成全它让它抓取吧,先收集其 ip 并然后使用 miragend 来污染它。

结束语


这就是屏蔽 ai 爬虫的方法了。不过请注意,此文的方法仍然比较基础,适合个人。如果有大型互联网平台/社区需要这方面的支持,可以联系我,我提供收费的技术支持。当然,如果有效果更好的适合新手的方法,我也会毫不犹豫的分享出来。毕竟我是一个坚定的生成式 ai 无授权抓取内容行为的反对者。
领导点名要带你出差,此事不可轻易拒绝。从职场发展的角度而言,这或许是一个机会。领导带你出差,要么是在考察你,要么是需要借助你的能力。若拒绝,可能就会错失在领导面前表现的良机。
从法律方面来讲,临时出差(不超过3个月)按规定应服从安排,长期出差(超过3个月)涉及工作地点变更,可以协商拒绝。但若无特殊情况,还是一同前往较好。毕竟这可能是职场晋升的一个契机,只要留意像乘车礼仪之类的细节,或许就会被领导另眼相看。
答案是,导弹跟不上。陨石的速度是飞快到爆炸的44-200倍,导弹根本追不上。现在工业城市多得很,一旦陨落,破坏后果不堪设想。既然拦截不了,真的是束手无策。那个速度,人类根本无法应对。你们觉得,人类有办法拦截陨石吗?