伪道学是一个复杂且多维度的概念,可以从不同的角度进行理解和阐述。以下是对伪道学的详细分析:

一、定义与特征


定义:
伪道学通常指的是表面上标榜着高尚的道德或宗教教义,但背地里却干着与这些教义相悖之事的言行不一的现象。它不仅涉及对宗教或道德教义的歪曲和滥用,还包括了利用这些教义来谋取个人私利或进行不正当行为的情况。
特征:
言行不一:伪道学者在公众面前往往表现出对道德或宗教教义的尊崇和捍卫,但私下里却可能违背这些教义,做出不道德或非法的行为。
利用教义:他们可能会利用宗教或道德教义中的某些内容来为自己的不正当行为找借口或辩护,甚至以此来欺骗或误导他人。
追求私利:伪道学的核心往往是追求个人私利,无论是物质上的还是精神上的满足,他们都可能不择手段地利用宗教或道德教义来达到自己的目的。

二、表现形式与危害


表现形式:
伪宗教活动:一些人可能会打着宗教的旗号进行非法的宗教活动,如非法传教、收取高额费用等。
道德沦丧:伪道学者在道德上往往没有底线,可能会做出欺诈、背叛、贪污等恶劣行径。
文化扭曲:伪道学还可能表现为对传统文化的歪曲和滥用,如利用封建迷信来满足人们的心理需求或进行不正当的商业活动。
危害:
破坏宗教形象:伪道学的存在严重破坏了宗教在公众心目中的形象,使得人们对宗教产生误解和偏见。
损害社会道德:伪道学者的不道德行为会损害社会的整体道德水平,破坏社会的和谐与稳定。
误导群众:伪道学往往会利用人们的信仰需求进行欺骗和误导,使人们陷入迷信和盲从的境地。

三、如何辨别与防范


辨别方法:
观察言行:通过长期观察一个人的言行举止、对待他人的态度以及在面对利益冲突时的选择来判断其是否言行一致。
查阅背景:了解一个人的教育背景、工作经历和社会关系等,以便更全面地了解其为人处世的方式和价值观。
理性思考:对于任何宗教或道德教义,都要保持理性的思考态度,不盲目相信或跟风。
防范措施:
加强教育:提高公众对宗教和道德的认识水平,增强辨别真伪的能力。
依法打击:政府应依法打击伪宗教活动和道德沦丧行为,维护社会的公平正义。
营造氛围:营造一个真实、诚信、充满正能量的社会环境,让伪道学无处遁形。
综上所述,伪道学是一种言行不一、利用宗教或道德教义谋取私利的现象。它破坏了宗教形象、损害社会道德、误导群众,因此我们需要提高警惕、加强教育、依法打击并营造良好的社会环境来防范和抵制伪道学的蔓延。

前言


生成式 ai 的发展和逐渐成熟,给人们带来了便利的同时也给内容创作者带来了负面影响。它降低了资料原始出处的访问价值,减少了网站的利益(流量、收益和创作积极性)。如果你跟我一样,想在自己的网站屏蔽 ai 的抓取,那么这篇文章就是为你准备的。
这是一篇新手向教程。过程十分简单。

屏蔽原因


虽然我在前言中有所提及,但并没有特别深刻的剖析所谓的负面影响。因为本文的重点是屏蔽方法,而不是屏蔽原因。
你可以参考此文了解我的更多看法。

配置 robots.txt


具备最基本 seo 常识的站长应该都知道 robots.txt 是什么,它是一个用来控制搜索引擎爬虫抓取范围的文件。我们可以在 robots.txt 屏蔽某些页面/某些爬虫,或仅允许某些爬虫。
举个最典型的例子:
user-agent:*disallow:/admin/。
上述 robots.txt 规定了任何爬虫都不允许访问 /admin/ 路径的页面。这个声明非常常见,因为将网站后台索引到搜索引擎中是毫无意义的,还会招来不必要的风险。
当我们要屏蔽特定的爬虫时,就需要将 * 改为该爬虫的 user-agent 字符串。如果要屏蔽多个,那么就写上多个 user-agent 字段,再接一个 disallow 字段即可。
user-agent:gptbotuser-agent:claude-webuser-agent:claudebotdisallow:/。
以上 robots.txt 屏蔽了 chatgpt 和 claude 这两个目前最著名的 ai 产品的抓取。

扩充列表


在了解原理后,我们通过网友们整理好的 ai.robots.txt 仓库,进一步扩充 ai 爬虫的 ua 规则。

robots.txt 的可靠性


配置好 robots.txt 能代表相安无事吗?此文件真的能有效拒绝它们吗?
答案是否定的,因为 ai 的爬虫并不像搜索引擎爬虫那样成熟。它们可能会忽略 robots.txt 的后续更新,甚至在规则的解析和执行中发生错误。搜索引擎往往不用我们担心,因为从控制台能看到爬虫的行为,或自行测试搜索结果。但 ai 爬虫的行为就是黑盒,你什么也无法确定。所以我们要进一步的使用 nginx 屏蔽它们。

配置 nginx


如果你跟我一样并不信任 ai 爬虫的行为,那么就有必要在访问控制层面去屏蔽它们。nginx 是绝大多数网站都会使用的反向代理工具,在 nginx 层面可以轻松做到针对 user-agent 的屏蔽。
我们添加以下配置片段:
set $is_bot 0;# 定义变量表示此次访问是否为 ai bot,默认为 0(否)if ($http_user_agent ~* (gptbot|claude-web|claudebot)) { # 如果请求的 user-agent 和 ai bot 的规则匹配,那么设置 `is_bot` 为 1(是) set $is_bot 1;}if ($is_bot = 1) { # 如果是 ai bot,返回 403 return 403;}
nginx 中的 $http_user_agent 是一个内置变量,表示当前请求的 user-agent 字符串。~* 是一个正则匹配操作符(忽略大小写)。我们用正则来判断请求是否是 ai bot,如果是就返回 403 页面。
进一步的,按照扩充列表章节中的开源仓库补充正则,就能轻易的从访问控制层面屏蔽这些 ai 爬虫。现在无论这些爬虫是否遵循 robots.txt 规则,我们都能有效的拒绝它们。
现实情况是,往往这个列表太长了。所以单纯的 if 和正则并不推荐,我们应该将其转换为 map 块,如下:
map $http_user_agent $user_agent_from_ai { default 0;# 默认值为 0 ~*gptbot 1; ~*claude-web 1; ~*claudebot 1; ~*kangaroo\sbot 1; # 添加更多...}
注意以上的 kangaroo\sbot,它实际上对应 kangaroo bot。但我们不能包含空格,因为它会被解析为新的参数。使用正则表达式中的 \s 来表示一个空格。
最后用 if 判断 $user_agent_from_ai 的值:
if ($user_agent_from_ai = 1) { # 如果是 ai bot,返回 403 return 403;}

足够了吗


答案仍然是否定的。尽管在以上方法中,我们貌似在“约定”层面和“访问”层面都拒绝了它们,但这基于我们对 ai 公司/爬虫一定程度上的信任。
起码我们认为它们不会伪装而是使用固定的 user-agent。所以这样做只能防君子,不防小人。假设爬虫简单的伪装一下自己,访问控制就失效了。不过,我仍然认为行业巨头在这方面是值得信任的,但小团队的产品就不一定了。
要屏蔽经过伪装的 ai 爬虫其实是很困难的,但也不是没有办法。如果对大量的 nginx 日志/请求日志进行复杂的特征/行为分析,我认为能一定程度上识别出爬虫。甚至收集到它们的 ip 地址,针对 ip 进行更彻底的屏蔽。但我们往往没有那么庞大的数据量来做这样的分析,若是 cloudflare 这样的大型 cdn 服务商,那就有条件做到。恰好我了解到 cloudflare 已经研发了相应的功能,并且是免费使用的。

使用 cloudflare


进入 cloudflare 的“安全性” ->“自动程序”页面,勾选“阻止 ai 爬虫程序和爬网程序”功能即可。
此功能可以一定程度屏蔽具有伪装性的爬虫,也包括老实使用自己的 user-agent 的爬虫。如果使用过 cloudflare 的防火墙等抵御攻击相关的功能,应该会知道它们有对客户端 ip 进行评分,以及可靠的指纹识别、大模型行为识别等技术。所以我认为 cloudflare 还是可以做好这部分的。
那么使用这个功能,会对 seo 造成影响吗?毕竟搜索引擎的爬虫也可能具有明显的特征。好问题,cloudflare 自然也考虑到了。它们维护了一个已验证机器人列表,其中包含几乎已知的主流搜索引擎爬虫,并允许它们的抓取。

对抗 ai


以上配置中我们对 ai 爬虫响应 403,但它不是唯一可取的响应方式。如果你认为有些爬虫过于困扰,反复变化毫无规则。那么就成全它让它抓取吧,先收集其 ip 并然后使用 miragend 来污染它。

结束语


这就是屏蔽 ai 爬虫的方法了。不过请注意,此文的方法仍然比较基础,适合个人。如果有大型互联网平台/社区需要这方面的支持,可以联系我,我提供收费的技术支持。当然,如果有效果更好的适合新手的方法,我也会毫不犹豫的分享出来。毕竟我是一个坚定的生成式 ai 无授权抓取内容行为的反对者。
领导点名要带你出差,此事不可轻易拒绝。从职场发展的角度而言,这或许是一个机会。领导带你出差,要么是在考察你,要么是需要借助你的能力。若拒绝,可能就会错失在领导面前表现的良机。
从法律方面来讲,临时出差(不超过3个月)按规定应服从安排,长期出差(超过3个月)涉及工作地点变更,可以协商拒绝。但若无特殊情况,还是一同前往较好。毕竟这可能是职场晋升的一个契机,只要留意像乘车礼仪之类的细节,或许就会被领导另眼相看。
答案是,导弹跟不上。陨石的速度是飞快到爆炸的44-200倍,导弹根本追不上。现在工业城市多得很,一旦陨落,破坏后果不堪设想。既然拦截不了,真的是束手无策。那个速度,人类根本无法应对。你们觉得,人类有办法拦截陨石吗?
非警务警情是相对于警务警情而言的,它涵盖了公安机关法定权责范围之外的各类警情,主要包括民间纠纷报警和非紧急的私人求助。民间纠纷,如夫妻矛盾、邻居纠纷、消费纠纷和劳动纠纷等,是公民间或公民与单位间在日常生活、工作及生产经营中产生的,这类案件不涉及治安违法犯罪,警察仅负责调解而无执法权。而非紧急的私人求助,如门锁难开、寻找宠物、水管维修等,是公民为个人利益所提出的非紧急需求,不符合法定求助报警的条件,因此被视为非警务警情。近年来,城市基层派出所接收的非警务警情数量逐渐上升,有成为其主流业务之虞。人们‬不禁要问‬‬,非警务警情产生的根源是什么。
随着改革开放的深入,加之‬城市化进程加速,新事务与新矛盾层出不穷,而法律法规的制定却常常滞后,导致“治理真空”现象频现,亟需政府部门填补。同时,社会转型与体制转轨使得基层社会控制能力减弱,社区、单位矛盾调处力衰退,公安机关承受了巨大的治安压力。公安机关内部也曾一度受社会不良风气侵蚀,出现滥用职权等“陋习”,严重损害了警察形象。为此,上世纪90年代,公安部门积极改革,福建漳州110接处警模式应运而生,并全国推广。公安机关致力于打造“服务型”执法机构,成功重塑形象,赢得了群众的广泛认可与支持,自此‬,反应型警务与服务型执法机关建设成为基层公安的主流模式。
当前我国正处于社会矛盾凸显期,维护社会稳定成为了地方党委、政府面临的重大挑战,对其工作提出了更高的要求。与此同时,我国法律体系虽在不断完善,但仍存在部分法律“真空地带”,使得‬在实际执法过程中出现了大量“执法难、执行难”的现象。公安机关作为政府的一个重要职能部门,肩负着维护社会稳定和社会管治的重任,为确保各项行政执法活动能够顺利实施,避免因法律空白或执行难题而节外生枝,需提高行政效能。在此背景下,公安机关适度参与一定的非警务活动,既是为了更好地履行其职责,也符合组织原则要求,有助于全面提升社会治理效能。
有些国家秉持警察中立论,认为警察应不干涉政治、不妨害人民自由,且不归属于任何党派。而在我国,警察不仅承担维护社会治安的法定职责,还肩负巩固执政党地位、维护国家政治稳定的政治责任。我国公安机关实行“条块结合、以块为主”的管理体制,正‬是非警务活动长期存在的政治根源。公安机关兼具行政与刑事司法双重性质,既是政府的职能部门,行使国家行政权,又负责刑事案件侦查,行使国家刑事‬司法权。依据《人民警察法》,公安机关必须无条件执行上级及同级党委、政府的决定。实践中,公安机关作为除军队外最具强制力的机关,常被政府指令参与联合执法,且需无条件服从配合‬。
执行法律、维持秩序、提供服务,这三项基本职能是世界各国警察的共通之处,也是社会控制的核心要素,我国亦然。法律的执行范围虽有限,但秩序的维护却是无边界的,为非警务活动提供了客观条件。从职责范畴来看,公安机关肩负着“预防、制止和侦查违法犯罪活动”的法定职责,而“预防”这一目的,正是公安机关介入非警务活动的法律依据。从某种意义上说,非警务活动可‬视为‬公安机关为预防各类案件发生、最大限度保护公共利益而提前介入的“警务活动”。反之,若公安机关不提前介入,许多非警务活动最终会‬演变为治安、刑事案件,从而转化为警务活动。从执法效果来看,主动介入显然优于被动介入。
公安机关集行政执法与刑事司法双重职责于一身,形成了“集权制”的警察模式。这一模式的一大弊端就是职能定位不够明确,导致警察职能泛化,对自身职责界限认识不清。在现实生活中,受传统习惯影响,民众无论遇到何种困难,往往首先想到求助人民警察。而“110报警服务台”的字面含义就涵盖了“报警”与“服务”两层意思。根据公安部相关规定,“报警”受理范围广泛,包括刑事案件、治安事件、危及人身财产安全的群体性事件等,而“服务”则涉及紧急救助、人员走失查找、公众危难救助以及公共设施险情处置等多方面。然而,模糊的规定范围,使得非警务活动大量涌入,进一步加剧了警察职责的泛化现象。
在社会转型及‬社会控制能力弱化的背景下,大量本应由社会内部解决的矛盾外溢至公共领域,公安部门因此承担起矛盾化解的职责,并努力建设服务型执法机构。民众越来越习惯依赖公安机关解决矛盾纠纷,使得‬各类非警务警情大量涌入基层派出所。这些非警务警情的存在,映射出城市治理中的资源分散、权威缺失与矛盾极化等痛点,源自城市治理事务的复杂性、社会控制的弱化及民间权威的缺失。基层民警‬在处理非警务警情时,虽面临权责失衡、警力挤兑等困境,但也在一定程度上回应了治理需求,通过接处警创造治理空间,运用资源链接、权威重塑和矛盾控制等手段,发挥回应诉求与解决矛盾的兜底作用。