普通视图

Received before yesterday

Liu Zijian's Blog
使用Filebeat采集Nginx日志到ES 2026年4月18日 00:00

使用Filebeat采集Nginx日志到ES

Liu Zijian's Blog

2026年4月18日 00:00

filebeat是传统elk组件中logstach的升级替代，能够高性能的采集一些中间件的日志到es中，供检索分析。

1.安装filebeat

首先要安装filebeat到nginx所在服务器，因为我的服务器是rocky linux属于redhat系，故这里通过yum安装，先设置安装源

导入GPG-KEY

rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch

新建一个elastic.repo文件在/etc/yum.repos.d下，并粘贴安装源地址

vim /etc/yum.repos.d/elastic.repo

[elastic-9.x]name=Elastic repository for 9.x packagesbaseurl=https://artifacts.elastic.co/packages/9.x/yumgpgcheck=1gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearchenabled=1autorefresh=1type=rpm-md

接下来执行安装，直到安装完成

yum install filebeat -y

2.设置nginx和filebeat

首先确认nginx的日志路径和日志格式，一般日志路径默认就是：

/var/log/nginx/access.log 常规访问日志
/var/log/nginx/error.log 错误日志

在nginx.conf配置文件中，默认的日志格式是：

log_format  main  ' $remote_addr - $remote_user [$time_local] "$request" '                  '$status $body_bytes_sent "$http_referer" '                  '"$http_user_agent" "$http_x_forwarded_for"';

为了区分各个主机的访问记录，我选择增加一个主机的字段：$host

log_format  main  '$host $remote_addr - $remote_user [$time_local] "$request" '                  '$status $body_bytes_sent "$http_referer" '                  '"$http_user_agent" "$http_x_forwarded_for"';

亲测filebeat可以识别上述的日志格式，自动提取有效信息

然后设置filebeat，通过yum安装的filebeat，默认全局配置文件位于/etc/filebeat/filebeat.yml，有这样几项需要修改

output.elasticsearch:  # 改成自己es地址和端口  hosts: ["localhost:9016"]  # 改成自己的索引格式  index: "nginx-logs-%{+yyyy.MM.dd}"  # 通信协议按需要修改  protocol: "http"  # es用户名密码，必须设置  username: "elastic"  password: "***************"# 需要新增这两项，索引数据格式模板名称setup.template.name: "nginx-logs"setup.template.pattern: "nginx-logs-*"

然后对nginx的采集功能进行设置，filebeat支持很多中间件的日志采集，通过yum安装的filebeat，默认的各中间件的采集配置文件位于：/etc/filebeat/modules.d/

首先要将默认的nginx配置文件nginx.yml.disabled复制出一份nginx.yml，因为最后filebeat只会自动导入读取.yml结尾的文件

cp /etc/filebeat/modules.d/nginx.yml.disabled /etc/filebeat/modules.d/nginx.yml

vim编辑/etc/filebeat/modules.d/nginx.yml配置文件，针对nginx的采集进行配置

- module: nginx  # 打开常规访问日志采集，指定日志路径  access:    enabled: true    var.paths: ["/var/log/nginx/access.log"]    var.timezone: "Asia/Shanghai"  # 打开错误日志采集，指定日志路径  error:    enabled: true    var.paths: ["/var/log/nginx/error.log"]    var.timezone: "Asia/Shanghai"

都修改完成后，通过filebeat test config命令，验证配置文件是否有语法错误

[root@VM-0-3-rockylinux ~]# filebeat test configConfig OK

然后启动filebeat，并且能看到进程，启动成功

[root@VM-0-3-rockylinux ~]# systemctl start filebeat[root@VM-0-3-rockylinux ~]# ps -ef | grep filebeatroot      279214       1  0 Apr17 ?        00:00:09 /usr/share/filebeat/bin/filebeat --environment systemd -c /etc/filebeat/filebeat.yml --path.home /usr/share/filebeat --path.config /etc/filebeat --path.data /var/lib/filebeat --path.logs /var/log/filebeatroot      484905  454652  0 14:33 pts/2    00:00:00 grep --color=auto filebeat

3.查看索引

登录kibana，打开开发工具，就能看到filebeat建的索引和采集到的日志了，还可以根据业务需要制作图表等

还可以通过检索，根据各种字段进行聚合，通过访问规律查出一些攻击和刺探的恶意请求，例如：

1.查询某一天，某个主机下，某个IP访问某个路径的次数，可以很容易发现恶意请求的规律，揪出恶意访问者

GET /nginx-logs-2026.04.18/_search

{  "size": 0,   "aggs": {    "domain_counts": {      "terms": {        "field": "url.domain",      "size": 20000      },      "aggs": {        "domains_per_ip": {          "terms": {            "field": "source.ip",            "size": 20000                      },          "aggs": {            "domains_per_path": {              "terms": {                "field": "url.path",                "size": 20000                              }            }          }        }      }    }  }}

2.查询某个IP地址段的访问记录

GET /nginx-logs-2026.04.25/_search

{  "size": 8000,  "query": {    "match": {      "source.ip": "221.229.0.0/16"    }  },  "sort": [    {      "@timestamp": {        "order": "asc"      }    }  ]  }

obaby@mars
弱弱的问一下，我的网站怎么被镜像了嗫？ 2026年4月1日 11:18

弱弱的问一下，我的网站怎么被镜像了嗫？

obaby@mars

作者obaby

2026年4月1日 11:18

其实网站被镜像这件事情，本身没什么稀奇的，如果想搭建一个镜像网站，从零开始也不过个吧小时的时间。

之所以写这个东西，是因为最近有看到好几个人被镜像的，这一个（爱娃子），还有这一个（我是军爸）。

不过，既然还有人有疑惑，那就简单的教一下大家怎么来镜像个网站吧。

为此，我创建了一个开源项目：

OpenResty + OpenCC 反向代理简繁转换

基于 OpenResty 反向代理上游站点，对 HTML 正文 做 OpenCC 简繁转换（默认：简体 → 繁体，配置文件为 s2t.json）。适合在不改源站的情况下，为访客提供另一种字体习惯版本。

功能概览

能力	说明
反向代理	HTTPS 回源（示例站点：`zhongxiaojie.cn`），客户端走本机证书与域名。
HTML 简繁转换	仅当 `Content-Type` 含 `text/html` 时对整页做 OpenCC UTF-8 转换。
gzip 解压	通过 Lua `zlib` 尝试解压响应体（与去掉 `Content-Encoding` 的配合视上游行为而定）。
链接与图片 URL 保护	转换前将 `href` / `src` / `poster` / `data-src` / `srcset` 及裸 `http(s)://` 链接替换为占位符，转换后还原，避免路径或查询串中的汉字被改写导致 404。
IPv4 优先解析	`resolver … ipv6=off` + 变量 `proxy_pass`，减轻云主机无 IPv6 时对 AAAA 连接失败的问题。
静态资源直过	图片、CSS、JS、字体等扩展名单独 `location`，不做 OpenCC，减轻负担、避免误伤二进制。
动态库加载	对 `libopencc.so` 按常见路径依次尝试 `ffi.load`，降低找不到共享库的概率。

限制与说明

JSON / JS / CSS 内嵌字符串若不在上述保护规则内，仍可能被转换；重要数据建议不要用全文 HTML OpenCC 硬转。
内联样式 style="background:url(...)" 未单独做保护，若遇少数破图可再扩展规则。
转换配置在 nginx/opencc/opencc-filter.lua 中的 OPENCC_CONFIG（默认 /usr/share/opencc/s2t.json）；若需 繁体 → 简体 可改为 t2s.json 等（需系统已安装对应 OpenCC 数据文件）。

部署要求

OpenResty（带 lua-nginx-module）。
OpenCC 运行时：系统安装 libopencc.so 与词典数据（如 /usr/share/opencc/*.json），并保证 worker 进程能加载到 .so（见下文「共享库」）。
Lua 可 require('zlib') 的模块（用于 zlib.inflate，若无 gzip 体则 pcall 失败会跳过解压，不影响后续逻辑）。
上游为 HTTPS 时，本机需能解析并访问该域名（已用 resolver 时 VARIABLE 形式 proxy_pass 才会走指定 resolver）。

部署步骤

1. 安装 OpenCC 与数据文件

以 Debian / Ubuntu 为例（包名因发行版略有差异）：

sudo apt update 
sudo apt install -y libopencc1.1 opencc # 或 libopencc2 等，以仓库为准 
或者手工复制 lib64目录下的文件到 脚本对应的路径就是这个 /usr/lib64

确认存在词典，例如：

ls /usr/share/opencc/s2t.json

2. 确保能找到 `libopencc.so`

若日志出现 libopencc.so: cannot open shared object file：

将库放在系统默认搜索路径，例如 Ubuntu amd64：
```
ldconfig -p | grep opencc
```
若库仅在 /usr/lib64 等非默认路径，可执行（与仓库 fix.md 一致）：

echo '/usr/lib64' | sudo tee /etc/ld.so.conf.d/usr-lib64.conf sudo ldconfig

或在 OpenResty 的 systemd 单元 中设置 Environment="LD_LIBRARY_PATH=/usr/lib64:/usr/local/lib" 后重启。

脚本内已对多路径做了 ffi.load 尝试；仍失败时请对照 ldd 与 opencc 包实际安装位置排查。

3. 部署 Lua 脚本

将 nginx/opencc/opencc-filter.lua 复制到服务端约定路径（与 nginx 配置一致），例如：

sudo mkdir -p /usr/local/openresty/lua 
sudo cp nginx/opencc/opencc-filter.lua /usr/local/openresty/lua/opencc-filter.lua

按需修改脚本顶部 OPENCC_CONFIG 指向本机实际的 JSON 配置。

4. 合并 Nginx / OpenResty 配置

将 zero.zhongxiaojie.cn.conf 中的 server 块纳入主配置（include 或粘贴到 nginx.conf 的 http {} 下）。
修改 证书路径、日志路径、上游域名 zhongxiaojie.cn、以及 body_filter_by_lua_file 的路径，使其与当前环境一致。
header_filter_by_lua 中去除 Content-Encoding，便于对明文 HTML 做处理；若上游与解压逻辑不匹配，需自行观察是否需要调整。

5. 校验并重载

sudo /usr/local/openresty/nginx/sbin/nginx -t 
sudo /usr/local/openresty/nginx/sbin/nginx -s reload 
# 或 systemctl reload openresty

6. 验证

浏览器访问你的站点，查看页面简繁是否符合预期。
检查 图片与站内链接是否正常（尤其含中文或 % 编码的路径）。
error.log 中不应再出现 OpenCC 库加载失败或大量 IPv6 unreachable（在无 IPv6 环境）。

配置项速查

项目	位置
OpenCC 配置 JSON	`opencc-filter.lua` → `OPENCC_CONFIG`
Lua 脚本路径	`zero.zhongxiaojie.cn.conf` → `body_filter_by_lua_file`
上游站点	`set $upstream_host …` 与 `proxy_pass https://$upstream_host$request_uri`
DNS / 仅 IPv4	`resolver 223.5.5.5 8.8.8.8 valid=300s ipv6=off`
不参与转换的静态文件	`location ~* .(gif

故障排查

现象	可能原因
`libopencc.so` 找不到	未安装包、`ldconfig` 未包含库目录，或需 `LD_LIBRARY_PATH`
body_filter 报错、栈指向 `ffi.load`	同上；或架构不一致（如 32/64 位混用）
上游连接 IPv6 失败	已用 `ipv6=off` + 变量 `proxy_pass`；仍失败则检查防火墙与 DNS
图片 404	历史上多为 OpenCC 改了 URL 内汉字；当前脚本对常见属性已做保护，若仍有个别，检查是否来自 CSS `url()` 或 JS 动态拼接

如需改为其他域名、证书路径或 t2s 转换方向，只需改配置文件与 OPENCC_CONFIG，无需改 OpenResty 核心。

实际效果：

开源项目地址：https://gitee.com/obaby/baby-website-mirroring-tool

参考链接：https://blog.csdn.net/wzj_110/article/details/127758020

https://blog.rexskz.info/support-traditional-chinese-using-openresty-and-opencc.html