おのたく日記
YouTubeも始めました→
2024-12-29(Sun) [長年日記]
■ おうちサーバが重いと思ったらAnthropicから激しいアクセスが
マインクラフトをやっている子どもたちが、うちのマインクラフトサーバが遅いと言っているので調べてみたら。
どうやらWebサーバにアクセスが来て、そのさきのMariaDBとか含めて忙しくなっているみたいなので、ログを見たら
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-118-144-50.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-118-144-50.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com
[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com
とな感じで、最近流行りの生成AIで、CloudeというLLMを出しているAnthropicから1秒あたり10回の猛アクセスが来ていた。
クローラのためではない、おうちの非力なサーバは、こんなクローリングには耐えられない。
一時間の転送バイト数で見てみると
時刻 バイト数
29/Dec/2024:00:00 102983126
29/Dec/2024:01:00 113002871
29/Dec/2024:02:00 111779564
29/Dec/2024:03:00 116502868
29/Dec/2024:04:00 114251264
29/Dec/2024:05:00 115431162
29/Dec/2024:06:00 115529007
29/Dec/2024:07:00 113630792
29/Dec/2024:08:00 98580010
29/Dec/2024:09:00 7209040
29/Dec/2024:10:00 113607729
29/Dec/2024:11:00 115349690
29/Dec/2024:12:00 109150164
29/Dec/2024:13:00 111299203
29/Dec/2024:14:00 113046010
29/Dec/2024:15:00 99314245
29/Dec/2024:16:00 110396331
29/Dec/2024:17:00 111492904
29/Dec/2024:18:00 15216338
サーバが忙しい9時前後は減っているけど、1時間あたり100MBのアクセスがずっと続いていた。
接続先別で見ると
バイト数 要求元
2783954 ec2-13-59-83-202.us-east-2.compute.amazonaws.com
2792366 ec2-3-138-178-162.us-east-2.compute.amazonaws.com
2809782 ec2-3-12-76-168.us-east-2.compute.amazonaws.com
2834601 ec2-18-220-110-45.us-east-2.compute.amazonaws.com
2836005 ec2-3-145-73-167.us-east-2.compute.amazonaws.com
3004271 ec2-18-223-158-29.us-east-2.compute.amazonaws.com
...ずっとつづく
と午後6時までで1113台!のAWSを使って1台あたり3MBづつアクセスしてきていた。
生成AIの学習用データが必要なんだろうけど、こんな辺境なサーバーまでご苦労さま。
持っていったデータは、検索条件のタグを変えてるだけの同じデータです。
というわけで、robot.txtに
User-agent: ClaudeBot
Disallow: /
と書いて様子を見てみる。
クローラーのくせに1秒間に10回もアクセスしているので、robot.txtを読んでいないような気もしたけど、
ec2-3-149-239-70.us-east-2.compute.amazonaws.com - - [29/Dec/2024:19:56:26 +0900] "GET /robots.txt HTTP/2.0" 200 2033 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)"
ちゃんと見てくれて、クロールが止まった。
あとで調べたら12月のアクセスの74%、11月は60%がClaudeBotだったよ。
|
|