↑日記で日々積み重ねた情報をトップの「わんこのページ」にまとめています。

おのたく日記 [RDF] YouTubeも始めました→


2024-12-29(Sun) [長年日記]

おうちサーバが重いと思ったらAnthropicから激しいアクセスが

マインクラフトをやっている子どもたちが、うちのマインクラフトサーバが遅いと言っているので調べてみたら。

どうやらWebサーバにアクセスが来て、そのさきのMariaDBとか含めて忙しくなっているみたいなので、ログを見たら

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-118-144-50.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-118-144-50.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com

[29/Dec/2024:00:20:22 +0900] ClaudeBot/1.0; +claudebot@anthropic.com)" ec2-18-226-88-18.us-east-2.compute.amazonaws.com

とな感じで、最近流行りの生成AIで、CloudeというLLMを出しているAnthropicから1秒あたり10回の猛アクセスが来ていた。

クローラのためではない、おうちの非力なサーバは、こんなクローリングには耐えられない。

一時間の転送バイト数で見てみると

時刻 バイト数

29/Dec/2024:00:00 102983126

29/Dec/2024:01:00 113002871

29/Dec/2024:02:00 111779564

29/Dec/2024:03:00 116502868

29/Dec/2024:04:00 114251264

29/Dec/2024:05:00 115431162

29/Dec/2024:06:00 115529007

29/Dec/2024:07:00 113630792

29/Dec/2024:08:00 98580010

29/Dec/2024:09:00 7209040

29/Dec/2024:10:00 113607729

29/Dec/2024:11:00 115349690

29/Dec/2024:12:00 109150164

29/Dec/2024:13:00 111299203

29/Dec/2024:14:00 113046010

29/Dec/2024:15:00 99314245

29/Dec/2024:16:00 110396331

29/Dec/2024:17:00 111492904

29/Dec/2024:18:00 15216338

サーバが忙しい9時前後は減っているけど、1時間あたり100MBのアクセスがずっと続いていた。

接続先別で見ると

バイト数 要求元

2783954 ec2-13-59-83-202.us-east-2.compute.amazonaws.com

2792366 ec2-3-138-178-162.us-east-2.compute.amazonaws.com

2809782 ec2-3-12-76-168.us-east-2.compute.amazonaws.com

2834601 ec2-18-220-110-45.us-east-2.compute.amazonaws.com

2836005 ec2-3-145-73-167.us-east-2.compute.amazonaws.com

3004271 ec2-18-223-158-29.us-east-2.compute.amazonaws.com

...ずっとつづく

と午後6時までで1113台!のAWSを使って1台あたり3MBづつアクセスしてきていた。

生成AIの学習用データが必要なんだろうけど、こんな辺境なサーバーまでご苦労さま。

持っていったデータは、検索条件のタグを変えてるだけの同じデータです。

というわけで、robot.txtに

User-agent: ClaudeBot

Disallow: /

と書いて様子を見てみる。

クローラーのくせに1秒間に10回もアクセスしているので、robot.txtを読んでいないような気もしたけど、

ec2-3-149-239-70.us-east-2.compute.amazonaws.com - - [29/Dec/2024:19:56:26 +0900] "GET /robots.txt HTTP/2.0" 200 2033 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)"

ちゃんと見てくれて、クロールが止まった。

あとで調べたら12月のアクセスの74%、11月は60%がClaudeBotだったよ。

本日のPingbacks(全0件)

Google Web検索 on-o.com内を検索