Ik krijg ineens deze bot op bezoek: Python-urllib. En die gaat me toch te keer. Meer dan 300.000 bits al deze maand en meer dan 3 gb.
Weet iemand wat dit is? Moet ik die blocken? En zo ja hoe dan?
Ik heb even in wat forums gekeken en zie dat ie via robots.txt geblocked kan worden. Maar op een ander forum zag ik dat het wel eens de Google Bot kan zijn…
Iemand ervaring mee?
Hans, is dit niet gewoon een indicatie dat iemand de standard URLlib Module van Python gebruikt? Dat kan dus iedereen zijn die aan het spelen is met een doe-het-zelf zoekmachine of pagina-indexeer script of zo.
Komen de verzoeken steeds van hetzelfde IP-adres of adressen? En zo ja, kun je achterhalen waar die vandaan komen? Als ze uit China of ander Aziatische landen komen kun je in het algemeen probleemloos blokkeren.
Voor je niet-Engelstalige posts is de kans namelijk klein dat je de hele Nederlands sprekende gemeenschap in Azië als bezoekers hebt.
Blokkeren op IP-nummer kan door in je .htaccess het volgende op te nemen:
order allow,deny
allow from all
deny from 130.208.204.5
deny from 148.233.229.236
deny from asianet.co.th
deny from uninet.net.mx
deny from telstra.net
deny from uninet.net.mx
deny from 62.150.40.142
deny from 59x87x125x108.ap59.ftth.ucom.ne.jp
deny from intlab-fw.intlab.toin.ac.jp
deny from 148.233.229.235
deny from softbank218122090112.bbtec.net
deny from pool_2451103-170.etb.net.co
deny from pc156032.ztv.ne.jp
deny from 148.233.159.24
deny from 142.165.3.43
deny from Static-IP-cr200118105172.cable.net.co
deny from philippi-s2.mypcstv.com
deny from 195.55.133.76
deny from 163.148.100.85
deny from 82.73.78.157
De adressen hierboven zijn die wat bij mij er nu in staan.
Je geeft hiermee aan dat voor de acties “GET HEAD POST” je eerst zult aangeven wie mag en wie niet mag “order allow,deny”. Daarna geef je voor de allow aan dat in principe iedereen mag “allow from all” en daarna geef je per regel met een “deny from” aan wel domein/gebruiker/IP-adres niet mag komen spelen.
Hmm, de preview liet mijn < en > goed zien, maar in de definitieve versie zijn ze weg.
Bovenaan staat %%Limit GET HEAD POST%%
waarbij je de eerste %% moet vervangen door een “kleiner dan” teken en de laatste uiteraard door een “groter dan” teken.
Onderaan de staat dan %%/Limit%%
In feite zou een simpele robots.txt de boel al moeten blokkeren:
User-agent: Python-urllib
Disallow: /
Maar dan moet die module wel zo geschreven zijn dat hij het robots.txt bestand ook respecteert. Na 2 minuten zoeken krijg ik het idee dat hij dat wel doet.
Hallo Pierre en André,
bedankt voor jullie reactie. Ik heb zoals Andre aangeeft robots.txt aangepast. Ik zie daarop nog geen verbeteringen. Hoe lang duurt het voordat een bot dat toepast?
Normaal gesproken is de regel dat een bot altijd eerst de robots.txt controleerd alvorens te gaan spideren. Maar in het geval van deze kan het zijn dat hij zo is aangepast dat hij robots.txt negeert. Het is een open-source bot script wat redelijk makkelijk aan te passen is.
@pierre: Zo als ik het nu kan zien komt die traffic van 205.158.61.219. En dat blijkt een IP via een internet provider in de VS te zijn: Xo Communications. Die naam kwam ik meer tegen ivm verspreiden/door laten van virussen/spam.
Kan ik nog meer info ergens vinden over dit IP nummer?
@Hans: Wat ik van hun website begrijp doen ze een heleboel dingen (niet persé slecht tenminste niet af te leiden van hun website). Ik neem even aan dat het gewoon een van hun klanten is die al dan niet bedoeld aan het hobby-en is. Ik zou zeggen, gewoon blokken dat adres.
Je zou hun customer care kunnen benaderen via http://www.xo.com/contact/care/index.html maar dat zou mij eerlijk gezegd te veel werk zijn.
@pierre: ik heb het ip adres geblokkeerd en jouw lijstje er ook bij gezet.
Thx!