Semalt zawiera wskazówki, jak radzić sobie z botami, pająkami i gąsienicami

Oprócz tworzenia adresów URL przyjaznych dla wyszukiwarek plik .htaccess pozwala webmasterom blokować dostęp do ich witryn określonym botom. Jednym ze sposobów blokowania tych robotów jest plik robots.txt. Jednak Ross Barber, kierownik ds. Sukcesu klienta w firmie Semalt , twierdzi, że widział, jak niektóre roboty indeksujące ignorują to żądanie. Jednym z najlepszych sposobów jest użycie pliku .htaccess w celu powstrzymania ich przed indeksowaniem treści.

Co to za boty?

Są rodzajem oprogramowania wykorzystywanego przez wyszukiwarki do usuwania nowych treści z Internetu w celu indeksowania.

Wykonują następujące zadania:

  • Odwiedź strony internetowe, do których masz linki
  • Sprawdź kod HTML pod kątem błędów
  • Zapisują strony internetowe, do których linkujesz, i sprawdzają, które strony prowadzą do Twojej zawartości
  • Indeksują twoje treści

Jednak niektóre boty są złośliwe i przeszukują Twoją witrynę w poszukiwaniu adresów e-mail i formularzy, które zwykle służą do wysyłania niechcianych wiadomości lub spamu. Inni nawet szukają luk bezpieczeństwa w twoim kodzie.

Co jest potrzebne do blokowania robotów sieciowych?

Przed użyciem pliku .htaccess należy sprawdzić następujące rzeczy:

1. Twoja strona musi działać na serwerze Apache. W dzisiejszych czasach nawet firmy hostingowe w połowie przyzwoite w swojej pracy dają ci dostęp do wymaganego pliku.

2. Powinieneś mieć dostęp do surowych dzienników serwera swojej witryny, abyś mógł zlokalizować, które boty odwiedzały twoje strony.

Pamiętaj, że nie ma możliwości zablokowania wszystkich szkodliwych botów, chyba że zablokujesz wszystkie, nawet te, które uważasz za pomocne. Nowe boty pojawiają się każdego dnia, a starsze są modyfikowane. Najbardziej efektywnym sposobem jest zabezpieczenie kodu i utrudnienie botom spamowania.

Identyfikacja botów

Boty można zidentyfikować na podstawie adresu IP lub „Ciągu agenta użytkownika”, który wysyłają w nagłówkach HTTP. Na przykład Google używa „Googlebot”.

Możesz potrzebować tej listy z 302 botami, jeśli masz już nazwę bota, którego chciałbyś trzymać z daleka .htaccess

Innym sposobem jest pobranie wszystkich plików dziennika z serwera i otwarcie ich za pomocą edytora tekstu. Ich lokalizacja na serwerze może ulec zmianie w zależności od konfiguracji serwera. Jeśli nie możesz ich znaleźć, poproś o pomoc swojego hosta.

Jeśli wiesz, która strona została odwiedzona lub czas wizyty, łatwiej jest przyjść z niechcianym botem. Możesz przeszukać plik dziennika za pomocą tych parametrów.

Kiedyś zauważyłeś, które boty musisz zablokować; możesz następnie dołączyć je do pliku .htaccess. Pamiętaj, że zablokowanie bota nie wystarczy, aby go zatrzymać. Może wrócić z nowym adresem IP lub nazwą.

Jak je zablokować

Pobierz kopię pliku .htaccess. W razie potrzeby wykonaj kopie zapasowe.

Metoda 1: blokowanie według adresu IP

Ten fragment kodu blokuje bota za pomocą adresu IP 197.0.0.1

Zamów Odmów, Zezwól

Odmów z 197.0.0.1

Pierwszy wiersz oznacza, że serwer zablokuje wszystkie żądania pasujące do określonych wzorców i zezwoli na wszystkie pozostałe.

Drugi wiersz informuje serwer o wydaniu strony 403: zabronione

Metoda 2: Blokowanie przez agentów użytkownika

Najprostszym sposobem jest użycie silnika przepisywania Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Pierwszy wiersz zapewnia włączenie modułu przepisywania. Druga linia to warunek, którego dotyczy reguła. „F” w wierszu 4 mówi serwerowi, aby zwrócił 403: Zabronione, podczas gdy „L” oznacza, że jest to ostatnia reguła.

Następnie prześlesz plik .htaccess na serwer i zastąpisz istniejący. Z czasem będziesz musiał zaktualizować adres IP bota. Jeśli popełnisz błąd, po prostu prześlij utworzoną kopię zapasową.