Czy Państwa strona www blokuje roboty wyszukiwarek?

Sprawdź jak to działa i przetestuj swoją stronę

Gotów sprawdzić na własnej skórze?

Wystarczy wpisać adres URL i można dowiedzić się, czy roboty wyszukiwarek są na niej blokowane przez plik robots.txt,tagi meta lub nagłówki HTTP.

Czym jest plik robots.txt?

Jest to plik zawierający zwykły tekst, składający się z co najmniej dwóch wierszy. Dokładna liczba słów jest uwarunkowana indywidualnymi potrzebami dotyczącymi zabronienia lub odwrotnie - zezwoleniu na ominięcie konkretnych stron. Każdy wiersz pliku to jedno polecenie w postaci dyrektywy, opisującej konkretny rozdział, kategorię lub stronę. Rozdziały zaczynają się od nowego wiersza.

Edytowanie robots.txt jest możliwe w dowolnym momencie, a dokonuje się je wtedy, gdy zachodzi potrzeba ograniczenia indeksacji duplikatów, danych osobowych, umów użytkownika lub nowych stron. W celu dokonania edycji plik jest przesyłany za pomocą menedżera plików, a następnie edytowany na komputerze. Po wprowadzeniu zmian zaktualizowany plik robots.txt musi zostać ponownie przesłany na serwer i sprawdzony za pomocą linku...

Plik można również utworzyć w celu zakazu lub umożliwienia indeksowania wszystkich stron witryny jednocześnie. Służy także do ukrywania rozdziałów witryny dla różnych robotów. Jeśli określone dyrektywy dotyczą wszystkich robotów, na końcu pierwszego wiersza umieszcza się symbol "*". Odwołując się do konkretnej wyszukiwarki, należy wpisać jej nazwę w pierwszym wierszu - dyrektywie User-agent.

Przykład pliku robots.txt:

User-agent: *

Allow: / — zezwól na skanowanie wszystkich stron

lub tak

User-agent: Yandex

Disallow: / — zakaz na skanowanie wszystkich stron dla Yandex

Do czego służy plik robots.txt?

  • ustalanie listy indeksowanych stron;
  • zmniejszenie obciążenia serwera podczas omijania strony przez dyrektywy;
  • wskazanie podstawowego mirroningu domeny;
  • określenie ścieżki do mapy strony (sitemap);
  • wytyczenie dodatkowych reguł ominięcia stron za pomocą dyrektyw.

Czasami roboty nie uwzględniają dyrektyw z pliku robots.txt. Jest to efektem błędów składniowych. Najbardziej powszechnymi z nich są:

  • rozmiar pliku przekracza dopuszczalny (32 KB dla Yandex i 512 KB dla Google);
  • literówki w przepisanych dyrektywach lub linkach;
  • format pliku nie jest tekstowy i/lub zawiera nieprawidłowe znaki;
  • plik nie jest dostępny na żądanie z serwera.

Od czasu do czasu należy weryfikować poprawność i dostęp do pliku robots.txt, a także analizować go pod kątem błędów składniowych. Warto także dodać, że w niektórych panelach CMS i hostingu istnieje możliwość edycji pliku bezpośrednio z panelu administracyjnego.

Składnia pliku robots.txt

Składnia pliku składa się z dyrektyw obowiązkowych i opcjonalnych. Aby roboty mogły je właściwie odczytać, muszą być napisane w określonej kolejności: pierwsza dyrektywa w każdym rozdziale to User Agent, następnie Disallow, Allow, na końcu - główny mirror i mapa witryny.

Pomimo standardowych zasad tworzenia, boty wyszukiwania odczytują informacje z pliku na różne sposoby. Na przykład tylko Yandex rozumie zakaz indeksowania parametrów strony, podczas gdy Googlebot pominie ten wiersz.

Unikanie błędów w dyrektywach jest bardzo ważną zasadą. Jeden źle wpisany symbol może spowodować nieprawidłowe indeksowania.

Aby zminimalizować ryzyko występowania błędów, należy postępować zgodnie z podstawowymi zasadami składni:

  • w każdym wierszu może znajdować się wyłącznie jedna dyrektywa;
  • każda dyrektywa ma zaczynać się od nowego wiersza;
  • na początku i między wierszami nie powinno być spacji;
  • opis parametru nie może być przenoszony na następny wiersz;
  • w nazwie robots.txt i parametrach dyrektywy nie są używane wielkie litery;
  • przed każdym katalogiem znajduje się znak "/". Przykład: /produkty;
  • w opisie dyrektyw mogą występować tylko znaki alfabetu łacińskiego;
  • w dyrektywach Allow i Disallow może występować tylko jeden parametr;
  • Disallow, jeśli nie zawiera opisu, jest tożsame z Allow i zezwala na ominięcie wszystkich stron;
  • Allow bez opisu jest tym samym co robots.txt disallow/ - oznacza, że ​​wszystkie strony nie są indeksowane.

Podstawowe dyrektywy składni

1. User-agent to obowiązkowa dyrektywa, wskazywana w pierwszym wierszu i oznaczająca odwołanie do botów wyszukujących. Przykład:

User-agent: * - dla wszystkich wyszukiwarek;

User-agent: Yandex - tylko Yandex;

User-agent: Googlebot – tylko Google.

2. Disallow - zakaz omijania folderów, rozdziałów lub poszczególnych stron witryny. Na przykład:

User-agent: *

Disallow: /page - wszystkim robotom zakazano indeksowania rozdziału i wszystkich kategorii, które zawiera.

3. Allow - indeksowanie wszystkich stron i ich sekcji. Przykład:

User-agent: *

Allow: / - wszystkim robotom zezwolono na indeksowanie całej strony.

4. Noindex - zakaz indeksowania części treści na stronie. Różni się od Disallow tym, że Noindex jest używany bezpośrednio w kodzie strony i wygląda w taki sposób:

<meta name="robots" content="noindex" />

5. Clean-param - zakaz indeksowania parametrów w adresie strony. Ta dyrektywa jest widoczna tylko dla bota Yandex. Na przykład za jego pomocą możesz zamknąć przed indeksowaniem tagi UTM.

Clean-param: utm_source&utm_medium&utm_campaign /path/

6. Crawl-Delay - określenie minimalnego odstępu czasu między ominięciami stron. Na przykład:

User-agent: *

Crawl-delay: 2 - po zaindeksowaniu jednej strony miną co najmniej 2 sekundy przed zaindeksowaniem kolejnej strony.

7. Host - wskazanie podstawowe strony lustrzanej. Na przykład:

Host: hotmnt.pl

8. Sitemap - lokalizacja mapy strony. Na przykład:

Sitemap: hotmnt.pl/sitemap.xml

Jak utworzyć robots.txt?

Plik robots.txt jest tworzony w edytorze tekstu na komputerze, można go także wygenerować automatycznie za pomocą usług online. Edycję można przeprowadzić w zwykłym edytorze tekstów, na przykład w Notatniku. Oto przykład edycji pliku robots.txt:

User-agent: *

Disallow: /search/ — wszystkim robotom zakazano indeksowania rozdziału

Sitemap: https://hotmnt.pl/sitemap.xml - adres mapy strony.

W dyrektywach czasem dodaje się komentarze dla webmasterów, które są wstawiane do pliku po znaku # od nowego wiersza. Wówczas roboty nie uwzględniają takich danych. Przykładowy plik robots.txt z komentarzem:

User-agent: *

Sitemap: https://hotmnt.pl/sitemap.xml - adres mapy strony.

# za 4 dni podstawowa strona lustrzana zostanie zastąpiona

Jeśli masz wątpliwości lub nie możesz samodzielnie utworzyć pliku, skorzystaj z usługi wirtualnej.

Jak zablokować roboty wyszukiwania?

Dyrektywy robots i X-Robots-Tag Metatag

Dwie metody zarządzania indeksowaniem różnią się składnią i sposobem wdrażania. Metatag robots jest umieszczany w kodzie html strony, po czym powinny zostać uzupełnione jego atrybuty - parametry z nazwą robota (name) i poleceniami dla niego (treść). Znacznik x-robots jest dodawany do pliku konfiguracyjnego i w tym przypadku atrybuty nie są używane.

Zakaz indeksowania treści przez robota Google za pomocą metatagu x-robots wygląda w taki sposób:

<meta name="googlebot" content="noindex" />

Zakaz indeksowania treści przez robota Google za pomocą tagu x-robots wygląda tak:

X-Robots-Tag: googlebot: noindex, nofollow

lub za pomocą pliku robots.txt

User-agent: *

Disallow: /

Jednocześnie metatagi robots i X-Robots-Tag mają wspólne dyrektywy - polecenia kontaktu z robotami wyszukiwarek. Poddajmy analizie listę aktualnych dyrektyw dla różnych wyszukwarek i ich funkcji.

Jak upewnić się, że robotom wyszukiwarek nie zabroniono indeksowanie konkretnej strony?

Wyszukiwarka potrzebuje czasu na zindeksowanie/odindeksowanie strony. Aby upewnić się, że strona nie znajduje się w wyszukiwaniu, musisz użyć powyższego bezpłatnego narzędzia lub wtyczki przeglądarki sprawdzającej metatagi, takiej jak SEO META dla Chrome.

powrót do listy Zastosowań