Co to jest robots.txt? Słownik Pojęć

Q: Co to jest robots.txt ?

Robots.txt to plik tekstowy zawierający wytyczne dla robotów crawlujących odnośnie poszczególnych plików oraz stron, które mogą odwiedzać. Formuły mogą zawierać zarówno reguły zezwalające na dostęp jak i te blokujące. W pliku mogą znajdować się wytyczne dla wszystkich robotów, lub jednego wybranego. Czytaj dalej!

Zasady tworzenia pliku robots.txt

Plik robots.txt jest zwykłym plikiem tekstowym, który w swoim zapisie posiada wytyczne dla robotów crawlujących. Stosowany, aby roboty nie traciły czasu na indeksowanie zasobów, których nie chcesz indeksować, optymalizując przy tym crawl budget. Plik umieszczony powinien zostać w głównym katalogu strony. Jest on tworzony z wykorzystaniem kodowania UTF-8 i w jego składni powinny znajdować się wyłącznie znaki z kodu ASCII.

Plik może występować jedynie pod nazwą robots.txt i dostępny jest pod adresem https://example.com/robots.txt. Dla poszczególnej domeny powinien być dodany wyłącznie jeden plik robots.txt. Dyrektywy zawarte w pliku są wyłącznie wytycznymi dla robotów. O ile roboty wyszukiwarki Google respektują jego zapisy, tak część crawlerów nie stosuje się do jego zapisów. W przypadku np. plików czy katalogów prywatnych należy wykorzystać dodatkowe zabezpieczenia hasłem.

Przykładowe konfiguracje pliku robots.txt

Przykład numer 1

User-Agent: *
Allow: /
Disallow: /zdjecia/

User-Agent - Informacje o robotach, których dotyczą dyrektywy. W przypadku użycia * dotyczą one wszystkich robotów.

Allow - Określenie zasobów, które mają być dostępne dla robotów. W przypadku wykorzystania / robot na dostęp do wszystkiego, o ile nic nie zostało zablokowane w dalszych liniach.

Disallow - Określa, które zasoby lub strony mają być niedostępne. W naszym przykładzie dotyczy to całego katalogu “zdjęcia“ oraz wszystkich znajdujących się tam podkatalogów.

Przykład numer 2

User-agent: Googlebot
Allow: /
Disallow: /*?sort=*
Disallow: /*?k=*

Sitemap: https://example.com/sitemap.xml

User-agent - W tym przypadku wytyczne dotyczą jedynie Googlebota Allow - Odblokowane wszystkie zasoby. Disallow - Zablokowane zostały 2 parametry związane z sortowaniem. Najczęściej blokowanie parametrów spotykamy w e-commerce i rozbudowanych witrynach. Sitemap: - W tym elemencie umieszcza się adres URL, pod którym znajduje się mapa strony.

Jak sprawdzić, czy strona jest zablokowana?

Jeżeli chcemy sprawdzić, czy któraś z naszych stron w obrębie witryny jest zablokowana przez robots txt można wykorzystać darmowe narzędzie od Google. Dostępne pod adresem https://www.google.com/webmasters/tools/robots-testing-tool narzędzie pozwala na sprawdzanie zasobów dla usług zweryfikowanych w Google Search Console na Twoim koncie. Dla stron, dla których nie posiadasz zweryfikowanej Search Console, skorzystać możesz z narzędzia https://technicalseo.com/tools/robots-txt/.

Czy kolejność reguł w pliku robots txt ma znaczenie?

Kolejność dyrektyw w pliku robots.txt nie ma znaczenia dla jego działania. Zablokowanych zasobów nie odblokujesz formuła “Allow: /” umieszczoną w ostatniej linijce wytycznych.
Uwaga: Pamiętaj jednak o tym, że roboty bez problemu rozróżniają wielkość liter wykorzystanych w dyrektywach.

Ostatnia modyfikacja: 2023-05-19 14:18:33

Czy ta definicja była dla Ciebie pomocna?

(4.8/5), głosów: 80

Ocena strony:

Marek Rogowski

Team Leader SEO E-commerce

Chcesz zarabiać więcej pozyskując klientów z Internetu? Skontaktuj się z nami!

Zamów bezpłatną ofertę

Powiązane Artykuły

Migracja strony internetowej od A do Z - Analiza, strategia i skuteczna realizacja

Żyjemy w czasach ciągłego rozwoju i dynamicznych zmian. Chcąc nadążyć za konkurencją lub też kreować nowe trendy w biznesie, firmy decydują się na wdrażanie...

Przeczytaj artykuł >>

Analiza strony internetowej narzędziem DevTools (Chrome)

Niezależnie od tego czy jesteś webowym programistą, grafikiem czy specjalista SEO powinieneś znać podstawowe funkcje narzędzi DevTools wbudowanych w przeglądarkę...