Co to jest robots.txt - Definicja

Robots.txt to plik tekstowy zawierający wytyczne dla robotów crawlujących odnośnie poszczególnych plików oraz stron, które mogą odwiedzać. Formuły mogą zawierać zarówno reguły zezwalające na dostęp jak i te blokujące. W pliku mogą znajdować się wytyczne dla wszystkich robotów, lub jednego wybranego.

Co to jest (Robots.txt)?

Zasady tworzenia pliku robots.txt

Plik robots.txt jest zwykłym plikiem tekstowym, który w swoim zapisie posiada wytyczne dla robotów crawlujących. Stosowany, aby roboty nie traciły czasu na indeksowanie zasobów, których nie chcesz indeksować, optymalizując przy tym crawl budget. Plik umieszczony powinien zostać w głównym katalogu strony. Jest on tworzony z wykorzystaniem kodowania UTF-8 i w jego składni powinny znajdować się wyłącznie znaki z kodu ASCII.

Plik może występować jedynie pod nazwą robots.txt i dostępny jest pod adresem https://example.com/robots.txt. Dla poszczególnej domeny powinien być dodany wyłącznie jeden plik robots.txt. Dyrektywy zawarte w pliku są wyłącznie wytycznymi dla robotów. O ile roboty wyszukiwarki Google respektują jego zapisy, tak część crawlerów nie stosuje się do jego zapisów. W przypadku np. plików czy katalogów prywatnych należy wykorzystać dodatkowe zabezpieczenia hasłem.

Przykładowe konfiguracje pliku robots.txt

Przykład numer 1

User-Agent: *
Allow: /
Disallow: /zdjecia/

User-Agent - Informacje o robotach, których dotyczą dyrektywy. W przypadku użycia * dotyczą one wszystkich robotów.

Allow - Określenie zasobów, które mają być dostępne dla robotów. W przypadku wykorzystania / robot na dostęp do wszystkiego, o ile nic nie zostało zablokowane w dalszych liniach.

Disallow - Określa, które zasoby lub strony mają być niedostępne. W naszym przykładzie dotyczy to całego katalogu “zdjęcia“ oraz wszystkich znajdujących się tam podkatalogów.

Przykład numer 2

User-agent: Googlebot
Allow: /
Disallow: /*?sort=*
Disallow: /*?k=*

Sitemap: https://example.com/sitemap.xml

User-agent - W tym przypadku wytyczne dotyczą jedynie Googlebota Allow - Odblokowane wszystkie zasoby. Disallow - Zablokowane zostały 2 parametry związane z sortowaniem. Najczęściej blokowanie parametrów spotykamy w e-commerce i rozbudowanych witrynach. Sitemap: - W tym elemencie umieszcza się adres URL, pod którym znajduje się mapa strony.

Jak sprawdzić, czy strona jest zablokowana?

Jeżeli chcemy sprawdzić, czy któraś z naszych stron w obrębie witryny jest zablokowana przez robots txt można wykorzystać darmowe narzędzie od Google. Dostępne pod adresem https://www.google.com/webmasters/tools/robots-testing-tool narzędzie pozwala na sprawdzanie zasobów dla usług zweryfikowanych w Google Search Console na Twoim koncie. Dla stron, dla których nie posiadasz zweryfikowanej Search Console, skorzystać możesz z narzędzia https://technicalseo.com/tools/robots-txt/.

Czy kolejność reguł w pliku robots txt ma znaczenie?

Kolejność dyrektyw w pliku robots.txt nie ma znaczenia dla jego działania. Zablokowanych zasobów nie odblokujesz formuła “Allow: /” umieszczoną w ostatniej linijce wytycznych.
Uwaga: Pamiętaj jednak o tym, że roboty bez problemu rozróżniają wielkość liter wykorzystanych w dyrektywach.

Ostatnia modyfikacja: 2023-05-19 14:18:33

Czy ta definicja była dla Ciebie pomocna?

(4.8/5), głosów: 80
Ocena strony:
Team Leader SEO E-commerce
LinkedIn

Chcesz zarabiać więcej pozyskując klientów z Internetu? Skontaktuj się z nami!

Zamów bezpłatną ofertę

Zamów bezpłatną wycenę!

(czytaj więcej) Na podstawie tej zgody będziemy mogli skontaktować się z Tobą za pośrednictwem np. telefonu czy poczty elektronicznej w celu obsługi przez nas twojego zapytania. Administratorem Twoich danych osobowych jest KS Sp. z o.o. Gorzyce 141, 38-230 Nowy Żmigród, NIP: 6852338589. Gwarantujemy spełnienie wszystkich Twoich praw wynikających z ogólnego rozporządzenia o ochronie danych, tj. prawo dostępu, sprostowania oraz usunięcia Twoich danych, ograniczenia ich przetwarzania, a także prawo wyrażenia sprzeciwu wobec przetwarzania Twoich danych osobowych (więcej na temat przetwarzania Twoich danych osobowych znajdziesz w Polityka Prywatności). (zwiń)
Go Top