Zasady tworzenia pliku robots.txt
Plik robots.txt jest zwykłym plikiem tekstowym, który w swoim zapisie posiada wytyczne dla robotów crawlujących. Stosowany, aby roboty nie traciły czasu na indeksowanie zasobów, których nie chcesz indeksować, optymalizując przy tym crawl budget. Plik umieszczony powinien zostać w głównym katalogu strony. Jest on tworzony z wykorzystaniem kodowania UTF-8 i w jego składni powinny znajdować się wyłącznie znaki z kodu ASCII.
Plik może występować jedynie pod nazwą robots.txt i dostępny jest pod adresem https://example.com/robots.txt. Dla poszczególnej domeny powinien być dodany wyłącznie jeden plik robots.txt. Dyrektywy zawarte w pliku są wyłącznie wytycznymi dla robotów. O ile roboty wyszukiwarki Google respektują jego zapisy, tak część crawlerów nie stosuje się do jego zapisów. W przypadku np. plików czy katalogów prywatnych należy wykorzystać dodatkowe zabezpieczenia hasłem.
Przykładowe konfiguracje pliku robots.txt
Przykład numer 1
User-Agent: *
Allow: /
Disallow: /zdjecia/
User-Agent - Informacje o robotach, których dotyczą dyrektywy. W przypadku użycia * dotyczą one wszystkich robotów.
Allow - Określenie zasobów, które mają być dostępne dla robotów. W przypadku wykorzystania / robot na dostęp do wszystkiego, o ile nic nie zostało zablokowane w dalszych liniach.
Disallow - Określa, które zasoby lub strony mają być niedostępne. W naszym przykładzie dotyczy to całego katalogu “zdjęcia“ oraz wszystkich znajdujących się tam podkatalogów.
Przykład numer 2
User-agent: Googlebot
Allow: /
Disallow: /*?sort=*
Disallow: /*?k=*
Sitemap: https://example.com/sitemap.xml
User-agent - W tym przypadku wytyczne dotyczą jedynie Googlebota Allow - Odblokowane wszystkie zasoby. Disallow - Zablokowane zostały 2 parametry związane z sortowaniem. Najczęściej blokowanie parametrów spotykamy w e-commerce i rozbudowanych witrynach. Sitemap: - W tym elemencie umieszcza się adres URL, pod którym znajduje się mapa strony.
Jak sprawdzić, czy strona jest zablokowana?
Jeżeli chcemy sprawdzić, czy któraś z naszych stron w obrębie witryny jest zablokowana przez robots txt można wykorzystać darmowe narzędzie od Google. Dostępne pod adresem https://www.google.com/webmasters/tools/robots-testing-tool narzędzie pozwala na sprawdzanie zasobów dla usług zweryfikowanych w Google Search Console na Twoim koncie. Dla stron, dla których nie posiadasz zweryfikowanej Search Console, skorzystać możesz z narzędzia https://technicalseo.com/tools/robots-txt/.
Czy kolejność reguł w pliku robots txt ma znaczenie?
Kolejność dyrektyw w pliku robots.txt nie ma znaczenia dla jego działania. Zablokowanych zasobów nie odblokujesz formuła “Allow: /” umieszczoną w ostatniej linijce wytycznych.
Uwaga: Pamiętaj jednak o tym, że roboty bez problemu rozróżniają wielkość liter wykorzystanych w dyrektywach.
Ostatnia aktualizacja: 12 czerwca 2024
Pozyskuj klientów online i zwiększaj zyski dzięki reklamie w Internecie!
Powiązane Artykuły
Migracja strony internetowej od A do Z - Analiza, strategia i skuteczna realizacja
Żyjemy w czasach ciągłego rozwoju i dynamicznych zmian. Chcąc nadążyć za konkurencją lub też kreować nowe trendy w biznesie, firmy decydują się na wdrażanie...
Przeczytaj artykuł >>Analiza strony internetowej narzędziem DevTools (Chrome)
Niezależnie od tego czy jesteś webowym programistą, grafikiem czy specjalista SEO powinieneś znać podstawowe funkcje narzędzi DevTools wbudowanych w przeglądarkę...
Przeczytaj artykuł >>