Co to jest robots.txt - Definicja

Robots.txt to plik tekstowy zawieraj膮cy wytyczne dla robot贸w crawluj膮cych odno艣nie poszczeg贸lnych plik贸w oraz stron, kt贸re mog膮 odwiedza膰. Formu艂y mog膮 zawiera膰 zar贸wno regu艂y zezwalaj膮ce na dost臋p jak i te blokuj膮ce. W pliku mog膮 znajdowa膰 si臋 wytyczne dla wszystkich robot贸w, lub jednego wybranego.

Co to jest (Robots.txt)?

Zasady tworzenia pliku robots.txt

Plik robots.txt jest zwyk艂ym plikiem tekstowym, kt贸ry w swoim zapisie posiada wytyczne dla robot贸w crawluj膮cych. Stosowany, aby roboty nie traci艂y czasu na indeksowanie zasob贸w, kt贸rych nie chcesz indeksowa膰, optymalizuj膮c przy tym crawl budget. Plik umieszczony powinien zosta膰 w g艂贸wnym katalogu strony. Jest on tworzony z wykorzystaniem kodowania UTF-8 i w jego sk艂adni powinny znajdowa膰 si臋 wy艂膮cznie znaki z kodu ASCII.

Plik mo偶e wyst臋powa膰 jedynie pod nazw膮 robots.txt i dost臋pny jest pod adresem https://example.com/robots.txt. Dla poszczeg贸lnej domeny powinien by膰 dodany wy艂膮cznie jeden plik robots.txt. Dyrektywy zawarte w pliku s膮 wy艂膮cznie wytycznymi dla robot贸w. O ile roboty wyszukiwarki Google respektuj膮 jego zapisy, tak cz臋艣膰 crawler贸w nie stosuje si臋 do jego zapis贸w. W przypadku np. plik贸w czy katalog贸w prywatnych nale偶y wykorzysta膰 dodatkowe zabezpieczenia has艂em.

Przyk艂adowe konfiguracje pliku robots.txt

Przyk艂ad numer 1

User-Agent: *
Allow: /
Disallow: /zdjecia/

User-Agent - Informacje o robotach, kt贸rych dotycz膮 dyrektywy. W przypadku u偶ycia * dotycz膮 one wszystkich robot贸w.

Allow - Okre艣lenie zasob贸w, kt贸re maj膮 by膰 dost臋pne dla robot贸w. W przypadku wykorzystania / robot na dost臋p do wszystkiego, o ile nic nie zosta艂o zablokowane w dalszych liniach.

Disallow - Okre艣la, kt贸re zasoby lub strony maj膮 by膰 niedost臋pne. W naszym przyk艂adzie dotyczy to ca艂ego katalogu 鈥渮dj臋cia鈥 oraz wszystkich znajduj膮cych si臋 tam podkatalog贸w.

Przyk艂ad numer 2

User-agent: Googlebot
Allow: /
Disallow: /*?sort=*
Disallow: /*?k=*

Sitemap: https://example.com/sitemap.xml

User-agent - W tym przypadku wytyczne dotycz膮 jedynie Googlebota Allow - Odblokowane wszystkie zasoby. Disallow - Zablokowane zosta艂y 2 parametry zwi膮zane z sortowaniem. Najcz臋艣ciej blokowanie parametr贸w spotykamy w e-commerce i rozbudowanych witrynach. Sitemap: - W tym elemencie umieszcza si臋 adres URL, pod kt贸rym znajduje si臋 mapa strony.

Jak sprawdzi膰, czy strona jest zablokowana?

Je偶eli chcemy sprawdzi膰, czy kt贸ra艣 z naszych stron w obr臋bie witryny jest zablokowana przez robots txt mo偶na wykorzysta膰 darmowe narz臋dzie od Google. Dost臋pne pod adresem https://www.google.com/webmasters/tools/robots-testing-tool narz臋dzie pozwala na sprawdzanie zasob贸w dla us艂ug zweryfikowanych w Google Search Console na Twoim koncie. Dla stron, dla kt贸rych nie posiadasz zweryfikowanej Search Console, skorzysta膰 mo偶esz z narz臋dzia https://technicalseo.com/tools/robots-txt/.

Czy kolejno艣膰 regu艂 w pliku robots txt ma znaczenie?

Kolejno艣膰 dyrektyw w pliku robots.txt nie ma znaczenia dla jego dzia艂ania. Zablokowanych zasob贸w nie odblokujesz formu艂a 鈥淎llow: /鈥 umieszczon膮 w ostatniej linijce wytycznych.
Uwaga: Pami臋taj jednak o tym, 偶e roboty bez problemu rozr贸偶niaj膮 wielko艣膰 liter wykorzystanych w dyrektywach.

Ostatnia modyfikacja: 2021-02-11 13:48:08

Czy ta definicja by艂a dla Ciebie pomocna?

(4,9/5), g艂os贸w: 73
Ocena strony:
Starszy specjalista SEO
LinkedIn

Chcesz zarabia膰 wi臋cej pozyskuj膮c klient贸w z Internetu? Skontaktuj si臋 z nami!

Zam贸w bezp艂atn膮 ofert臋

Zamów bezp艂atn膮 wycen臋!

(czytaj wi臋cej) Na podstawie tej zgody b臋dziemy mogli skontaktowa膰 si臋 z Tob膮 za po艣rednictwem np. telefonu czy poczty elektronicznej w celu obs艂ugi przez nas twojego zapytania. Administratorem Twoich danych osobowych jest KS Sp. z o.o. Gorzyce 141, 38-230 Nowy 呕migr贸d, NIP: 6852338589. Gwarantujemy spe艂nienie wszystkich Twoich praw wynikaj膮cych z og贸lnego rozporz膮dzenia o ochronie danych, tj. prawo dost臋pu, sprostowania oraz usuni臋cia Twoich danych, ograniczenia ich przetwarzania, a tak偶e prawo wyra偶enia sprzeciwu wobec przetwarzania Twoich danych osobowych (wi臋cej na temat przetwarzania Twoich danych osobowych znajdziesz w Polityka Prywatno艣ci). (zwi艅)
Go Top