Co to jest crawler - Definicja

Crawler - jest to rodzaj bota internetowego, którego głównym celem jest indeksowanie lub pozyskiwanie informacji ze stron internetowych. Najpopularniejszym crawlerem bez wątpienia jest Googlebot, dzięki któremu możemy wygodnie przeszukiwać internet. Crawler często określany jest jako pająk (ang. spider) ze względu na sprawne poruszanie się po sieci.

Co to jest crawler?

Jak działa crawler?

Technicznie rzecz biorąc crawler to program komputerowy, którego zadaniem jest automatyczne uzyskiwanie dostępu do strony internetowej i pobieranie z niej istotnych z punktu widzenia programu informacji. Crawler poszukuje także linków w obrębie strony w celu rekurencyjnego podjęcia tych samych lub podobnych działań. Dzięki m.in. pracy internetowych pająków - bo tak określa się też crawlery - jesteśmy w stanie wyszukiwać interesujące nas informacje.

Obecnie crawlowanie nie jest tak proste jak jeszcze kilkanaście lat temu. Wynika to z faktu, że coraz więcej stron korzysta z JavaScriptu i jego frameworków. Crawlowanie takich stron jest możliwe dzięki temu, że nowoczesne spidery wykorzystują do renderowania przeglądarki w trybie headless.

Googlebot

Roboty wykorzystywane przez firmę Google podejmują się skanowania internetu w celu aktualizowania swojego indeksu. Googlebot korzysta z map witryn i baz danych stworzonych podczas poprzedniego indeksowania, aby określić, dokąd przejść dalej. W sytuacji, gdy robot indeksujący znajdzie nowe linki na stronie internetowej, dodaje je do listy stron, które należy odwiedzić w następnej kolejności. Googlebot odnotowuje wszelkie zmiany w linkach, aby można było zaktualizować indeks.

Wykorzystanie crawlerów w SEO

Crawlery są szeroko wykorzystywane przy optymalizacji stron pod silniki wyszukiwarek. Przykładem takiego oprogramowania jest Screaming Frog, którego rozbudowany interfejs pozwala na precyzyjne określenie, jakie dane mają zostać pozyskiwane podczas wykonywania procesu crawlowania. W wyniku analizy otrzymujemy takie informacje jak:

  • strony ubogie w treść tzn. thin content,
  • brakujące teksty alternatywne dla grafik,
  • zduplikowane nagłówki H1 oraz tytuły stron,
  • kody odpowiedzi serwera dla adresów URL, a co za tym idzie odnajdowanie uszkodzonych linków,
  • strukturę serwisu.

Na rynku dostępne jest zarówno komercyjne jak i otwartoźródłowe oprogramowanie:

  • Screaming Frog,
  • SEMrush,
  • Ahrefs,
  • Sitebulb,
  • OpenSearchServer,
  • Apache Nutch™,
  • Scrapy.

Często zachodzi potrzeba napisania crawlera o niestandardowym działaniu. Z pomocą przychodzą bogate w funkcje biblioteki do różnych języków programowania. Do bardzo popularnych narzędzi z otwartym kodem źródłowym należą Puppeteer (dla języka JavaScript) oraz BeautifulSoup i Scrapy (dla języka Python).

Ostatnia aktualizacja: 11 czerwca 2024

Czy ta definicja była dla Ciebie pomocna?

(4.8/5), głosów: 51
Ocena strony:
Automation Developer

Pozyskuj klientów online i zwiększaj zyski dzięki reklamie w Internecie!

Skontaktuj się z nami

Zamów bezpłatną wycenę!

(czytaj więcej) Twoja zgoda jest dobrowolna, ale niezbędna do obsługi Twojego zapytania ofertowego. Na podstawie wyrażonej zgody możemy kontaktować się z Tobą za pośrednictwem e-maila w celach marketingowych lub telefonu w celu obsługi Twojego zapytania ofertowego. Administratorem Twoich danych osobowych jest KS Sp. z o.o., z siedzibą w Gorzycach 141, 38-230 Nowy Żmigród, NIP: 6852338589. Gwarantujemy przestrzeganie wszystkich Twoich praw wynikających z ogólnego rozporządzenia o ochronie danych (RODO) oraz Prawa komunikacji elektronicznej, w tym prawa do dostępu, sprostowania, usunięcia, ograniczenia przetwarzania Twoich danych, wniesienia sprzeciwu wobec przetwarzania danych osobowych (szczegóły znajdziesz w naszej Polityce Prywatności), a także cofnięcia zgody na przesyłanie informacji handlowych i marketing bezpośredni. (zwiń)

Menu dostępności

Profile ułatwień dostępu

Opcje ułatwień dostępu

Używamy plików cookie

Na naszej stronie używamy ciasteczek, dzięki czemu jest ona dla Ciebie bardziej przyjazna i niezawodna. Korzystamy także z narzędzi analitycznych w celach statystycznych i marketingowych, aby dopasować treść reklam do Twoich potrzeb i zainteresowań. Twoja prywatność jest dla nas ważna. Więcej informacji na temat plików cookies znajdziesz w naszej polityce prywatności.