Do czego służy plik robots.txt? Gdzie go znajdziemy?

Do czego służy plik robots.txt? Gdzie go znajdziemy?

Michael Burrows/pexels.com

Aby skutecznie wdrożyć strategię pozycjonowania, warto zapoznać się ze szczegółami działania wyszukiwarek internetowych. Dostęp wyszukiwarek do informacji o stronie możemy kontrolować między innymi poprzez plik robots.txt. Co to jest, gdzie go znajdziemy i jak jego zawartość wpływa na pozycję strony internetowej na liście wyników wyszukiwania?

Jak działa wyszukiwarka Google?

Aby zrozumieć, czym jest robots.txt, warto w pierwszej kolejności wyjaśnić, czym są roboty wyszukiwarek. To określenie odnoszące się do automatycznego oprogramowania, którego zadaniem jest skanowanie, analiza i ocena stron internetowych. Cały proces przygotowania listy wyników wyszukiwania rozpoczyna się od pracy robotów sprawdzających odnośniki obecne w katalogach stron, jak również w treści innych witryn. Warto przy tym zaznaczyć, że nowo utworzone strony nie pojawiają się od razu w bazie Google – roboty indeksujące „zauważą” je dopiero po pojawieniu się linków do danej domeny. Możemy jednak przyspieszyć ten proces, samodzielnie zgłaszając witrynę do indeksowania w Google.

Roboty, które mają na celu podążanie za linkami w celu pozyskania informacji o dostępnych stronach, nazywa się także „crawlerami”. W następnym etapie odbywa się tak zwana indeksacja, czyli zbieranie danych na temat zawartości i struktury poszczególnych witryn. Na samym końcu nadchodzi kolej na analizę – roboty odpowiedzialne za pozycjonowanie oceniają zawartość stron, by wyznaczyć ich kolejność na liście.

Sprawdź: Robots.txt na PrestaShop – gdzie go znaleźć? Co warto dodać?

Czym jest robots.txt?

Wiemy już, w jaki sposób roboty Google pozyskują informacje o stronach. Możliwość dotarcia do danej witryny może być kontrolowana przez zawartość pliku robots.txt. Co to za plik? Jego zadaniem jest przekazanie wyszukiwarkom wytycznych o tym, które zasoby mogą być indeksowane, a które nie powinny trafić na listę wyników.

Plik robots możemy przygotować ręcznie – jego składnia jest stosunkowo prosta. Poszczególne linijki zawierają kolejne rekordy, które opisują dostęp dla różnych narzędzi. Pojedynczy wpis w standardowej postaci składa się z pola „User-agent” oraz „Disallow” (lub „Allow”). Pierwsze z nich określa programy, które powinny stosować się do danej sekcji wytycznych. Gwiazdka (*) oznacza wszystkie roboty, „Googlebot” to narzędzie stosowane przez wyszukiwarkę Google, „Bingbot” to podobny robot od serwisu Bing, a „AdsBot-Google” służy do sprawdzenia jakości reklam.

Źródło: Sora Shimazaki/pexels.com

Nazwy różnych botów możemy znaleźć w dokumentacji poszczególnych serwisów, które mogą indeksować stronę. W polu „Disallow” umieszczamy z kolei ścieżki do plików lub katalogów, które powinny być niedostępne dla danego robota (wskazanego w „User-agent”). Oprócz dyrektywy „Disallow” możemy użyć także pola „Allow” o przeciwnym działaniu. Ponadto w pliku robots.txt mogą znaleźć się komentarze oraz ścieżka do mapy witryny.

Istnieje również szereg narzędzi, które pozwolą w prosty sposób przygotować plik robots. Taka funkcjonalność jest wbudowana między innymi w większość systemów zarządzania treścią.

W jakim celu stosuje się plik robots?

Co istotne, nie musimy bezpośrednio zezwalać robotom na dostęp do naszej strony. Domyślnie crawlery i inne boty mogą bez przeszkód indeksować witrynę, która nie zawiera tego pliku. Zablokowane treści nie będą pojawiać się w wynikach wyszukiwania, co może z pozoru wydawać się niezbyt korzystnym wyborem pod względem pozycjonowania. W wielu przypadkach pozostawienie domyślnych ustawień nie będzie stanowić żadnego problemu – w końcu chcemy, by Googlebot i inne narzędzia tego typu, mogły pozyskać informacje o naszej witrynie. Niektóre sytuacje wymagają jednak zablokowania pewnych robotów.

Wyłączanie konkretnych podstron z wyników

Jeśli z jakiegoś powodu nie chcemy, by dana podstrona wyświetlała się w wynikach wyszukiwania, możemy wykluczyć ją właśnie za pomocą pliku robots.txt. Takie działanie będzie przydatne na przykład wtedy, gdy opublikowaliśmy nową zawartość o podobnej tematyce i chcemy skierować ruch na nowszą treść.

Zablokowanie dostępu do prywatnych części witryny

Nie wszystkie sekcje strony internetowej powinny być dostępne z poziomu wyszukiwarki – przykładem może być panel administracyjny (zwykle domyślnie zablokowany przez CMS) czy dedykowany obszar do testowania zmian. Plik robots pozwoli dokładnie sterować dostępem robotów, by uniknąć niechcianych wizyt na tego typu podstronach.

Plik robots i treści multimedialne

Wielu właścicieli stron internetowych decyduje się na wykluczenie z indeksowania plików takich jak dokumenty PDF czy treści graficzne. Tego typu zawartość zazwyczaj nie ma dużego wpływu na SEO, a może zająć dość dużo zasobów robotów, co spowolni proces indeksacji strony.

Dynamicznie generowana zawartość strony

Jeśli spodziewamy się sporego udziału interaktywnej i dynamicznej zawartości – na przykład uploadowania plików czy nagrań przez użytkowników – możemy wykorzystać plik robots, by przyspieszyć działanie robotów. Skomplikowana struktura witryny to spore utrudnienie dla algorytmów, a ograniczenie dostępności poszczególnych sekcji czy rodzajów zasobów może pomóc w skutecznym indeksowaniu i pozycjonowaniu.

Sprawdź: Czym jest robots.txt i jaki ma wpływ na SEO?

Robots.txt – gdzie jest ten plik?

Aby plik robots mógł zostać poprawnie odczytany przez roboty indeksujące, musi znaleźć się w ściśle określonym miejscu. Ścieżka do tego pliku jest dość prosta – znajduje się on w głównym katalogu domeny. Jeśli zostanie umieszczony w innym miejscu, roboty będą traktować stronę w taki sam sposób, jak w przypadku braku pliku robots.txt.

Jak szybko sprawdzić, czy dana strona WWW zawiera plik robots? Jest on dostępny publicznie, dzięki czemu zweryfikowanie jego obecności jest bardzo łatwe. Wystarczy wprowadzić w pasku adresu przeglądarki URL danej witryny, a następnie dopisać na końcu „/robots.txt”. Jeśli plik robots został poprawnie umieszczony na serwerze, zobaczymy jego zawartość złożoną z dyrektyw „Allow” i „Disallow” oraz komentarzy (oznaczonych symbolem kratki na początku linijki), a często także ścieżkę do mapy strony. W przeciwnym przypadku otrzymamy komunikat 404, który oznacza brak możliwości odnalezienia danego pliku.

Najczęściej popełniane błędy związane z plikiem robots. Na co należy zwrócić uwagę?

Zajmując się nieco bardziej technicznymi aspektami strony, takimi jak właśnie plik robots, możemy dość łatwo natknąć się na przypadkowe błędy, które uniemożliwiają skuteczne odczytanie jego zawartości przez roboty. Na co warto uważać? Liczy się przede wszystkim odpowiedni format i lokalizacja pliku – jego nazwa musi zawierać rozszerzenie „.txt”, a sam plik musi być obecny w głównym katalogu serwera. Warto jednak przy tym zaznaczyć, że brak pliku robots.txt nie powinien negatywnie wpłynąć na pozycjonowanie – jest to równoznaczne z udostępnieniem witryny dla wszystkich robotów indeksujących.

Aby odpowiednio przygotować zawartość pliku, warto także zapoznać się ze znaczeniem specjalnych znaków. Gwiazdka (*) oznacza dowolną treść, z kolei symbol dolara ($) oznacza zakończenie adresu URL, co może być przydatne przy blokowaniu dostępu do plików multimedialnych. Co więcej, praktyki dotyczące stosowania robots.txt nieco zmieniły się w ostatnich latach – przykładem jest przeniesienie dyrektywy „Noindex” do tagów meta, które również mogą służyć do kontrolowania dostępu robotów.

Artykuł powstał we współpracy ze stronami: budowaidom.pl, gardenyard.pl

Zobacz również
Grupa iCEA
Grupa iCEA
Kategoria: Pozycjonowanie
Ostatnie wpisy

    Zastanawiasz się, dlaczego Twoja strona NIE SPRZEDAJE?
    Umów się na bezpłatną konsultację SEO i dowiedz się, jak możemy poprawić Twoje wyniki sprzedażowe.
    Wysyłanie
    Oceń tekst
    Średnia ocen 5/5 - Liczba ocen: 10
    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

    Chcesz zobaczyć o czym jeszcze pisaliśmy?

    Bany i filtry na stronie – jak żyć w zgodzie z Google?

    Bany i filtry na stronie – jak żyć w zgodzie z Google?

    Kary Google zmorą administratorów stron. Co warto o nich wiedzieć oraz jak się przed nimi ustrzec? Podpowiadamy, jak żyć w zgodzie z wyszukiwarką!
    Agencje marketingowe na celowniku firm produkcyjnych: pytania, które rozwiążą każdy dylemat

    Agencje marketingowe na celowniku firm produkcyjnych: pytania, które rozwiążą każdy dylemat

    Z roku na rok wzrasta konkurencyjność branży produkcyjnej. Pojawiają się nowe reklamowe wyzwania. Jak więc dokonać mądrego wyboru agencji marketingowej?
    Metody optymalizacji treści, których należy unikać – czy szkodliwe SEO w ogóle istnieje?

    Metody optymalizacji treści, których należy unikać – czy szkodliwe SEO w ogóle istnieje?

    Czy wiesz o istnieniu szkodliwych metod optymalizacji treści? Tak, one naprawdę istnieją! Przeczytaj nasz artykuł i dowiedz się, czego lepiej unikać.
    DARMOWY AUDYT SEO

      Wysyłanie

      Rozpocznij

      od bezpłatnej
      konsultacji SEO

      Zainwestuj w szczegółową konsultację SEO i dowiedz się więcej na temat wydajności Twojego sklepu internetowego. Przeprowadzimy dla Ciebie kompleksową analizę, dzięki której uzyskasz jasny obraz tego, co należy poprawić.

      • I Nasz ekspert SEO skontaktuje się z Tobą telefonicznie.
      • II Umówimy się na bezpłatną konsultację w dogodnym dla Ciebie terminie.
      • III SEO konsultant przeprowadzi audyt Twojej witryny i przedstawi Ci strategiczne rekomendacje, dzięki którym poprawisz wydajność swojego sklepu internetowego.
      • IV Otrzymasz szczegółowy raport SEO biorący pod uwagę szereg ważnych czynników rankingowych Google.

      Dziękujemy za kontakt.

      Pozycjonujemy biznesy od 2007 roku. Pozwól, że zrobimy to za Ciebie!

      Wrócimy z odpowiedzią w ciągu 72 godzin. Sprawdź swoją skrzynkę e-mailową, aby uzyskać więcej informacji.

        Chcesz poznać
        ofertę?
        Skontaktujemy się z Tobą w ciągu kilku minut! Jesteśmy dostępni w dni robocze w godzinach 9-15.
        Niestety aktualnie nasz konsultant nie jest dostępny. Skontaktujemy się z Tobą w godzinach otwarcia biura.
        Wyrażam zgodę na przetwarzanie moich danych w celu telefonicznego przedstawienia mi oferty firmy iCEA. Więcej w Polityce prywatności.
        Wysyłanie
        Masz pytania? Kliknij i skontaktuj się z nami telefonicznie lub poprzez czat!
        Rozpocznij chat
        Zamów rozmowę