Robots.txt na PrestaShop – gdzie go znaleźć? co warto dodać?

Robots.txt na PrestaShop – gdzie go znaleźć? co warto dodać?

Karolina Grabowska/pexels.com

Robots.txt dla witryny to plik tekstowy indeksu zakodowany w formacie UTF-8. Jeśli kodowanie pliku różni się od UTF-8, roboty wyszukiwania mogą błędnie zinterpretować zawarte w nim informacje. Plik nazwano indeksem, ponieważ zawiera rekomendacje dla robotów wyszukiwarki – wskazówki, które strony powinny być indeksowane, a które nie. Dobre systemy CMS oraz platformy e-commerce dają możliwość ręcznej konfiguracji pliku robots.txt, który ma znaczenie przy pozycjonowaniu zasobu w organicznych wynikach wyszukiwania. Sprawdźmy więc, jak zlokalizować plik w PrestaShop i jak prawidłowo go skonfigurować.

Gdzie szukać robots.txt w PrestaShop?

W przypadku platformy PrestaShop robots.txt znajdziesz bez większych problemów, ponieważ może mieć tylko w jedną lokalizację – katalog główny sklepu: http://www.twoja-strona.pl/robots.txt. W najnowszej wersji PrestaShop automatycznie wygenerowany plik jest wystarczająco dobry, by zapewnić prawidłowe działanie Twojego sklepu. Jeśli jednak chcesz go edytować, użyj programu FTP do jego wyświetlenia i poznaj najważniejsze polecenia.

PrestaShop robots txt – jak konfigurować?

Obowiązkowe elementy pliku robots.txt witryny stanowią komendy Disallow i User-agent, a także kilka drugorzędnych poleceń.

Dyrektywa Disallow

Disallow to komenda, dzięki której robot wyszukiwania jest informowany o tym, których stron witryny nie ma sensu indeksować. Użycie disallow w odniesieniu do całej witryny ma sens w przypadku, gdy z jakiegoś powodu chcesz ją „zamknąć” dla botów, np. gdy działa niepoprawnie. W takim wypadku witryna nie jest indeksowana, a to znaczy, że nie zajmuje żadnej pozycji w wynikach wyszukiwania. Oczywiście po naprawieniu problemów należy wycofać zakaz indeksowania.

Polecenie disallow może też odnosić się do:

  • wszystkich plików w określonym folderze;
  • strony o konkretnym adresie URL;
  • konkretnego pliku (np. obrazu);
  • plików z określonym rozszerzeniem (np. *.gif$).

Gwiazdka przed .gif wskazuje, że nazwa pliku może być dowolna, a znak $ oznacza koniec wiersza. Taki zapis ogólnie uniemożliwia skanowanie wszystkich plików typu GIF.

Dyrektywa Allow

Jak można się domyślić, komenda allow jest odwrotnością disallow – pozwala na indeksowanie pliku, folderu lub strony. Połączenie tych dwóch poleceń będzie postrzegane przez roboty wyszukiwania jako np. „zabrania się indeksowania witryny, z wyjątkiem strony/folderu”. Jeśli kilka komend pasuje do tej samej strony, bot wybiera ostatnią pasującą z listy. To znaczy, że w sytuacji, gdy w pliku są dwa sprzeczne ze sobą polecenia, priorytetowo potraktowane będzie to ostatnie.

User-agent

User-agent to komenda będąca swego rodzaju „zwrotem” bezpośrednio do robota indeksującego – jakbyś chciał mu powiedzieć „ta lista poleceń jest specjalnie dla Ciebie”. Możesz przygotować kilka oddzielnych list dla robotów różnych wyszukiwarek. W praktyce oznacza to, że bot Google weźmie pod uwagę tylko część pliku z komendą: User-agent: GoogleBot. Warto wiedzieć, że gwiazdka w wierszu User-agent oznacza boty wszystkich wyszukiwarek (oprócz tych z osobnymi listami).

Mapa strony (sitemap.xml)

Polecenie Sitemap to lokalizacja mapy witryny w pliku XML zawierająca adresy wszystkich stron, które muszą być zindeksowane. Z reguły wygląda to tak: http://twojastrona.pl/sitemap.xml.

Źródło: Mikhail Nilov/pexels.com

Każdorazowo robot będzie przeglądać mapę witryny w poszukiwaniu nowych adresów, a następnie podążać za nimi w celu dalszego indeksowania i odświeżenia informacji o witrynie w bazach wyszukiwarek.

Dlaczego plik robots.txt jest potrzebny?

Najważniejszą korzyścią utworzenia pliku robots.txt jest szybsze i pełniejsze indeksowanie witryny. W większości przypadków w zasobie znajdują się różne strony, które nie powinny być uwzględniane przez algorytmy Google, ale które są otwarte do indeksowania, a boty wyszukiwania nie mają innego wyboru, jak wziąć je pod uwagę. Oto kilka przykładów stron, które mają negatywny wpływ na indeksowanie witryny jako całości:

  • zduplikowane strony – może to być na przykład ta sama strona w witrynie, ale dostępna pod różnymi adresami URL;
  • strony błędów 404 – jeśli ich nie wyłączysz, bot wyszukiwania może indeksować tysiące niepotrzebnych stron;
  • strony o niskiej jakości i spam – jeśli wiesz, że masz podobne strony w swojej witrynie, lepiej zabronić ich indeksowania;
  • niekończące się strony – prostym przykładem jest kalendarz, można po nim poruszać się po dniach, tygodniach, miesiącach, latach itp., i przez to robot może indeksować wiele niepotrzebnych stron;
  • strony wyszukiwania – na przykład, jeśli masz kilkaset treści, roboty mogą zacząć indeksować wszystkie te niepotrzebne strony z wynikami wyszukiwania, co doprowadzi do zduplikowania treści;
  • strony koszyka i kasy – dotyczy to tylko sklepów internetowych.
  • strony filtrujące, może nawet porównywarki produktów – może być ich ogromna liczba (im większy sklep internetowy, tym więcej takich stron może istnieć), nie mają praktycznego zastosowania, ale wszystkie są domyślnie indeksowane przez wyszukiwarki;
  • strony z rejestracją i autoryzacją – lepiej jest zabronić ich indeksowania, ponieważ w ten sposób hakerzy mogą wyszukać Twoją witrynę i spróbować się na nią włamać.

Oczywiście w razie potrzeby możesz samodzielnie rozszerzyć tę listę. Każda witryna może mieć nieco inną strukturę i w różnych wypadkach możesz uznać, że roboty Google nie muszą indeksować niektórych sekcji.

Najczęstsze błędy w pliku robots.txt

Robots.txt to jeden z najprostszych plików w Twojej witrynie. Nie zmienia to jednak faktu, że łatwo popełnić w nim banalne, ale niebezpieczne błędy. Wystarczy jeden znak na nie swoim miejscu, by pozycja strony gwałtownie spadła. Nawet doświadczeni specjaliści SEO czasami popełniają takie błędy, nie mówiąc już o początkujących w tym temacie. Jeśli nadal nie wiesz, jak poprawnie pracować z plikiem robots.txt lub jeśli już gdzieś popełniłeś błąd i nie chcesz, aby to się powtórzyło, przeczytaj poniższą listę najczęstszych błędów.

  1. Sprzeczne instrukcje.
  2. Kilka folderów wstawionych w jednym wierszu disallow. W takim zapisie robot może się pomylić, dlatego ogólna zasada mówi: jedna dyrektywa disallow = jeden folder. To znaczy, że dla każdego kolejnego musisz zapisać nowy wiersz.
  3. Błędna nazwa pliku. Dozwolony jest tylko zapis małymi literami – robots.txt. Wszystkie inne są niepoprawne.
  4. Dyrektywa User-agent nie może być pusta. Podaj nazwę robota wyszukiwania (na przykład Googlebot) lub umieść w wierszu gwiazdkę.
  5. Zbędne znaki w pliku (dodatkowe ukośniki, gwiazdki itp.).

Aby uniknąć takich błędów, a w następstwie poważnych problemów z indeksacją, każdorazowo po zmianach weryfikuj plik, korzystając z odpowiednich narzędzi.

Weryfikacja poprawności pliku robots.txt

Istnieje kilka sposobów sprawdzania pliku robots.txt pod kątem zgodności z ogólnie przyjętym standardem. Możesz użyć panelu webmastera z narzędzia Google Search Console. W tym wypadku wystarczy, że wejdziesz na swoje konto, a następnie przejdziesz do zakładki „Crawl” -> „Narzędzie do sprawdzania pliku robots.txt.”. Do weryfikacji pliku możesz też użyć dostępnych na rynku usług takich jak: Screaming Frog SEO Spider, Robots.txt File Generator czy SEOptimer. Odpowiednie narzędzie błyskawicznie wykryje wszystkie błędy i potencjalne problemy, a także pozwoli od razu je naprawić.

Kilka końcowych rekomendacji dla konfiguracji pliku robots.txt

Nowa dyrektywa – nowy wiersz

Jeśli nie rozdzielisz dyrektyw, robot może je pominąć albo źle odczytać i nie liczyć. Ponadto, gdy wszystko jest napisane w jednej linii, łatwiej przeoczyć pomyłkę.

Użyj gwiazdki, aby uprościć instrukcje

Znak „*” może być używany nie tylko do odnoszenia się do wszystkich robotów, ale także do skrótów adresów w poleceniach. Na przykład jeśli nie chcesz, aby boty odwiedzały strony produktów kategorii z niestandardowymi opcjami, możesz wpisać adresy wszystkich tych stron w oddzielnych wierszach:

  • User-agent: *
  • Disallow: /produkty/spodnie?
  • Disallow: /produkty/koszulki?
  • Disallow: /produkty/swetry?

lub wskazać je w jednym i wyłączyć indeksowanie wszystkich stron w produktach, które kończą się znakiem zapytania:

  • User-agent: *
  • Disallow: /produkty/*?.

Umieść symbol $ na końcu adresu

Aby pokazać botowi, gdzie kończy się żądany adres URL, użyj znaku dolara, na przykład, jeśli chcesz uniemożliwić botom przeglądanie plików PDF, plik robots.txt powinien zawierać następujący wiersz:

  • User-agent: *
  • Disallow: /*.pdf$

Zamknie to botom drogę do wszystkich stron, których adres kończy się na .pdf, ale nie do tych, które kończą się na przykład w taki sposób: /file.pdf?id=76348355641.

Do każdego bota zwróć się tylko raz

Nie jest to reguła, ale rada, która ułatwi pracę. Google z powodzeniem rozpatruje polecenia także w takiej formie:

  • User-agent: Googlebot
  • Disallow: /a/
  • User-agent: Googlebot
  • Disallow: /b/

Jednak przy takim zapisie w pliku będzie zdecydowanie więcej wierszy, co zwiększa prawdopodobieństwo popełnienia błędu. Lepiej uprościć zapis i połączyć wszystkie wytyczne w jedną listę pod konkretnym zwrotem:

  • User-agent: Googlebot
  • Disallow: /a/
  • Disallow: /b/

Precyzuj polecenia

Ogólne instrukcje mogą prowadzić do katastrofalnych w skutkach błędów. Wyobraź sobie, że prowadzisz stronę internetową w dwóch językach – polskim i angielskim. Druga wersja językowa, choć została już opublikowana w zasobie, nie jest jeszcze w pełni gotowa. Codziennie coś w niej zmienisz i dodajesz nowe elementy, więc nie chcesz, by boty ją indeksowały. Angielska wersja strony jest dostępna pod adresem twojastrona.pl/en. W pliku robots.txt piszesz:

  • User-agent: *
  • Disallow: /en

Robot nie wchodzi do wersji angielskiej, ale jednocześnie także na inne strony/foldery/pliki, które zaczynają się od liter „en”. Aby tego uniknąć, musisz dodać ukośnik na końcu wiersza:

  • User-agent: *
  • Disallow: /en/

Każda subdomena ma osobny plik

Roboty wykonują instrukcje tylko w domenie, w której plik robots.txt jest załadowany. Jeśli masz co najmniej jedną subdomenę, na przykład blog.twojastrona.pl, musisz utworzyć dla niej osobny plik.

Prawidłowo skonfigurowany plik robots.txt może pozytywnie wpłynąć na pozycję Twojego zasobu, dlatego nie lekceważ jego znaczenia.

Zobacz również
Grupa iCEA
Grupa iCEA
Kategoria: Pozycjonowanie
Ostatnie wpisy

    Zastanawiasz się, dlaczego Twoja strona NIE SPRZEDAJE?
    Umów się na bezpłatną konsultację SEO i dowiedz się, jak możemy poprawić Twoje wyniki sprzedażowe.
    Oceń tekst
    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany.

    Chcesz zobaczyć o czym jeszcze pisaliśmy?

    Czym jest strona filarowa?

    Czym jest strona filarowa?

    Większość przedsiębiorców nadal nie wie, czym są strony filarowe, dlatego postanowiliśmy dokładnie wyjaśnić ten termin w naszym artykule.
    Czy warto zatrudnić agencję SEO?

    Czy warto zatrudnić agencję SEO?

    Zastanawiasz się, czy naprawdę warto zatrudnić doświadczonych ekspertów od SEO? Przeczytaj nasz artykuł, aby podjąć tę trudną decyzję.
    Czy pozycjonowanie sklepu internetowego się opłaca?

    Czy pozycjonowanie sklepu internetowego się opłaca?

    Sklepy internetowe to wygodna forma zakupów. Rocznie liczba sklepów online wzrasta o 25%. Czy przy tak dużej konkurencji warto inwestować w pozycjonowanie i czy się ono opłaca?
    DARMOWY AUDYT SEO

      Rozpocznij

      od bezpłatnej
      konsultacji SEO

      Zainwestuj w szczegółową konsultację SEO i dowiedz się więcej na temat wydajności Twojego sklepu internetowego. Przeprowadzimy dla Ciebie kompleksową analizę, dzięki której uzyskasz jasny obraz tego, co należy poprawić.

      • I Nasz ekspert SEO skontaktuje się z Tobą telefonicznie.
      • II Umówimy się na bezpłatną konsultację w dogodnym dla Ciebie terminie.
      • III SEO konsultant przeprowadzi audyt Twojej witryny i przedstawi Ci strategiczne rekomendacje, dzięki którym poprawisz wydajność swojego sklepu internetowego.
      • IV Otrzymasz szczegółowy raport SEO biorący pod uwagę szereg ważnych czynników rankingowych Google.

      Dziękujemy za kontakt.

      Pozycjonujemy biznesy od 2007 roku. Pozwól, że zrobimy to za Ciebie!

      Wrócimy z odpowiedzią w ciągu 72 godzin. Sprawdź swoją skrzynkę e-mailową, aby uzyskać więcej informacji.

        Chcesz poznać
        ofertę?
        Skontaktujemy się z Tobą
        w ciągu kilku minut!
        Niestety aktualnie nasz konsultant nie jest dostępny. Skontaktujemy się z Tobą w godzinach otwarcia biura.
        Wyrażam zgodę na przetwarzanie moich danych w celu telefonicznego przedstawienia mi oferty firmy iCEA. Więcej w Polityce prywatności.