DARMOWY AUDYT SEO

Robots.txt na PrestaShop – gdzie go znaleźć? Co warto dodać?

8 min czytania
Robots.txt na PrestaShop – gdzie go znaleźć? Co warto dodać?
Kategoria Pozycjonowanie

Robots.txt dla witryny to plik tekstowy indeksu zakodowany w formacie UTF-8. Jeśli kodowanie pliku różni się od UTF-8, roboty wyszukiwania mogą błędnie zinterpretować zawarte w nim informacje. Plik nazwano indeksem, ponieważ zawiera rekomendacje dla robotów wyszukiwarki – wskazówki, które strony powinny być indeksowane, a które nie. Dobre systemy CMS oraz platformy e-commerce dają możliwość ręcznej konfiguracji pliku robots.txt, który ma znaczenie przy pozycjonowaniu zasobu w organicznych wynikach wyszukiwania. Sprawdźmy więc, jak zlokalizować plik w PrestaShop i jak prawidłowo go skonfigurować.

Spis treści:

Gdzie szukać robots.txt w PrestaShop?

W przypadku platformy PrestaShop robots.txt znajdziesz bez większych problemów, ponieważ może mieć tylko w jedną lokalizację – katalog główny sklepu: http://www.twoja-strona.pl/robots.txt. W najnowszej wersji PrestaShop automatycznie wygenerowany plik jest wystarczająco dobry, by zapewnić prawidłowe działanie Twojego sklepu. Jeśli jednak chcesz go edytować, użyj programu FTP do jego wyświetlenia i poznaj najważniejsze polecenia.

Sprawdź: Jak stworzyć oraz do czego używać pliku robots.txt na WordPressie?

PrestaShop robots txt – jak konfigurować?

Obowiązkowe elementy pliku robots.txt witryny stanowią komendy Disallow i User-agent, a także kilka drugorzędnych poleceń.

Dyrektywa Disallow

Disallow to komenda, dzięki której robot wyszukiwania jest informowany o tym, których stron witryny nie ma sensu indeksować. Użycie disallow w odniesieniu do całej witryny ma sens w przypadku, gdy z jakiegoś powodu chcesz ją „zamknąć” dla botów, np. gdy działa niepoprawnie. W takim wypadku witryna nie jest indeksowana, a to znaczy, że nie zajmuje żadnej pozycji w wynikach wyszukiwania. Oczywiście po naprawieniu problemów należy wycofać zakaz indeksowania.

Polecenie disallow może też odnosić się do:

  • wszystkich plików w określonym folderze;
  • strony o konkretnym adresie URL;
  • konkretnego pliku (np. obrazu);
  • plików z określonym rozszerzeniem (np. *.gif$).

Gwiazdka przed .gif wskazuje, że nazwa pliku może być dowolna, a znak $ oznacza koniec wiersza. Taki zapis ogólnie uniemożliwia skanowanie wszystkich plików typu GIF.

Dyrektywa Allow

Jak można się domyślić, komenda allow jest odwrotnością disallow – pozwala na indeksowanie pliku, folderu lub strony. Połączenie tych dwóch poleceń będzie postrzegane przez roboty wyszukiwania jako np. „zabrania się indeksowania witryny, z wyjątkiem strony/folderu”. Jeśli kilka komend pasuje do tej samej strony, bot wybiera ostatnią pasującą z listy. To znaczy, że w sytuacji, gdy w pliku są dwa sprzeczne ze sobą polecenia, priorytetowo potraktowane będzie to ostatnie.

User-agent

User-agent to komenda będąca swego rodzaju „zwrotem” bezpośrednio do robota indeksującego – jakbyś chciał mu powiedzieć „ta lista poleceń jest specjalnie dla Ciebie”. Możesz przygotować kilka oddzielnych list dla robotów różnych wyszukiwarek. W praktyce oznacza to, że bot Google weźmie pod uwagę tylko część pliku z komendą: User-agent: GoogleBot. Warto wiedzieć, że gwiazdka w wierszu User-agent oznacza boty wszystkich wyszukiwarek (oprócz tych z osobnymi listami).

Mapa strony (sitemap.xml)

Polecenie Sitemap to lokalizacja mapy witryny w pliku XML zawierająca adresy wszystkich stron, które muszą być zindeksowane. Z reguły wygląda to tak: http://twojastrona.pl/sitemap.xml.

Każdorazowo robot będzie przeglądać mapę witryny w poszukiwaniu nowych adresów, a następnie podążać za nimi w celu dalszego indeksowania i odświeżenia informacji o witrynie w bazach wyszukiwarek.

Umów się na darmowy audyt Twojej strony
DARMOWY AUDYT SEO

Dlaczego plik robots.txt jest potrzebny?

Najważniejszą korzyścią utworzenia pliku robots.txt jest szybsze i pełniejsze indeksowanie witryny. W większości przypadków w zasobie znajdują się różne strony, które nie powinny być uwzględniane przez algorytmy Google, ale które są otwarte do indeksowania, a boty wyszukiwania nie mają innego wyboru, jak wziąć je pod uwagę. Oto kilka przykładów stron, które mają negatywny wpływ na indeksowanie witryny jako całości:

  • zduplikowane strony – może to być na przykład ta sama strona w witrynie, ale dostępna pod różnymi adresami URL;
  • strony błędów 404 – jeśli ich nie wyłączysz, bot wyszukiwania może indeksować tysiące niepotrzebnych stron;
  • strony o niskiej jakości i spam – jeśli wiesz, że masz podobne strony w swojej witrynie, lepiej zabronić ich indeksowania;
  • niekończące się strony – prostym przykładem jest kalendarz, można po nim poruszać się po dniach, tygodniach, miesiącach, latach itp., i przez to robot może indeksować wiele niepotrzebnych stron;
  • strony wyszukiwania – na przykład, jeśli masz kilkaset treści, roboty mogą zacząć indeksować wszystkie te niepotrzebne strony z wynikami wyszukiwania, co doprowadzi do zduplikowania treści;
  • strony koszyka i kasy – dotyczy to tylko sklepów internetowych.
  • strony filtrujące, może nawet porównywarki produktów – może być ich ogromna liczba (im większy sklep internetowy, tym więcej takich stron może istnieć), nie mają praktycznego zastosowania, ale wszystkie są domyślnie indeksowane przez wyszukiwarki;
  • strony z rejestracją i autoryzacją – lepiej jest zabronić ich indeksowania, ponieważ w ten sposób hakerzy mogą wyszukać Twoją witrynę i spróbować się na nią włamać.

Oczywiście w razie potrzeby możesz samodzielnie rozszerzyć tę listę. Każda witryna może mieć nieco inną strukturę i w różnych wypadkach możesz uznać, że roboty Google nie muszą indeksować niektórych sekcji.

Sprawdź: Czym jest plik robots.txt? Jaki ma wpływ na SEO i jak prawidłowo go skonfigurować?

Najczęstsze błędy w pliku robots.txt

Robots.txt to jeden z najprostszych plików w Twojej witrynie. Nie zmienia to jednak faktu, że łatwo popełnić w nim banalne, ale niebezpieczne błędy. Wystarczy jeden znak na nie swoim miejscu, by pozycja strony gwałtownie spadła. Nawet doświadczeni specjaliści SEO czasami popełniają takie błędy, nie mówiąc już o początkujących w tym temacie. Jeśli nadal nie wiesz, jak poprawnie pracować z plikiem robots.txt lub jeśli już gdzieś popełniłeś błąd i nie chcesz, aby to się powtórzyło, przeczytaj poniższą listę najczęstszych błędów.

  1. Sprzeczne instrukcje.
  2. Kilka folderów wstawionych w jednym wierszu disallow. W takim zapisie robot może się pomylić, dlatego ogólna zasada mówi: jedna dyrektywa disallow = jeden folder. To znaczy, że dla każdego kolejnego musisz zapisać nowy wiersz.
  3. Błędna nazwa pliku. Dozwolony jest tylko zapis małymi literami – robots.txt. Wszystkie inne są niepoprawne.
  4. Dyrektywa User-agent nie może być pusta. Podaj nazwę robota wyszukiwania (na przykład Googlebot) lub umieść w wierszu gwiazdkę.
  5. Zbędne znaki w pliku (dodatkowe ukośniki, gwiazdki itp.).

Aby uniknąć takich błędów, a w następstwie poważnych problemów z indeksacją, każdorazowo po zmianach weryfikuj plik, korzystając z odpowiednich narzędzi.

Weryfikacja poprawności pliku robots.txt

Istnieje kilka sposobów sprawdzania pliku robots.txt pod kątem zgodności z ogólnie przyjętym standardem. Możesz użyć panelu webmastera z narzędzia Google Search Console. W tym wypadku wystarczy, że wejdziesz na swoje konto, a następnie przejdziesz do zakładki „Crawl” -> „Narzędzie do sprawdzania pliku robots.txt.”. Do weryfikacji pliku możesz też użyć dostępnych na rynku usług takich jak: Screaming Frog SEO Spider, Robots.txt File Generator czy SEOptimer. Odpowiednie narzędzie błyskawicznie wykryje wszystkie błędy i potencjalne problemy, a także pozwoli od razu je naprawić.

Kilka końcowych rekomendacji dla konfiguracji pliku robots.txt

Nowa dyrektywa – nowy wiersz

Jeśli nie rozdzielisz dyrektyw, robot może je pominąć albo źle odczytać i nie liczyć. Ponadto, gdy wszystko jest napisane w jednej linii, łatwiej przeoczyć pomyłkę.

Użyj gwiazdki, aby uprościć instrukcje

Znak „*” może być używany nie tylko do odnoszenia się do wszystkich robotów, ale także do skrótów adresów w poleceniach. Na przykład jeśli nie chcesz, aby boty odwiedzały strony produktów kategorii z niestandardowymi opcjami, możesz wpisać adresy wszystkich tych stron w oddzielnych wierszach:

  • User-agent: *
  • Disallow: /produkty/spodnie?
  • Disallow: /produkty/koszulki?
  • Disallow: /produkty/swetry?

lub wskazać je w jednym i wyłączyć indeksowanie wszystkich stron w produktach, które kończą się znakiem zapytania:

  • User-agent: *
  • Disallow: /produkty/*?.

Umieść symbol $ na końcu adresu

Aby pokazać botowi, gdzie kończy się żądany adres URL, użyj znaku dolara, na przykład, jeśli chcesz uniemożliwić botom przeglądanie plików PDF, plik robots.txt powinien zawierać następujący wiersz:

  • User-agent: *
  • Disallow: /*.pdf$

Zamknie to botom drogę do wszystkich stron, których adres kończy się na .pdf, ale nie do tych, które kończą się na przykład w taki sposób: /file.pdf?id=76348355641.

Do każdego bota zwróć się tylko raz

Nie jest to reguła, ale rada, która ułatwi pracę. Google z powodzeniem rozpatruje polecenia także w takiej formie:

  • User-agent: Googlebot
  • Disallow: /a/
  • User-agent: Googlebot
  • Disallow: /b/

Jednak przy takim zapisie w pliku będzie zdecydowanie więcej wierszy, co zwiększa prawdopodobieństwo popełnienia błędu. Lepiej uprościć zapis i połączyć wszystkie wytyczne w jedną listę pod konkretnym zwrotem:

  • User-agent: Googlebot
  • Disallow: /a/
  • Disallow: /b/

Precyzuj polecenia

Ogólne instrukcje mogą prowadzić do katastrofalnych w skutkach błędów. Wyobraź sobie, że prowadzisz stronę internetową w dwóch językach – polskim i angielskim. Druga wersja językowa, choć została już opublikowana w zasobie, nie jest jeszcze w pełni gotowa. Codziennie coś w niej zmienisz i dodajesz nowe elementy, więc nie chcesz, by boty ją indeksowały. Angielska wersja strony jest dostępna pod adresem twojastrona.pl/en. W pliku robots.txt piszesz:

  • User-agent: *
  • Disallow: /en

Robot nie wchodzi do wersji angielskiej, ale jednocześnie także na inne strony/foldery/pliki, które zaczynają się od liter „en”. Aby tego uniknąć, musisz dodać ukośnik na końcu wiersza:

  • User-agent: *
  • Disallow: /en/

Każda subdomena ma osobny plik

Roboty wykonują instrukcje tylko w domenie, w której plik robots.txt jest załadowany. Jeśli masz co najmniej jedną subdomenę, na przykład blog.twojastrona.pl, musisz utworzyć dla niej osobny plik.

Prawidłowo skonfigurowany plik robots.txt może pozytywnie wpłynąć na pozycję Twojego zasobu, dlatego nie lekceważ jego znaczenia.

iCEA Group
Jesteśmy międzynarodową agencją digital marketingu, która od 2007 roku wyznacza standardy w pozyskiwaniu i konwertowaniu ruchu. Z dumą możemy powiedzieć, że dysponujemy największym działem technicznym w Polsce, którego budową kierują najlepsi eksperci SEO, SEM i UX z wieloletnim doświadczeniem. Nasza oferta przekracza granice kraju, ponieważ oprócz działań na polskim rynku prowadzimy także kampanie w Indiach i USA. Dzięki naszym kompetencjom i zaangażowaniu pomagamy klientom osiągnąć sukces w Internecie.
Zobacz również
Zastanawiasz się, dlaczego Twoja strona NIE SPRZEDAJE?
Umów się na bezpłatną konsultację i dowiedz się, jak możemy poprawić Twoje wyniki sprzedażowe.

Oceń tekst
Średnia ocen 5/5 | Liczba ocen: 9

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

Chcesz zobaczyć o czym jeszcze pisaliśmy?

Przeprojektowanie strony internetowej: jak nie stracić efektów SEO?
Przeprojektowanie strony internetowej: jak nie stracić efektów SEO?
Przeprojektowanie witryny to niełatwe zadanie. Jak uniknąć utraty efektów SEO podczas jego realizacji? Dowiesz się w niniejszym artykule!
Wskaźniki LCP, FID, CLS – zadbaj o wydajność strony z Google
Wskaźniki LCP, FID, CLS – zadbaj o wydajność strony z Google
Dowiedz się, czym są podstawowe wskaźniki Google oraz jaki wpływ mają na SEO. Jak ocenić i poprawić prędkość funkcjonowania strony za pomocą LCP, FID, CLS?
Jaki wpływ na SEO ma nawigacja okruszkowa (breadcrumbs)?
Jaki wpływ na SEO ma nawigacja okruszkowa (breadcrumbs)?
Każdy klient oczekuje od sprzedawcy jak najprostszej i bezproblemowej drogi zakupowej. Pojawia się pytanie, jak właściwie uprosić ścieżkę na stronie WWW?

Rozpocznij

od bezpłatnej
konsultacji SEO

Zainwestuj w szczegółową konsultację SEO i dowiedz się więcej na temat wydajności Twojego sklepu internetowego. Przeprowadzimy dla Ciebie kompleksową analizę, dzięki której uzyskasz jasny obraz tego, co należy poprawić.

  • I Nasz ekspert SEO skontaktuje się z Tobą telefonicznie.
  • II Umówimy się na bezpłatną konsultację w dogodnym dla Ciebie terminie.
  • III SEO konsultant przeprowadzi audyt Twojej witryny i przedstawi Ci strategiczne rekomendacje, dzięki którym poprawisz wydajność swojego sklepu internetowego.
  • IV Otrzymasz szczegółowy raport SEO biorący pod uwagę szereg ważnych czynników rankingowych Google.

    Chcesz poznać
    ofertę?
    Skontaktujemy się z Tobą w ciągu kilku minut! Jesteśmy dostępni w dni robocze w godzinach 9-15.
    Niestety aktualnie nasz konsultant nie jest dostępny. Skontaktujemy się z Tobą w godzinach otwarcia biura.
    Wyrażam zgodę na przetwarzanie moich danych w celu telefonicznego przedstawienia mi oferty firmy iCEA. Więcej w Polityce prywatności.
    Wysyłanie
    Masz pytania? Kliknij i skontaktuj się z nami telefonicznie lub poprzez czat!
    Rozpocznij chat
    Zamów rozmowę
    Umów spotkanie