Robots.txt dla witryny to plik tekstowy indeksu zakodowany w formacie UTF-8. Jeśli kodowanie pliku różni się od UTF-8, roboty wyszukiwania mogą błędnie zinterpretować zawarte w nim informacje. Plik nazwano indeksem, ponieważ zawiera rekomendacje dla robotów wyszukiwarki – wskazówki, które strony powinny być indeksowane, a które nie. Dobre systemy CMS oraz platformy e-commerce dają możliwość ręcznej konfiguracji pliku robots.txt, który ma znaczenie przy pozycjonowaniu zasobu w organicznych wynikach wyszukiwania. Sprawdźmy więc, jak zlokalizować plik w PrestaShop i jak prawidłowo go skonfigurować.
W przypadku platformy PrestaShop robots.txt znajdziesz bez większych problemów, ponieważ może mieć tylko w jedną lokalizację – katalog główny sklepu: http://www.twoja-strona.pl/robots.txt. W najnowszej wersji PrestaShop automatycznie wygenerowany plik jest wystarczająco dobry, by zapewnić prawidłowe działanie Twojego sklepu. Jeśli jednak chcesz go edytować, użyj programu FTP do jego wyświetlenia i poznaj najważniejsze polecenia.
Obowiązkowe elementy pliku robots.txt witryny stanowią komendy Disallow i User-agent, a także kilka drugorzędnych poleceń.
Disallow to komenda, dzięki której robot wyszukiwania jest informowany o tym, których stron witryny nie ma sensu indeksować. Użycie disallow w odniesieniu do całej witryny ma sens w przypadku, gdy z jakiegoś powodu chcesz ją „zamknąć” dla botów, np. gdy działa niepoprawnie. W takim wypadku witryna nie jest indeksowana, a to znaczy, że nie zajmuje żadnej pozycji w wynikach wyszukiwania. Oczywiście po naprawieniu problemów należy wycofać zakaz indeksowania.
Polecenie disallow może też odnosić się do:
Gwiazdka przed .gif wskazuje, że nazwa pliku może być dowolna, a znak $ oznacza koniec wiersza. Taki zapis ogólnie uniemożliwia skanowanie wszystkich plików typu GIF.
Jak można się domyślić, komenda allow jest odwrotnością disallow – pozwala na indeksowanie pliku, folderu lub strony. Połączenie tych dwóch poleceń będzie postrzegane przez roboty wyszukiwania jako np. „zabrania się indeksowania witryny, z wyjątkiem strony/folderu”. Jeśli kilka komend pasuje do tej samej strony, bot wybiera ostatnią pasującą z listy. To znaczy, że w sytuacji, gdy w pliku są dwa sprzeczne ze sobą polecenia, priorytetowo potraktowane będzie to ostatnie.
User-agent to komenda będąca swego rodzaju „zwrotem” bezpośrednio do robota indeksującego – jakbyś chciał mu powiedzieć „ta lista poleceń jest specjalnie dla Ciebie”. Możesz przygotować kilka oddzielnych list dla robotów różnych wyszukiwarek. W praktyce oznacza to, że bot Google weźmie pod uwagę tylko część pliku z komendą: User-agent: GoogleBot. Warto wiedzieć, że gwiazdka w wierszu User-agent oznacza boty wszystkich wyszukiwarek (oprócz tych z osobnymi listami).
Polecenie Sitemap to lokalizacja mapy witryny w pliku XML zawierająca adresy wszystkich stron, które muszą być zindeksowane. Z reguły wygląda to tak: http://twojastrona.pl/sitemap.xml.
Każdorazowo robot będzie przeglądać mapę witryny w poszukiwaniu nowych adresów, a następnie podążać za nimi w celu dalszego indeksowania i odświeżenia informacji o witrynie w bazach wyszukiwarek.
Najważniejszą korzyścią utworzenia pliku robots.txt jest szybsze i pełniejsze indeksowanie witryny. W większości przypadków w zasobie znajdują się różne strony, które nie powinny być uwzględniane przez algorytmy Google, ale które są otwarte do indeksowania, a boty wyszukiwania nie mają innego wyboru, jak wziąć je pod uwagę. Oto kilka przykładów stron, które mają negatywny wpływ na indeksowanie witryny jako całości:
Oczywiście w razie potrzeby możesz samodzielnie rozszerzyć tę listę. Każda witryna może mieć nieco inną strukturę i w różnych wypadkach możesz uznać, że roboty Google nie muszą indeksować niektórych sekcji.
Robots.txt to jeden z najprostszych plików w Twojej witrynie. Nie zmienia to jednak faktu, że łatwo popełnić w nim banalne, ale niebezpieczne błędy. Wystarczy jeden znak na nie swoim miejscu, by pozycja strony gwałtownie spadła. Nawet doświadczeni specjaliści SEO czasami popełniają takie błędy, nie mówiąc już o początkujących w tym temacie. Jeśli nadal nie wiesz, jak poprawnie pracować z plikiem robots.txt lub jeśli już gdzieś popełniłeś błąd i nie chcesz, aby to się powtórzyło, przeczytaj poniższą listę najczęstszych błędów.
Aby uniknąć takich błędów, a w następstwie poważnych problemów z indeksacją, każdorazowo po zmianach weryfikuj plik, korzystając z odpowiednich narzędzi.
Istnieje kilka sposobów sprawdzania pliku robots.txt pod kątem zgodności z ogólnie przyjętym standardem. Możesz użyć panelu webmastera z narzędzia Google Search Console. W tym wypadku wystarczy, że wejdziesz na swoje konto, a następnie przejdziesz do zakładki „Crawl” -> „Narzędzie do sprawdzania pliku robots.txt.”. Do weryfikacji pliku możesz też użyć dostępnych na rynku usług takich jak: Screaming Frog SEO Spider, Robots.txt File Generator czy SEOptimer. Odpowiednie narzędzie błyskawicznie wykryje wszystkie błędy i potencjalne problemy, a także pozwoli od razu je naprawić.
Jeśli nie rozdzielisz dyrektyw, robot może je pominąć albo źle odczytać i nie liczyć. Ponadto, gdy wszystko jest napisane w jednej linii, łatwiej przeoczyć pomyłkę.
Znak „*” może być używany nie tylko do odnoszenia się do wszystkich robotów, ale także do skrótów adresów w poleceniach. Na przykład jeśli nie chcesz, aby boty odwiedzały strony produktów kategorii z niestandardowymi opcjami, możesz wpisać adresy wszystkich tych stron w oddzielnych wierszach:
lub wskazać je w jednym i wyłączyć indeksowanie wszystkich stron w produktach, które kończą się znakiem zapytania:
Aby pokazać botowi, gdzie kończy się żądany adres URL, użyj znaku dolara, na przykład, jeśli chcesz uniemożliwić botom przeglądanie plików PDF, plik robots.txt powinien zawierać następujący wiersz:
Zamknie to botom drogę do wszystkich stron, których adres kończy się na .pdf, ale nie do tych, które kończą się na przykład w taki sposób: /file.pdf?id=76348355641.
Nie jest to reguła, ale rada, która ułatwi pracę. Google z powodzeniem rozpatruje polecenia także w takiej formie:
Jednak przy takim zapisie w pliku będzie zdecydowanie więcej wierszy, co zwiększa prawdopodobieństwo popełnienia błędu. Lepiej uprościć zapis i połączyć wszystkie wytyczne w jedną listę pod konkretnym zwrotem:
Ogólne instrukcje mogą prowadzić do katastrofalnych w skutkach błędów. Wyobraź sobie, że prowadzisz stronę internetową w dwóch językach – polskim i angielskim. Druga wersja językowa, choć została już opublikowana w zasobie, nie jest jeszcze w pełni gotowa. Codziennie coś w niej zmienisz i dodajesz nowe elementy, więc nie chcesz, by boty ją indeksowały. Angielska wersja strony jest dostępna pod adresem twojastrona.pl/en. W pliku robots.txt piszesz:
Robot nie wchodzi do wersji angielskiej, ale jednocześnie także na inne strony/foldery/pliki, które zaczynają się od liter „en”. Aby tego uniknąć, musisz dodać ukośnik na końcu wiersza:
Roboty wykonują instrukcje tylko w domenie, w której plik robots.txt jest załadowany. Jeśli masz co najmniej jedną subdomenę, na przykład blog.twojastrona.pl, musisz utworzyć dla niej osobny plik.
Prawidłowo skonfigurowany plik robots.txt może pozytywnie wpłynąć na pozycję Twojego zasobu, dlatego nie lekceważ jego znaczenia.
Chcesz zobaczyć o czym jeszcze pisaliśmy?
Rozpocznij
od bezpłatnej
konsultacji SEO
Zainwestuj w szczegółową konsultację SEO i dowiedz się więcej na temat wydajności Twojego sklepu internetowego. Przeprowadzimy dla Ciebie kompleksową analizę, dzięki której uzyskasz jasny obraz tego, co należy poprawić.