Każdy kto zajmuje się pozycjonowaniem wie co robić, aby wyszukiwarki chętniej indeksowały daną stronę internetową. Czasami jednak z różnych powodów chcemy zablokować możliwość indeksowania. Zazwyczaj chcemy to zrobić wyłącznie dla wybranej podstrony lub konkretnych zasobów czy plików. W wyjątkowych przypadkach może zaistnieć potrzeba zablokowania indeksacji na całej witrynie. Zazwyczaj potrzeba wykluczenia danej strony lub jej części z indeksu. Wynika z tego, że pojawia się zduplikowana treść lub opublikowany content ma charakter poufny. Warto wiedzieć, że metod, aby zablokować indeksację jest co najmniej kilka. Niektóre z nich opisujemy w niniejszym artykule.
Żeby dobrze zrozumieć jak Google dodaje strony do swojego indeksu, warto zastanowić się, jakie elementy mają wpływ na dodanie lub usunięcie witryny z indeksu wyszukiwarki.
Z punktu widzenia SEO, czym sprawniej strona się indeksuje tym lepiej. Z reguły specjaliści zajmujący się SEO pracują nad szybkością strony, odpowiednią mapą witryny oraz linkowaniem wewnętrznym w celu nakierowania robota na te podstrony, które mają być zaindeksowane w pierwszej kolejności.
Jeśli więc chcemy by strona się dobrze indeksowała to musimy zadbać o dopracowanie elementów, które zostały opisane powyżej. Natomiast, jeżeli chcemy, aby określone zasoby się nie indeksowały, to można zastosować jedną z metod opisanych w dalszej części artykułu.
Podstawową metodą stosowaną do zablokowania indeksacji jest drobna zmiana w kodzie. Polega ona na wdrożeniu tagu noindex w sekcji <HEAD> na podstronie, która nie ma być indeksowana. W tym celu wystarczy umieścić w kodzie poniższy meta tag:
<meta name="robots" content="noindex"/>
W ten sposób zablokowane zostaną roboty indeksujące, które mogą pochodzić z różnych wyszukiwarek. Jeżeli jednak chcemy ograniczyć indeksowanie wyłącznie dla wyszukiwarki Google, wystarczy zastosować metatag blokujący googlebota. W tym celu wystarczy umieścić poniższy metatag w kodzie:
<meta name="googlebot" content="noindex">
Co istotne, takim działaniem nie tylko zablokujemy możliwość zaindeksowana danej podstrony, ale także będziemy w stanie usunąć z indeksu już zablokowaną podstronę. Po prostu, gdy bot kolejnym razem trafi na naszą witrynę, odczyta informację o tym, że dana podstrona powinna być wyindeksowana.
Żeby strona internetowa funkcjonowała, na serwerze powinien być umieszczony plik robots.txt. Jednym z zadań jakie spełnia ten plik jest komunikacja z robotami indeksującymi. Innymi słowy, między innymi plik ten określa do których zasobów witryny roboty mogą mieć dostęp.
Jeśli jesteś w stanie wejść na swój serwer, odnaleźć tam plik robots.txt i możesz go edytować to blokowanie stron w wyszukiwarce nie powinno być trudnym zadaniem. Wystarczy w pliku dodać następującą instrukcję:
Disallow: /fragment-adresu-URL
Warto zwrócić uwagę na to, że Google rozróżnia adresy URL pisane z wielkiej oraz małej litery. Na przykład, aby zablokować podstronę mającą w adresie url „kontakt” (np. przykladowastrona.pl/kontakt) należy zastosować następujący zapis:
User-agent: * Disallow: /kontakt
Jeśli chcesz zablokować podstronę blog (zakładając, że jej adres URL jest zgodny z schematem przykladowastrona.pl/blog) to w takim razie należy zastosować następujący zapis:
User-agent: * Disallow: /blog
Żeby zablokować indeksację całej witryny wystarczy w pliku robots.txt wprowadzić następujący zapis:
User-agent: * Disallow: /
Żeby zablokować indeksację całej witryny wyłącznie dla wybranej wyszukiwarki. To w takim razie należy zastosować następujący zapis dla wyszukiwarki Google:
User-agent: Googlebot Disallow: /
Lub taki zapis dla wyszukiwarki Yandex:
User-agent: Yandex Disallow: /
Jeśli po zablokowaniu dostępu do witryny chcesz ją ponownie udostępnić dla robota i umożliwić indeksację, należy usunąć ukośnik (wraz z adresem, który po nim następuje) lub zamiast “Disallow” zastosować dyrektywę “allow”.
Zablokowanie witryny z poziomu pliku robots.txt w większości przypadków okazuje się skutecznym sposobem na zabezpieczenie strony przed pojawieniem się w indeksie. Jednak nie jest to sposób dający stuprocentową gwarancję sukcesu. Robot wyszukiwarki Google prawdopodobnie uwzględni naszą wskazówkę, jednak nie ma takiej gwarancji.
Warto mieć na uwadze, że zablokowanie indeksowania za pomocą pliku robots.txt jest prostym zadaniem, ale jednak trzeba to wykonywać z bardzo dużą ostrożnością. Nieumiejętne posługiwanie się plikiem robots.txt może doprowadzić do uszkodzenia witryny. Dlatego zanim otworzysz i zaczniesz edycję pliku robots.txt zapoznaj się z kilkoma poradnikami i upewnij się, że dysponujesz odpowiednią wiedzą techniczną.
Alternatywą jest zastosowanie dyrektywy x-robots-tag, którą dodaje się w pliku .htcaccess (w przypadku serwerów Apache) lub w pliku .conf (w przypadku serwerów Nginx). Warto odnotować, że między składnią Nginx oraz Apache są istotne różnice. Kilka przykładów przedstawiamy poniżej. Przykady pochodzą z oficjalnych materialów Google, które można znaleźć pod tym adresem: https://developers.google.com/search/docs/advanced/robots/robots_meta_tag?hl=pl#nginx_2
APACHE: zastosowanie noindex dla wszystkich plików .pdf w danej witrynie:
<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX: zastosowanie noindex dla wszystkich plików .pdf w danej witrynie:
location ~* \.pdf$ { add_header X-Robots-Tag "noindex, nofollow";
APACHE: zastosowanie noindex dla obrazów w formacie .png, .jpeg, .gif:
<Files ~ "\.(png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex" </Files>
NGINX: przykład zastosowania noindex dla obrazów w formacie .png, .jpeg, .gif:
location ~* \.(png|jpe?g|gif)$ { add_header X-Robots-Tag "noindex"; }
APACHE: przykład zastosowania noindex dla pojedynczych plików statycznych:
# the htaccess file must be placed in the directory of the matched file. <Files "unicorn.pdf"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX: przykład zastosowania noindex dla pojedynczych plików statycznych:
location = /secrets/unicorn.pdf {
add_header X-Robots-Tag „noindex, nofollow”;
}
Stronę z indeksu wyszukiwarki Google można także usunąć poprzez narzędzie Google Search Console. W tym celu po zalogowaniu do GSC trzeba w sekcji „Indeks” wybrać „Usunięcia”. Następnie w zakładce TYMCZASOWE USUNIĘCIA należy kliknąć wyrazisty czerwony przycisk „NOWA PROŚBA”. Następnie wystarczy wkleić adres URL, który nie ma być indeksowany i za pomocą przycisku potwierdzić prośbę o usunięcie z indeksu.
Blokując indeksację przez Search Console trzeba zwrócić uwagę na to, że jest to metoda jedynie na tymczasowe wykluczenie witryny z indeksu. W momencie pisania tego artykułu GSC podaje, że metoda ta pozwala wykluczyć wybrany URL z wyników wyszukiwania Google na około sześć miesięcy. Jest to więc bardzo prosty i wygody sposób na usunięcie podstrony z wyników wyszukiwania, jednak efekt jest tylko chwilowy. Jeśli chcesz, aby wybrane zasoby były na stałe wykluczone z wyników wyszukiwania, powinieneś zdecydować się na inne metody.
Jeśli chcesz zablokować indeksowanie na stronie internetowej opartej o system CMS WordPress, możesz skorzystać z specjalnie przygotowanej do tego celu wtyczki. Jest to prosty sposób na wyłączenie całej witryny lub poszczególnych podstron z indeksacji bez konieczności samodzielnej ingerencji w kod za pomocą metody noindex. Wtyczki tego typu można znaleźć w wyszukiwarce wtyczek na WordPressie pod frazą „noindex”. Szczególnie popularną wtyczką, która między innymi oferuje funkcję “noindex” jest Yoast SEO.
Niezależnie od ustawień w pliku robots.txt oraz zastosowania tagu noindex, w pierwszej kolejności prawdopodobnie respektowana jest blokada przesłana do Google bezpośrednio z poziomu Search Console. Jest to jasny i wyraźny sygnał dla robota, że określona podstrona nie ma być zaindeksowana. Trzeba jednak pamiętać, że jest to działanie tymczasowe i po około 6 miesiącach podstrona może wrócić do indeksu.
Robots.txt no index, robots no index, robots.txt noindex lub robots noindex – takie frazy wpisują w wyszukiwarkę osoby poszukujące informacji o metodzie robots.txt oraz o tagu noindex. Niestety metody te są ze sobą mylone i czasami traktowane jak jedna i ta sama metoda. Cel w jakim są użyte rzeczywiście jest podobny, natomiast różnią się one między sobą sposobem działania. Dyrektywy wpisywane w pliku robots.txt dotyczą konfiguracji wykonywanych z poziomu plików na serwerze. Natomiast tag noindex dotyczy instrukcji dla robota, które są zawarte w kodzie HTML danej strony.
1) Najpierw robot sprawdza czy ma pozwolenie na dokonanie indeksacji. Informacje o tym pozwoleniu odczytuje z pliku robots.txt.
2) Dopiero gdy robots.txt umożliwi robotowi sprawdzenie witryny, możliwe jest odczytanie i przetworzenie tagu noindex.
Najprostszym sposobem na sprawdzenie indeksacji w wyszukiwarce Google jest wpisanie w pole wyszukiwania site:
http://przykladowastrona.pl/
(gdzie zamiast przykładowastrona.pl oczywiście trzeba wpisać adres sprawdzanej witryny).
Lista wyników jakie się pojawią to oczywiście lista zaindeksowanych podstron. Na poniższym zrzucie ekranu jest to przedstawione dla strony sxo.pl
Źródło grafiki: własne, https://www.google.com/
Warto wiedzieć, że listę zaindeksowanych lub niezaindeksowanych podstron można sprawdzić w Serach Console. W tym celu wystarczy wejść w sekcji Indeks w „Stan”. Następnie można kliknąć na „Prawidłowe” lub „Wykluczono”. Po kliknięciu w pozycję Prawidłowe” można przejść do listy zaindeksowanych adresów URL. Natomiast po kliknięciu w „Wykluczono” pojawia się lista przyczyn z jakich określone podstrony nie zostały zaindeksowane.
Źródło grafiki: własne, https://search.google.com/
Klikając w poszczególne przyczyny (np. w tekst “Strona wykluczona za pomocą tagu “noindex”) możemy sprawdzić, które adresy URL zostały wykluczone z indeksacji z powodu danej przyczyny. Przykładowe przyczyny wykluczenia jakie zazwyczaj można znaleźć w GSC są następujące:
Sposobów na zablokowanie indeksowania witryny jest co najmniej kilka: między innymi Search Console, robots.txt oraz tag noindex. Poza tym, w przypadku WordPressa oraz innych popularnych systemów CMS, alternatywą może być zastosowanie specjalnej wtyczki, która wprowadza tag noindex bez potrzeby samodzielnej ingerencji w kod strony.
Szczególnie osoby stawiające pierwsze kroki w zarządzaniu witryną internetową powinny pamiętać, aby przystępując do zmian w kodzie zachować ostrożność i zawsze zabezpieczać poprzednie wersje kodu. W ten sposób można uniknąć niepotrzebnych problemów.
Poza tym, warto odnotować, że nie jest rekomendowane stosowanie zapisu Disallow w pliku robots.txt, x-robots-tag oraz tagu noindex równocześnie. Żeby robot mógł odczytać tag noindex musi najpierw dotrzeć na stronę, na której ten tag jest umieszczony. W przypadku blokady na poziomie robots.txt może nie odczytać tagu noindex. Co prawda wciąż równoczesne zastosowanie blokady w pliku robots.txt oraz tagu noindex może skutecznie zablokować indeksację, jednak raczej nie jest to praktyka, którą rekomendują doświadczeni webmasterzy.
Chcesz zobaczyć o czym jeszcze pisaliśmy?
Rozpocznij
od bezpłatnej
konsultacji SEO
Zainwestuj w szczegółową konsultację SEO i dowiedz się więcej na temat wydajności Twojego sklepu internetowego. Przeprowadzimy dla Ciebie kompleksową analizę, dzięki której uzyskasz jasny obraz tego, co należy poprawić.