Jak zablokować indeksowanie witryny?

Jak zablokować indeksowanie witryny?

Pixabay / pexels.com

Każdy kto zajmuje się pozycjonowaniem wie co robić, aby wyszukiwarki chętniej indeksowały daną stronę internetową. Czasami jednak z różnych powodów chcemy zablokować możliwość indeksowania. Zazwyczaj chcemy to zrobić wyłącznie dla wybranej podstrony lub konkretnych zasobów czy plików. W wyjątkowych przypadkach może zaistnieć potrzeba zablokowania indeksacji na całej witrynie. Zazwyczaj potrzeba wykluczenia danej strony lub jej części z indeksu. Wynika z tego, że pojawia się zduplikowana treść lub opublikowany content ma charakter poufny. Warto wiedzieć, że metod, aby zablokować indeksację jest co najmniej kilka. Niektóre z nich opisujemy w niniejszym artykule.

Jak działa indeksowanie stron internetowych?

Żeby dobrze zrozumieć jak Google dodaje strony do swojego indeksu, warto zastanowić się, jakie elementy mają wpływ na dodanie lub usunięcie witryny z indeksu wyszukiwarki.

Z punktu widzenia SEO, czym sprawniej strona się indeksuje tym lepiej. Z reguły specjaliści zajmujący się SEO pracują nad szybkością strony, odpowiednią mapą witryny oraz linkowaniem wewnętrznym w celu nakierowania robota na te podstrony, które mają być zaindeksowane w pierwszej kolejności.

Mimo najróżniejszych starań, czasami podstrona się nie indeksuje lub jest z indeksu usuwana. Jakie czynniki mogą mieć na to wpływ?

  • Jakość strony (na szeroko pojętą jakość wpływają między innymi następujące czynniki: przejrzysta struktura strony, rozbudowane linkowanie wewnętrzne, niewielka ilość przekierowań itd.);
  • Szybkość ładowania strony (im szybsza jest strona, tym większa szansa na bezproblemową indeksację — wpływ na szybkość mają kwestie związane z optymalizacją kodu oraz czas odpowiedzi serwera);
  • Błędy na stronie (np. błędy 404, błędy http 500);
  • Zduplikowana treść lub treść bardzo niskiej jakości;
  • Częstotliwość publikacji (czym częściej strona jest aktualizowana i pojawiają się na niej nowe treści, prawdopodobnie tym częściej bot wyszukiwarki sprawdza stronę);
  • Poza powyższymi czynnikami, istotne jest to, żeby na stronę nie była nałożona tak zwana “ręczna kara” za stosowanie niedozwolonych technik SEO (kara za stosowanie metod black hat SEO).

Jeśli więc chcemy by strona się dobrze indeksowała to musimy zadbać o dopracowanie elementów, które zostały opisane powyżej. Natomiast, jeżeli chcemy, aby określone zasoby się nie indeksowały, to można zastosować jedną z metod opisanych w dalszej części artykułu.

Sprawdź: Ile trwa i jak sprawdzić indeksowanie strony w Google?

Metody na zablokowanie indeksowania witryny przez wyszukiwarki internetowe:

Meta tag noindex

Podstawową metodą stosowaną do zablokowania indeksacji jest drobna zmiana w kodzie. Polega ona na wdrożeniu tagu noindex w sekcji <HEAD> na podstronie, która nie ma być indeksowana. W tym celu wystarczy umieścić w kodzie poniższy meta tag:

<meta name="robots" content="noindex"/>

W ten sposób zablokowane zostaną roboty indeksujące, które mogą pochodzić z różnych wyszukiwarek. Jeżeli jednak chcemy ograniczyć indeksowanie wyłącznie dla wyszukiwarki Google, wystarczy zastosować metatag blokujący googlebota. W tym celu wystarczy umieścić poniższy metatag w kodzie:

<meta name="googlebot" content="noindex">

Co istotne, takim działaniem nie tylko zablokujemy możliwość zaindeksowana danej podstrony, ale także będziemy w stanie usunąć z indeksu już zablokowaną podstronę. Po prostu, gdy bot kolejnym razem trafi na naszą witrynę, odczyta informację o tym, że dana podstrona powinna być wyindeksowana.

Instrukcje w pliku robots.txt

Żeby strona internetowa funkcjonowała, na serwerze powinien być umieszczony plik robots.txt. Jednym z zadań jakie spełnia ten plik jest komunikacja z robotami indeksującymi. Innymi słowy, między innymi plik ten określa do których zasobów witryny roboty mogą mieć dostęp.

Jeśli jesteś w stanie wejść na swój serwer, odnaleźć tam plik robots.txt i możesz go edytować to blokowanie stron w wyszukiwarce nie powinno być trudnym zadaniem. Wystarczy w pliku dodać następującą instrukcję:

Disallow: /fragment-adresu-URL

Warto zwrócić uwagę na to, że Google rozróżnia adresy URL pisane z wielkiej oraz małej litery. Na przykład, aby zablokować podstronę mającą w adresie url „kontakt” (np. przykladowastrona.pl/kontakt) należy zastosować następujący zapis:

User-agent: *
Disallow: /kontakt

Jeśli chcesz zablokować podstronę blog (zakładając, że jej adres URL jest zgodny z schematem przykladowastrona.pl/blog) to w takim razie należy zastosować następujący zapis:

User-agent: *
Disallow: /blog

Żeby zablokować indeksację całej witryny wystarczy w pliku robots.txt wprowadzić następujący zapis:

User-agent: *
Disallow: /

Żeby zablokować indeksację całej witryny wyłącznie dla wybranej wyszukiwarki. To w takim razie należy zastosować następujący zapis dla wyszukiwarki Google:

User-agent: Googlebot
Disallow: /

Lub taki zapis dla wyszukiwarki Yandex:

User-agent: Yandex
Disallow: /

Jeśli po zablokowaniu dostępu do witryny chcesz ją ponownie udostępnić dla robota i umożliwić indeksację, należy usunąć ukośnik (wraz z adresem, który po nim następuje) lub zamiast “Disallow” zastosować dyrektywę “allow”.

Zablokowanie witryny z poziomu pliku robots.txt w większości przypadków okazuje się skutecznym sposobem na zabezpieczenie strony przed pojawieniem się w indeksie. Jednak nie jest to sposób dający stuprocentową gwarancję sukcesu. Robot wyszukiwarki Google prawdopodobnie uwzględni naszą wskazówkę, jednak nie ma takiej gwarancji.

Warto mieć na uwadze, że zablokowanie indeksowania za pomocą pliku robots.txt jest prostym zadaniem, ale jednak trzeba to wykonywać z bardzo dużą ostrożnością. Nieumiejętne posługiwanie się plikiem robots.txt może doprowadzić do uszkodzenia witryny. Dlatego zanim otworzysz i zaczniesz edycję pliku robots.txt zapoznaj się z kilkoma poradnikami i upewnij się, że dysponujesz odpowiednią wiedzą techniczną.

Dyrektywa x-robots-tag

Alternatywą jest zastosowanie dyrektywy x-robots-tag, którą dodaje się w pliku .htcaccess (w przypadku serwerów Apache) lub w pliku .conf (w przypadku serwerów Nginx). Warto odnotować, że między składnią Nginx oraz Apache są istotne różnice. Kilka przykładów przedstawiamy poniżej. Przykady pochodzą z oficjalnych materialów Google, które można znaleźć pod tym adresem: https://developers.google.com/search/docs/advanced/robots/robots_meta_tag?hl=pl#nginx_2

APACHE: zastosowanie noindex dla wszystkich plików .pdf w danej witrynie:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX: zastosowanie noindex dla wszystkich plików .pdf w danej witrynie:

location ~* \.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";

APACHE: zastosowanie noindex dla obrazów w formacie .png, .jpeg, .gif:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

NGINX: przykład zastosowania noindex dla obrazów w formacie .png, .jpeg, .gif:

location ~* \.(png|jpe?g|gif)$ {
  add_header X-Robots-Tag "noindex";
}

APACHE: przykład zastosowania noindex dla pojedynczych plików statycznych:

# the htaccess file must be placed in the directory of the matched file.
<Files "unicorn.pdf">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX: przykład zastosowania noindex dla pojedynczych plików statycznych:

location = /secrets/unicorn.pdf {

add_header X-Robots-Tag „noindex, nofollow”;

}

Search Console

Stronę z indeksu wyszukiwarki Google można także usunąć poprzez narzędzie Google Search Console. W tym celu po zalogowaniu do GSC trzeba w sekcji „Indeks” wybrać „Usunięcia”. Następnie w zakładce TYMCZASOWE USUNIĘCIA należy kliknąć wyrazisty czerwony przycisk „NOWA PROŚBA”. Następnie wystarczy wkleić adres URL, który nie ma być indeksowany i za pomocą przycisku potwierdzić prośbę o usunięcie z indeksu.

Blokując indeksację przez Search Console trzeba zwrócić uwagę na to, że jest to metoda jedynie na tymczasowe wykluczenie witryny z indeksu. W momencie pisania tego artykułu GSC podaje, że metoda ta pozwala wykluczyć wybrany URL z wyników wyszukiwania Google na około sześć miesięcy. Jest to więc bardzo prosty i wygody sposób na usunięcie podstrony z wyników wyszukiwania, jednak efekt jest tylko chwilowy. Jeśli chcesz, aby wybrane zasoby były na stałe wykluczone z wyników wyszukiwania, powinieneś zdecydować się na inne metody.

Wtyczka dla WordPress

Jeśli chcesz zablokować indeksowanie na stronie internetowej opartej o system CMS WordPress, możesz skorzystać z specjalnie przygotowanej do tego celu wtyczki. Jest to prosty sposób na wyłączenie całej witryny lub poszczególnych podstron z indeksacji bez konieczności samodzielnej ingerencji w kod za pomocą metody noindex. Wtyczki tego typu można znaleźć w wyszukiwarce wtyczek na WordPressie pod frazą „noindex”. Szczególnie popularną wtyczką, która między innymi oferuje funkcję “noindex” jest Yoast SEO.

W jakiej kolejności prawdopodobnie robot wyszukiwarki odczytuje różne metody na zablokowanie indeksacji?

Niezależnie od ustawień w pliku robots.txt oraz zastosowania tagu noindex, w pierwszej kolejności prawdopodobnie respektowana jest blokada przesłana do Google bezpośrednio z poziomu Search Console. Jest to jasny i wyraźny sygnał dla robota, że określona podstrona nie ma być zaindeksowana. Trzeba jednak pamiętać, że jest to działanie tymczasowe i po około 6 miesiącach podstrona może wrócić do indeksu.

Robots.txt no index, robots no index, robots.txt noindex lub robots noindex – takie frazy wpisują w wyszukiwarkę osoby poszukujące informacji o metodzie robots.txt oraz o tagu noindex. Niestety metody te są ze sobą mylone i czasami traktowane jak jedna i ta sama metoda. Cel w jakim są użyte rzeczywiście jest podobny, natomiast różnią się one między sobą sposobem działania. Dyrektywy wpisywane w pliku robots.txt dotyczą konfiguracji wykonywanych z poziomu plików na serwerze. Natomiast tag noindex dotyczy instrukcji dla robota, które są zawarte w kodzie HTML danej strony.

1) Najpierw robot sprawdza czy ma pozwolenie na dokonanie indeksacji. Informacje o tym pozwoleniu odczytuje z pliku robots.txt.

2) Dopiero gdy robots.txt umożliwi robotowi sprawdzenie witryny, możliwe jest odczytanie i przetworzenie tagu noindex.

Sprawdź: W jaki sposób Google indeksuje strony internetowe?

Jak sprawdzić, które strony są zaindeksowane a które nie zostały zaindeksowane?

Najprostszym sposobem na sprawdzenie indeksacji w wyszukiwarce Google jest wpisanie w pole wyszukiwania site: http://przykladowastrona.pl/ (gdzie zamiast przykładowastrona.pl oczywiście trzeba wpisać adres sprawdzanej witryny). Lista wyników jakie się pojawią to oczywiście lista zaindeksowanych podstron. Na poniższym zrzucie ekranu jest to przedstawione dla strony sxo.pl

Źródło grafiki: własne, https://www.google.com/

Warto wiedzieć, że listę zaindeksowanych lub niezaindeksowanych podstron można sprawdzić w Serach Console. W tym celu wystarczy wejść w sekcji Indeks w „Stan”. Następnie można kliknąć na „Prawidłowe” lub „Wykluczono”. Po kliknięciu w pozycję Prawidłowe” można przejść do listy zaindeksowanych adresów URL. Natomiast po kliknięciu w „Wykluczono” pojawia się lista przyczyn z jakich określone podstrony nie zostały zaindeksowane.

Źródło grafiki: własne, https://search.google.com/

Klikając w poszczególne przyczyny (np. w tekst “Strona wykluczona za pomocą tagu “noindex”) możemy sprawdzić, które adresy URL zostały wykluczone z indeksacji z powodu danej przyczyny. Przykładowe przyczyny wykluczenia jakie zazwyczaj można znaleźć w GSC są następujące:

  • Strona wykluczona za pomocą tagu „noindex”;
  • Strona zeskanowana, ale jeszcze nie zaindeksowana;
  • Strona zawiera przekierowanie;
  • Duplikat, wyszukiwarka Google wybrała inną stronę kanoniczną niż użytkownik;
  • Nie znaleziono (404).

Podsumowanie – o czym warto pamiętać?

Sposobów na zablokowanie indeksowania witryny jest co najmniej kilka: między innymi Search Console, robots.txt oraz tag noindex. Poza tym, w przypadku WordPressa oraz innych popularnych systemów CMS, alternatywą może być zastosowanie specjalnej wtyczki, która wprowadza tag noindex bez potrzeby samodzielnej ingerencji w kod strony.

Szczególnie osoby stawiające pierwsze kroki w zarządzaniu witryną internetową powinny pamiętać, aby przystępując do zmian w kodzie zachować ostrożność i zawsze zabezpieczać poprzednie wersje kodu. W ten sposób można uniknąć niepotrzebnych problemów.

Poza tym, warto odnotować, że nie jest rekomendowane stosowanie zapisu Disallow w pliku robots.txt, x-robots-tag oraz tagu noindex równocześnie. Żeby robot mógł odczytać tag noindex musi najpierw dotrzeć na stronę, na której ten tag jest umieszczony. W przypadku blokady na poziomie robots.txt może nie odczytać tagu noindex. Co prawda wciąż równoczesne zastosowanie blokady w pliku robots.txt oraz tagu noindex może skutecznie zablokować indeksację, jednak raczej nie jest to praktyka, którą rekomendują doświadczeni webmasterzy.

Zobacz również
Grupa iCEA
Grupa iCEA
Kategoria: Pozycjonowanie
Ostatnie wpisy

    Zastanawiasz się, dlaczego Twoja strona NIE SPRZEDAJE?
    Umów się na bezpłatną konsultację SEO i dowiedz się, jak możemy poprawić Twoje wyniki sprzedażowe.
    Wysyłanie
    Oceń tekst
    Średnia ocen 5/5 - Liczba ocen: 6
    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

    Chcesz zobaczyć o czym jeszcze pisaliśmy?

    Jak stworzyć wysokiej jakości zawartość strony internetowej?

    Jak stworzyć wysokiej jakości zawartość strony internetowej?

    Prowadzisz stronę internetową? Chcesz przyciągnąć nowych odbiorców? Wysokiej jakości treść jest tym, czego właśnie potrzebujesz. Wszystkiego dowiesz się w naszym artykule!
    Jak prawidłowo napisać tag tytułowy na stronie internetowej?

    Jak prawidłowo napisać tag tytułowy na stronie internetowej?

    Tytuł musi obejmować całą zawartość witryny, który zachęci użytkownika do jej odwiedzenia. Przedstawiamy najlepsze praktyki tworzenia tagów tytułowych.
    Od powstania Internetu do najnowszych algorytmów – poznaj historię SEO!

    Od powstania Internetu do najnowszych algorytmów – poznaj historię SEO!

    Z pewnością wiesz, czym jest SEO. Czy znasz jednak drogę, jaką musiała przejść optymalizacja treści, aby dotrzeć do obecnego miejsca?
    DARMOWY AUDYT SEO

      Wysyłanie

      Rozpocznij

      od bezpłatnej
      konsultacji SEO

      Zainwestuj w szczegółową konsultację SEO i dowiedz się więcej na temat wydajności Twojego sklepu internetowego. Przeprowadzimy dla Ciebie kompleksową analizę, dzięki której uzyskasz jasny obraz tego, co należy poprawić.

      • I Nasz ekspert SEO skontaktuje się z Tobą telefonicznie.
      • II Umówimy się na bezpłatną konsultację w dogodnym dla Ciebie terminie.
      • III SEO konsultant przeprowadzi audyt Twojej witryny i przedstawi Ci strategiczne rekomendacje, dzięki którym poprawisz wydajność swojego sklepu internetowego.
      • IV Otrzymasz szczegółowy raport SEO biorący pod uwagę szereg ważnych czynników rankingowych Google.

      Dziękujemy za kontakt.

      Pozycjonujemy biznesy od 2007 roku. Pozwól, że zrobimy to za Ciebie!

      Wrócimy z odpowiedzią w ciągu 72 godzin. Sprawdź swoją skrzynkę e-mailową, aby uzyskać więcej informacji.

        Chcesz poznać
        ofertę?
        Skontaktujemy się z Tobą w ciągu kilku minut! Jesteśmy dostępni w dni robocze w godzinach 9-15.
        Niestety aktualnie nasz konsultant nie jest dostępny. Skontaktujemy się z Tobą w godzinach otwarcia biura.
        Wyrażam zgodę na przetwarzanie moich danych w celu telefonicznego przedstawienia mi oferty firmy iCEA. Więcej w Polityce prywatności.
        Wysyłanie
        Masz pytania? Kliknij i skontaktuj się z nami telefonicznie lub poprzez czat!
        Rozpocznij chat
        Zamów rozmowę