Skąd bierze się duplikacja treści?
Najwięcej powtórek generują kwestie techniczne tj.:
- różne wersje tego samego adresu (HTTP/HTTPS, z „www” i bez, ze “/” na końcu i bez),
- parametry w URL-ach (sortowanie, filtry, znaczniki śledzące),
- paginacja bez rozróżnienia,
- warianty tego samego produktu, gdy opis i zdjęcia są identyczne.
Drugim źródłem duplikacji treści jest redakcja, m.in.:
- kopiowanie opisów od producenta jeden do jednego,
- syndykacja materiału bez wskazania źródła,
- te same artykuły publikowane na kilku domenach.
Często obie przyczyny się zazębiają, np. filtr tworzy indeksowalną kopię listy, a treść tej listy jest nieodróżnialna od widoku podstawowego.
Jak wyszukiwarki traktują duplikaty treści?
Robot grupuje podobne strony w klaster i wybiera jedną z nich jako reprezentanta. Wersje uznane za duplikaty rzadziej pojawiają się w wynikach, a ich sygnały rankingowe nie zawsze w pełni przepływają tam, gdzie byśmy tego chcieli.
Mechanizmy kanonikalizacji działają dobrze, ale mają charakter wskazówki: jeśli nagłówek, linkowanie wewnętrzne i sygnały zewnętrzne mówią co innego niż rel=”canonical”, algorytm może wybrać inną wersję niż ta zadeklarowana. Stąd tyle uwagi przywiązuje się do spójności sygnałów.
Jak rozpoznać problem z duplicate content?
W serwisie widać go po tym, że kilka adresów ładuje identyczną stronę, a w logach lub analityce rośnie udział ruchu na URL-ach pobocznych (z parametrami, wersje do druku). W wynikach wyszukiwania znakiem ostrzegawczym jest pojawianie się niechcianych wariantów, np. strony z parametrem sortowania albo wersji z końcowym “/print”. Diagnoza zwykle łączy trzy kroki: przegląd mapy adresów i przekierowań, kontrolę atrybutów kanonicznych bezpośrednio w kodzie oraz sprawdzenie raportów indeksowania (czy robot wybrał inną stronę jako kanoniczną niż my).
Jeśli odkryjesz duplikację treści, to najpierw uporządkuj warianty techniczne:
- wybór jednej wersji hosta i protokołu,
- stałe przekierowania 301 między odpowiednikami,
- konsekwentny format ukośników,
- jedna wersja wielkości liter w ścieżkach.
Potem kanonikalizacja tam, gdzie wersje muszą istnieć równolegle: rel=”canonical” wskazuje adres docelowy, a linkowanie wewnętrzne prowadzi wyłącznie do niego. Paginacja powinna mieć kanoniczne adresy do poszczególnych stron (1, 2, 3…), zamiast kanonikalizować wszystko do strony pierwszej. Widoki “sortuj według” i wersje do druku nie potrzebują własnej obecności w indeksie – mogą zostać wyłączone (noindex) przy jednoczesnym pozostawieniu robotom przejścia po linkach (follow). W nawigacji fasetowej warto ograniczać indeksowanie kombinacji, które nie tworzą unikalnej wartości, np. łączenie wielu filtrów tylko zmienia kolejność listy. Przy syndykacji na zewnętrznych domenach – uzgodnione linkowanie do oryginału lub publikacja skrótów. Ważne są też spójne tytuły, nagłówki i dane strukturalne, żeby wszystkie sygnały mówiły, którą wersję uważamy za główną.
Kiedy duplikacja treści nie jest problemem?
Elementy szablonu (menu, stopka, banery prawne) z definicji się powtarzają i nie stanowią duplikacji treści właściwej. Tłumaczenia na różne języki to także inny przypadek, ponieważ tutaj porządek zapewnia hreflang, a nie kanonikalizacja.
Zdarza się też, że dwie strony są podobne, ale pełnią różne role (np. oddzielne opisy usług dla odmiennych grup odbiorców z innymi dowodami i wezwaniami do działania) – jeśli więc treść się różni i odpowiada na inne intencje, nie ma potrzeby łączenia ich na siłę.
Skutki duplicate content dla SEO i dla użytkownika
Najbardziej odczuwalny efekt to rozpraszanie sygnałów i zamiana strony w wynikach – pojawia się wariant, który nie sprzedaje, gorzej się ładuje albo wprowadza w błąd. Do tego dochodzi marnowanie budżetu indeksowania: robot częściej odwiedza strony, których w ogóle nie chcemy w wynikach, a rzadziej te, które aktualizujemy.
Po uporządkowaniu struktury i kanonikalizacji zwykle poprawia się widoczność właściwych adresów, rośnie przewidywalność fragmentów wyświetlanych w wynikach, a użytkownik trafia dokładnie tam, gdzie powinien.