Дубликат страниц

Блог

Дубликат страниц

Под дубликатами страниц понимается множество страниц с одинаковым (или максимально схожим) содержанием, найденных поисковой системой по разным адресам (URL). Дубликатами также считаются страницы других сайтов, идентичные по содержанию.

Дубликаты страниц — одна из острых проблем развития поисковых систем, поскольку они приводят к неоправданному росту поисковой базы, непроизводительным расходам вычислительных ресурсов, и в общем итоге — к снижению скорости и полноты поиска. Все виды дубликатов могут привести к ухудшению ранжирования поисковыми системами как дублированной страницы, так и сайта в целом.


Разновидности дубликатов страниц:
  • Точные (полные) дубликаты. Это, как правило, одна и та же страница, которая может иметь разную адресацию из-за ошибок программирования сайта (различные наборы параметров в URI, незначимые для содержания параметры, различный порядок следования параметров). Нередко полные дубликаты порождаются слабой обработкой ошибок в программной части сайта (когда вместо не найденной в базе данных страницы выдается главная или другая страница «по умолчанию»). Практически неограниченное количество дубликатов может быть порождено непродуманным использованием идентификаторов сессии в URI.
  • Нечёткие (частичные) дубликаты. Этот вид дубликатов представляет собой страницы, содержание которых различается очень незначительно. Такое очень часто встречается в интернет-магазинах. Страницы каталога товаров с единообразным описанием могут различаться только названием товара (или даже его частью — например, отличается только номер модели), либо одной из характеристик (например, другой цвет изделия той же модели).
  • Отсутствие или незначительность контента. Это отдельная разновидность нечётких дубликатов — разные страницы, текстовое наполнение которых отсутствует или настолько мало, что навигационных ссылок и «служебной» информации на странице больше, чем собственно контента. Повторяющиеся на группе однотипных страниц блоки поясняющего текста или одинаковые анонсы новостей (статей) могут довести слабо наполненные страницы до состояния нечетких дубликатов.
Генератор UTM-меток


Борьба с дубликатами страниц:
  • Продуманные алгоритмы движка в части работы с формированием URI и навигацией. При использовании сессий необходимо предотвратить открытие сессий для поисковых ботов и неавторизованных посетителей (они могут оставлять ссылки с идентификатором сессии на других сайтах).
  • Если не используется псевдостатика, или используется, но есть ссылки с GET-параметрами, необходимо обеспечить одинаковый порядок следования параметров в ссылках. Также очень желательно отсутствие пустых параметров и проверка на незначимые (излишние) параметры. Залог успеха в борьбе с дубликатами — хорошая обработка ошибок в URI. По любой «битой» ссылке движок должен отдавать в заголовке статус 404 Not Found.
  • Появления в индексе нечётких дубликатов можно избежать, тщательно продумывая ссылочную структуру сайта — опять-таки на уровне движка. Необходимо исключить индексирование страниц поиска по сайту, различных вариантов сортировки (товаров, объявлений, статей — в общем, любых списков, которые вы собираетесь выдавать в отсортированном виде).
UTM-метки