Под дубликатами страниц понимается множество страниц с одинаковым (или максимально схожим) содержанием, найденных поисковой системой по разным адресам (URL). Дубликатами также считаются страницы других сайтов, идентичные по содержанию.
Дубликаты страниц — одна из острых проблем развития поисковых систем, поскольку они приводят к неоправданному росту поисковой базы, непроизводительным расходам вычислительных ресурсов, и в общем итоге — к снижению скорости и полноты поиска. Все виды дубликатов могут привести к ухудшению ранжирования поисковыми системами как дублированной страницы, так и сайта в целом.
Разновидности дубликатов страниц:
- Точные (полные) дубликаты. Это, как правило, одна и та же страница, которая может иметь разную адресацию из-за ошибок программирования сайта (различные наборы параметров в URI, незначимые для содержания параметры, различный порядок следования параметров). Нередко полные дубликаты порождаются слабой обработкой ошибок в программной части сайта (когда вместо не найденной в базе данных страницы выдается главная или другая страница «по умолчанию»). Практически неограниченное количество дубликатов может быть порождено непродуманным использованием идентификаторов сессии в URI.
- Нечёткие (частичные) дубликаты. Этот вид дубликатов представляет собой страницы, содержание которых различается очень незначительно. Такое очень часто встречается в интернет-магазинах. Страницы каталога товаров с единообразным описанием могут различаться только названием товара (или даже его частью — например, отличается только номер модели), либо одной из характеристик (например, другой цвет изделия той же модели).
- Отсутствие или незначительность контента. Это отдельная разновидность нечётких дубликатов — разные страницы, текстовое наполнение которых отсутствует или настолько мало, что навигационных ссылок и «служебной» информации на странице больше, чем собственно контента. Повторяющиеся на группе однотипных страниц блоки поясняющего текста или одинаковые анонсы новостей (статей) могут довести слабо наполненные страницы до состояния нечетких дубликатов.
Борьба с дубликатами страниц:
- Продуманные алгоритмы движка в части работы с формированием URI и навигацией. При использовании сессий необходимо предотвратить открытие сессий для поисковых ботов и неавторизованных посетителей (они могут оставлять ссылки с идентификатором сессии на других сайтах).
- Если не используется псевдостатика, или используется, но есть ссылки с GET-параметрами, необходимо обеспечить одинаковый порядок следования параметров в ссылках. Также очень желательно отсутствие пустых параметров и проверка на незначимые (излишние) параметры. Залог успеха в борьбе с дубликатами — хорошая обработка ошибок в URI. По любой «битой» ссылке движок должен отдавать в заголовке статус 404 Not Found.
- Появления в индексе нечётких дубликатов можно избежать, тщательно продумывая ссылочную структуру сайта — опять-таки на уровне движка. Необходимо исключить индексирование страниц поиска по сайту, различных вариантов сортировки (товаров, объявлений, статей — в общем, любых списков, которые вы собираетесь выдавать в отсортированном виде).