Что такое дубли страниц. Дубликаты страниц – невидимая проблема в продвижении Дублирование страниц

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства.

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

  • с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
  • со слешем в конце, например, site.ru/seo/ и site.ru/seo
  • с.php или.html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:

  • Полные дубли - когда одна и та же страница размещена по 2-м и более адресам.
  • Частичные дубли - когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

  • Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/ . Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».

Сервисы онлайн

Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (http://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Удаление дублей страниц сайта

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:

  1. Их физическому удалению - хорошее решение для статических дублей.
  2. Запрещению индексации дублей в - подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
  3. в файле-конфигураторе «.htaccess» - хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
  4. Установке тега « » - лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.
  5. Установке тега «meta name=»robots» content=»noindex, nofollow»» - решение для печатных версий, табов с отзывами на товарах.

Чек-лист по дублям страниц

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:

  1. Полные дубли - это когда одна и та же страница размещена по 2-м и более адресам. Частичные дубли - это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
  2. Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
  3. Полные дубликаты не трудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
  4. Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
  5. Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
  6. Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name=»robots» content=»noindex, nofollow»».

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Повышение поисковой привлекательности ресурса включает в себя борьбу с дублями страниц, которые негативно сказываются на его поисковом рейтинге, понижают ранг в выдаче, снижая эффективность интернет-проекта – основного инструмента продвижения онлайнового бизнеса.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Почему это происходит?

Представим ситуацию- владелец честно подготовил уникальный качественный тематический контент для своей целевой аудитории: полезные достоверные актуальные описания, грамотные обучающие материалы, аудио и видеозаписи, отличная тематическая графика, уникальные авторитетные авторские доклады в медиаформате, видеоинструкции, вебинары, профессиональный видеоролик с рекламой бренда, записанный в престижной студии – снабдил ресурс всем необходимым для доверия, устойчивой репутации и положительных покупательских решений. Такой подход заслуживает надеяться на трафик и дивиденды.

В чем же упущение? Объяснение есть.

Поисковики – это роботы, которые ищут качественный, оригинальный, полезный контент и повышают рейтинг таких веб-ресурсов и страниц. Уникальность – один из основополагающих критериев, предъявляемых к качеству контента.

Как ведет себя поисковик, если кто-то непорядочный скопипастил ваш безупречный контент и опубликовал его на своем веб-сайте – он понижает рейтинг такой страницы, банит ресурс за плагиат, понимая, что авторство нарушено. К сожалению, если вы на собственном ресурсе скопируете и второй раз разместите тот же текст, поисковик поведет себя точно так же: вы банально сами конкурируете с собой.

Именно этот принцип внимания к пользователям интернета и стремления отобрать на первые места поисковой выдачи только самое уникальное, свежее, полезное и лежит в основе негативного отношения поисковых систем к дубликатам.

Принцип понятен, но как же удивляются хозяева сайтов, когда обнаруживается источник низкого рейтинга – дубли внутри сайта! Первой реакцией бывает: у нас нет дублей, каждая страница уникальна!

Что считается дублями

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Например:

  • с доменом, начинающимся на www и без www,
  • со слешем в конце,
  • с.php или.html в конце.

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Дубли бывают разные

Если страницы-дубли относятся к одному сайту – это внутренние дубли.

Различают полные и неполные внутренние дубли (четкие и нечеткие).

  • http://site.com/about
  • http://www.site.com/about
  • http://www.site.com/about.html
  • http://www.site.com/about/

будет полностью идентичный контент. Страница будет одна, отличаться будет только URL. Это полные дубли.

Неполные дубли – это страницы, частично повторяющие контент других страниц, например, основной блок информации на стартовой в точности повторяет контент страницы «О нас», причем ссылки у таких страниц будут разными, в меню будут активны разные разделы, в боковых колонках могут присутствовать разные блоки. URL у таких страниц разный.

Причина появления дублей

Если неполные дубли – это результат сознательного выбора структуры страниц сайта, то о полных владелец обычно даже не подозревает.

Причины полных дублей:

  • Особенности cms, позволяющие формировать синонимы в окончании названия страниц. Прописывая в конце с / или без, с.html, .htm, php – всегда будем открывать одну и ту же страницу.
  • Дополнительный домен с www для одного сайта. Страницы отзываются на оба доменные имена.
  • Постраничный вывод информации (), когда первая страница списка открывается и по ссылке stranitsa, и по ссылке stranitsa/page_1.
  • Несколько разных названий в структуре сайта для идентичных страниц, если к пункту меню можно привязать любую страницу сайта несколько раз.
  • Редизайн, который привел к изменению URL страниц.

Причины неполных дублей

Как правило, осознанное желание владельца вывести одну информацию на разных страницах, чтобы привлечь к ней больше внимания и повысить юзабилити. Одни и те же тексты выводятся в различных блоках и дублируются во многих местах. В разумных пределах это оправдано.

Чем грозят дубли продвижению сайта

  • Дубли нежелательны с точки зрения СЕО, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Найти и уничтожить

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Как найти дубли страниц на сайте

1. В поисковике можно найти все страницы сайта, если в поле поиска ввести site: доменное имя сайта, через пробел фрагмент текста. В выдаче найдете все страницы с этой фразой только по своему сайту.

2. Для анализа сайтов, в том числе и для поиска дублей страниц, существуют специальные программы. Например, простая и удобная для такой цели Xenu. Принцип такой: указывается доменное имя, запускается поиск всех страниц, составляется отчет, в котором выводятся , ошибки и дубли.
3. Поисковые системы с целью помочь веб-мастерам создать наиболее эффективные и востребованные сайты, которые и поисковыми роботами будут восприниматься такими же, предлагают использовать свои сервисы аналитики эффективности сайтов – «Инструменты для веб-мастеров», в которых есть отдельные разделы с отчетами по дублям страниц, там тоже можно получить список проблемных страниц.

Имея список дублей, можно начинать их искоренять.

Как избавиться от дублей страниц

Удалить дубли страниц на сайте можно двумя способа: исключить дубли и скрыть их от поисковых роботов.

Если исходить из принципа одна страница – одна ссылка, то все вариации одной и той же страницы должны быть исключены: один вариант открывает нужную страницу, все остальные – страницу не находят. Если страница не найдена, пользователю выдается ошибка 404. Для эстетики ее часто красиво оформляют или выкладывают на ней полезный материал сайта.

Но с точки зрения пользователя это неудобно – находить страницу только по одному из нескольких возможных вариантов. В таком случае настраивают редирект (автоматическое перенаправление) всех вариантов написания страницы на одну единственную существующую страницу. Это называется редирект 301, он задается на сервере в специальном файле htaccess, а поисковики относятся к нему вполне лояльно.

Запретить поисковикам индексировать страницы-дубли можно в специальном файле , созданном для поисковиков в качестве инструкции, что индексировать, что игнорировать. С помощью данного файла мы сможем закрыть от индексации дубли страниц.

Плюс ситуации в том, что ваш ключевой актив – контент – не сворован злоумышленниками, не нужно отстаивать права на интеллектуальную собственность, судиться, строчить жалобы и письма в Google, Яндекс, Digital Millennium Copyright с доказательствами и скриншотами из админки и постов в блогах: достаточно произвести ряд внутренних мер по устранению досадного недоразумения, и вскоре после переиндексации сможете получить отдачу от вложенного бюджета, маркетинговых усилий и повышать прибыль от бизнеса.

План статьи

Дубли страниц — страницы с одинаковым контентом, доступным по разным URL. Рассмотрим наиболее важные вопросы: как найти дубли страниц, чем вредны дубликаты страниц, частые причины дублирования, удаление дубликатов, примеры.

Чем вредны дубли страниц

Проблема дублей на сайте вызывает у поисковых систем ряд вопросов — какая страница является каноничной, какую страницу показывать в поисковой выдаче и является ли сайт, показывающий посетителям дубликаты страниц качественной площадкой.

Google борется с дубликатами страниц с помощью фильтра Panda, начиная с 2011 года. На данный момент фильтр является частью неотъемлемой частью формулы ранжирования. При наличии Панды, сайт теряет большую часть трафика из поисковой системы.

Яндекс в рекомендациях для вебмастеров рекомендует избегать дублей и предупреждает, что поисковая система выберет лишь одну страницу из дублирующихся в качестве канонической.

Частые причины дублирования страниц

Наиболее частой причиной дублирования страниц является особенность строения CMS, на которых разработан сайт. К примеру, в Joomla есть множество конструкций URL, по которым будет доступен один и тот же контент. Даже в последних версиях WordPress есть вариант доступности контента записей по конструкции site.ru/postID и site.ru/ЧПУ. А в магазинной CMS Opencart: при ЧПУ с включением названии категории — привязанность товара к разным категориям. Некоторые неопытные SEO-оптимизаторы берут за основу один контент и размножают его, меняя всего пару слов в тексте. По такому же принципу работают и дорвеи. Такое дублирование называется частичным и за такое дублирование на сайт также могут быть наложены санкции (Google Panda и др).

Вторая популярная версия дублирования — доступность страниц с www и без (www.site.ru и site.ru). При таком дублировании все версии сайта должны быть добавлены в Google Webmaster Tools, после чего уже избавляться от них.

Третья по популярности вариация дубликатов — наличие контента со слэшем в конце URL и без него.

Поиск и удаление дублей страниц на сайте входит в услугу . Экономьте, заказывая у индивидуального специалиста.

Сервисы и программы поиска

Наиболее быстрый и обычно, точный, способ — найти дубликаты страниц по Title и мета-тегам. Ниже — сервисы и программы, которыми пользуюсь сам.

Сервисы для поиска дублей по Title и мета-тегам:

  1. Инструмент «Аудит сайта» в сервисе Serpstat (комплексные сервисы для SEO, PPC ~$100/месяц).
  2. Аудит в сервисе Seotome (за 500 рублей — аудит 1 сайта).
  3. Другие, если знаете, пишите в комментариях.

Сервисы для поиска частичных дубликатов по контенту:

  1. Аудит в сервисе Seotome (за 500 рублей аудит 1 сайта). Показывает в процентном соотношении дублирование контента на страницах.

Программы для поиска дублей по Title и мета-тегам:

  1. Website Auditor от SEO Power Suite (Mac, Windows, Linux, ~$50/единоразово).
  2. Netpeak Spider (Windows only, $14/месяц).
  3. Comparser (Windows only, 2000 рублей).
  4. Xenu (Windows only, free).

Программы для поиска дублей по контенту:

Если знаете подобный софт — напишите в комментарии или по — добавлю в список.

Основные способы избавления от дублей страниц на сайте

  1. Использовать rel=»canonical», который указывает каноническую версию страницы. Лучший способ избавиться от дублей. При использовании canonical практика показала, что веса дублирующих страниц склеиваются, что хорошо для продвижения.
  2. Закрыть дублирующиеся страницы от индексации. Можно закрывать конструкциями в robots.txt (как пользоваться robots.txt) или наличием на странице мета-тега .
  3. Добавить 301 редирект с дублирующей страницы на основную. Подходит при дублировании www/без, слэш на конце/без. Настраивается в файле.htaccess или специальными плагинами.

Как найти дубли страниц: Примеры

Поиск дублей с помощью Serpstat

Поиск дублей с помощью Website Auditor

Поиск дублей с помощью Comparser

Наличие дублей страниц в индексе — это такая страшная сказка, которой seo-конторы пугают обычно владельцев бизнеса. Мол, смотрите, сколько у вашего сайта дублей в Яндексе! Честно говоря, не могу предоставить примеры, когда из-за дублей сильно падал трафик. Но это лишь потому, что эту проблему я сразу решаю на начальном этапе продвижения. Как говорится, лучше перебдеть, поэтому приступим.

Что такое дубли страниц?

Дубли страниц – это копии каких-либо страниц. Если у вас есть страница site.ru/bratok.html с текстом про братков, и точно такая же страница site.ru/norma-pacany.html с таким же текстом про братков, то вторая страница будет дублем.

Могут ли дубли плохо сказаться на продвижении сайта

Могут, если у вашего сайта проблемы с краулинговым бюджетом (если он маленький).

Краулинговый бюджет — это, если выражаться просто, то, сколько максимум страниц вашего сайта может попасть в поиск. У каждого сайта свой КБ. У кого-то это 100 страниц, у кого-то — 25000.

Если в индексе будет то одна страница, то другая, в этом случае они не будут нормально получать возраст, поведенческие и другие «подклеивающиеся» к страницам факторы ранжирования. Кроме того, пользователи могут в таком случае ставить ссылки на разные страницы, и вы упустите естественное ссылочное. Наконец, дубли страниц съедают часть вашего краулингового бюджета. А это грозит тем, что они будут занимать в индексе место других, нужных страниц, и в итоге нужные вам страницы не будут находиться в поиске.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress такой херни обычно нету, а вот всякие Джумлы генерируют огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Способы поиска дублирующего контента

Можно искать дубли программами или онлайн-сервисами. Делается это по такому алгоритму — сначала находите все страницы сайта, а потом смотрите, где совпадают Title.

XENU

XENU – это очень олдовая программа, которая издавна используется сеошниками для сканирования сайта. Лично мне её старый интерфейс не нравится, хотя задачи свои она в принципе решает. На этом видео парень ищет дубли именно при помощи XENU:

Screaming Frog

Я лично пользуюсь либо Screaming Frog SEO Spider, либо Comparser. «Лягушка» — мощный инструмент, в котором огромное количество функций для анализа сайта.

Comparser

Comparser – это все-таки мой выбор. Он позволяет проводить сканирование не только сайта, но и выдачи. То есть ни один сканер вам не покажет дубли, которые есть в выдаче, но которых уже нет на сайте. Сделать это может только Компарсер.

Поисковая выдача

Можно также и ввести запрос вида site:vashsite.ru в выдачу поисковика и смотреть дубли по нему. Но это довольно геморройно и не дает полной информации. Не советую искать дубли таким способом.

Онлайн-сервисы

Чтобы проверить сайт на дубли, можно использовать и онлайн-сервисы.

Google Webmaster

Обычно в панели вебмастера Google, если зайти в «Вид в поиске — Оптимизация HTML», есть информация о страницах с повторяющимся метаописанием. Так можно найти часть дублей. Вот видеоинструкция:

Sitereport

Аудит сайта от сервиса Sitereport также поможет найти дубли, помимо всего прочего. Хотя дублированные страницы можно найти и более простыми/менее затратными способами.

Решение проблемы

Для нового и старого сайта решения проблемы с дублями — разные. На новом нам нужно скорее предупредить проблему, провести профилактику (и это, я считаю, самое лучшее). А на старом уже нужно лечение.

На новом сайте делаем вот что:

  1. Сначала нужно правильно настроить ЧПУ для всего ресурса, понимая, что любые ссылки с GET-параметрами нежелательны;
  2. Настроить редирект сайта с www на без www или наоборот (тут уж на ваш вкус) и выбрать главное зеркало в инструментах вебмастера Яндекс и Google;
  3. Настраиваем другие редиректы — со страниц без слеша на страницы со слешем или наоборот;
  4. Завершающий этап – это обновление карты сайта.

Отдельное направление – работа с уже имеющимся, старым сайтом:

  1. Сканируем сайт и все его страницы в поисковых системах;
  2. Выявляем дубли;
  3. Устраняем причину возникновения дублей;
  4. Проставляем 301 редирект и rel=»canonical» с дублей на основные документы;
  5. В обязательном порядке 301 редиректы ставятся на страницы со слешем или без него. Обязательная задача – все url должны выглядеть одинаково;
  6. Правим роботс — закрываем дубли, указываем директиву Host для Yandex с заданием основного зеркала;
  7. Ждем учета изменений в поисковиках.

Доброго времени суток!

Дубликаты страниц , или дубли — одна из тех проблем, о которой не подозревают многие вебмастера. Из-за такой ошибки, некоторые полезные WordPress-блоги теряют позиции по ряду запросов, и порою их владельцы даже не догадываются об этом. Каждый видит в статистике, что посещаемость веб-страницы упала, но разыскать и исправить ошибку могут не все. В этой статье пойдет речь о том, как найти дубли страниц сайта.

Что такое дубликаты страниц?

Дубли – это две и больше страниц с одинаковым контентом, но разными адресами. Существует понятие полных и частичных дублей. Если полные — это стопроцентный дублированный контент исходной (канонической ) страницы, то частичным дублем может стать страница, повторяющая ее отдельные элементы. Причины появления дублей могут быть разными. Это могут быть ошибки вебмастера при составлении или изменении шаблона сайта. Но чаще всего дубли возникают автоматически из-за специфики работы движков, таких как WordPress и Joomla. О том, почему это происходит, и как с этим справляться я расскажу ниже. Очень важно понимать, что вебсайты с такими повторениями могут попасть под и понижаться в выдаче, поэтому дублей стоит избегать.

Как проверить сайт на дубли страниц?

Практика показывает, что отечественный поисковик Яндекс относится к дублям не так строго, как зарубежный Гугл. Однако и он не оставляет такие ошибки вебмастеров без внимания, поэтому для начала нужно разобраться с тем, как найти дубликаты страниц.

Во-первых, нам нужно определить, какое количество страниц нашего сайта находится в индексе поисковых систем. Для этого воспользуемся функцией site:my-site.ru, где вместо my-site.ru вам нужно подставить свой url. Покажу, как это работает на примере своего блога. Начнем с Яндекса. Вводим в строку поиска site:сайт

Как видим, Яндекс нашел 196 проиндексированных страниц. Теперь проделаем то же самое с Google.

Мы получили 1400 страниц в общем индексе Гугл. Кроме основных страниц, участвующих в ранжировании, сюда попадают так называемые «сопли». Это дубли, либо малозначимые страницы. Чтобы проверить основной индекс в Google, нужно ввести другой оператор: site:сайт/&

Итого в основном индексе 165 страниц. Как видим, у моего блога есть проблема с количеством дублей. Чтобы их увидеть, нужно перейти на последнюю страницу общей выдачи и нажать «показать скрытые результаты ».

Снова перейдя в конец выдачи, вы увидите примерно такое:

Это и есть те самые дубли, в данном случае replycom . Такой тип дублей в WordPress создается при появлении комментариев на странице. Есть множество разных видов дублей, их названия и способы борьбы с ними, будут описаны в следующей статье.

Наверняка у вас возник вопрос, почему в Яндексе мы не увидели такого количества дублей, как в Google. Все дело в том, что в файле robots.txt (кто не знает что это, читайте « ») на блоге стоит запрет на индексацию подобных дублей с помощью директивы Disallow (подробнее об этом в следующем посте). Для Яндекса этого достаточно, но Гугл работает по своим алгоритмам и все равно учитывает эти страницы. Но их контент он не показывает, говорит, что «Описание веб-страницы недоступно из-за ограничений в файле robots.txt».

Проверка на дубли страниц по отрывку текста, по категориям дублей

Кроме вышеописанного способа, вы можете проверять отдельные страницы сайта на наличие дублей. Для этого в окне поиска Яндекс и Google, можно указать отрывок текста страницы, после которого употребить все тот же site:my-site.ru. Например, такой текст с одной из моих страничек: «Eye Dropper - это дополнение позволяет быстро узнать цвет элемента, чем-то напоминает пипетку в Photoshop». Его вставляем в поиск Гугл, а после через пробел site:my-site

Google не нашел дублей это страницы. Для Яндекса проделываем то же самое, только текст страницы берем в кавычки «».

Кроме фрагментов текста, вы можете вставлять ключевые фразы, по которым, к примеру, у вас снизились позиции.

Есть другой вариант такой же проверки через расширенный поиск. Для Яндекса — yandex.ru/advanced.html .

Вводим тот же текст, url сайта и жмем «Найти ». Получим такой же результат, как и с оператором site:my-site .

Либо такой поиск можно осуществить, нажав кнопку настроек в правой части окна Яндекс.

Для Гугла есть такая же функция расширенного поиска.

Теперь посмотрим, как можно выявить группу дублей одной категории. Возьмем, к примеру, группу tag.

И увидим на странице выдачи по данному запросу следующее:

А если попросить Гугл вывести скрытые результаты, дублей группы tag станет больше.

Как вы успели заметить, дубликатов страниц создается очень много и наша задача – предотвратить их попадание в индекс поисковиков.

Поиск дублей страниц сайта: дополнительные способы

Кроме ручных способов, есть также возможность автоматически проверить сайт на дубли страниц.

Например, это программа Xenu , предназначенная для технического аудита сайта. Кроме дубликатов страниц, она выявляет . Это не единственная программа для решения таких задач, но наиболее распространенная.

Также в поиске дублей страниц помогает Google Webmaster, здесь можно выявить страницы с повторяющимися мета-тегами:

Тут вы посмотрите список урлов с одинаковыми тайтлами или описанием. Часть из них может оказаться дублями.

На сегодня все. Теперь вы знаете, как найти дубликаты страниц. В мы подробно разберем, как предотвратить их появление и удалить имеющиеся дубли.



error: Контент защищен !!