Решаем проблемы с дублирующимся контентом



В поисковую оптимизацию сайта входит целый перечень действий. В частности, она подразумевает устранение ошибок, связанных с контентом. Например, выявление дублирующихся материалов и ликвидация этой проблемы. 

1. Типы, источники и причины дублированного контента

Как правило, первая опубликованная версия контента считается канонической и ее создатели будут получать больше переходов на сайт, чем веб-ресурс, который опубликовал его повторно. Наиболее понятный пример дублирования материалов – описания одних и тех же товаров в разных интернет-магазинах.

Но сперва разберемся в классификации. Существует два типа дублированного контента: 

  • внутренний: идентичный материал дублируется на двух и более URL одного сайта. Это может произойти по техническим причинам, возможно, из-за неполадок или по человеческой невнимательности;  
  • внешний: различные веб-ресурсы публикуют одинаковые фрагменты материала. Этот контент уже скопирован вручную и размещен на другом ресурсе. 
Рис. 1 - Пример частичного дублирования описания товара

Рис. 1 – Пример частичного дублирования описания товара

У внешнего дублирования контента есть три источника:

  1. Ваши материалы повторно опубликованы где-то с вашего согласия.
  2. Ваши материалы повторно опубликованы без вашего на то согласия.
  3. Чей-то контент, опубликованный вами повторно на своем ресурсе без получения согласия автора.

Кроме того, дублирование контента бывает полным и частичным – материал могут публиковать как весь, так и отрывок из него. 

Причинами полных дублей часто становятся постраничный вывод информации, смена движка, редизайн, неверные настройки, из-за которых в окончаниях названия появляются синонимы. Причины частичных – ошибки в фильтрах, плохая структура, специальное дублирование в попытках ранжироваться лучше.

Подчеркнем, почему нужно бороться с дублированием контента:

  1. Наличие востребованных и уникальных материалов – основная ценность сайта и для пользователей, и для поисковиков. Если предложить что-либо полезное можете только вы, то вся целевая аудитория придет именно к вам, а гугл выведет сайт в топ. Поэтому потеря преимущества, которое дает сайту уникальность контента – шаг назад. Страницы, на которых есть дублированные фрагменты, просто будут удалены из поисковой выдачи. Это мешает увеличивать трафик на веб-ресурсе, а то и вовсе грозит попаданием под фильтры. Принцип поисковых систем наглядно можно отобразить так: Одна веб-страница = Один URL = Уникальный контент, сосредоточенный там.
  2. Кроме того, в случае появления дублей поисковый алгоритм может сменить в выдаче страницу-дубликат, посчитав ее более релевантной запросу. А значит, внутреннее распределение ссылочного веса будет неправильным.
  3. Если вести речь о внешнем ссылочном весе, то и здесь он может достаться дублю, а не исходному материалу.
  4. В итоге главная опасность – ухудшение индексации сайта. Когда робот Google видит дубль, он старается исключить его из индекса. Чем больше таких “близнецов”, тем больше страниц нужно обойти поисковому роботу. Но поскольку за один раз можно проиндексировать лишь определенное количество страниц, то есть риск проделать это с дублями – и не захватить при этом те, которые действительно требуют внимания. 

Официально не существует штрафа за дублирование контента, но в документации для вебмастеров предусмотрена страница, запрещающая использовать этот метод для поискового продвижения. Поэтому у собственника материала остается право отправить жалобу в Google с требованием удалить контент, нарушающий его авторские права, из индекса. Буквально убрать с сайта материал таким способом не получится, но это, по крайней мере, ограничит количество переходов по адресу контента из поисковика Google. Важно предоставить URL-адреса материалов, предположительно нарушающих авторские права, и в течение 10 дней жалоба будет рассмотрена.

Рис. 2 – Страница удаления контента из поисковика

Рис. 2 – Страница удаления контента из поисковика

Дублированным контентом не считается:

  • содержимое сайта, переведенное на другой язык;
  • мобильная версия десктопной страницы.

2. Как искать дублированный контент на сайте

Если вы ищете дубли на веб-ресурсе, то можно воспользоваться двумя эффективными способами:

  1. Проверить вручную с помощью поиска. 

Если вы ищете заимствованное содержимое вашего сайта, то скопируйте фрагмент материала на этой странице, возьмите в кавычки («) и вставьте его в поиск. Нужный абзац должен найтись.

Рис. 3 - Пример ручного поиска дублированного контента

Рис. 3 – Пример ручного поиска дублированного контента

Еще ручной мониторинг выдачи легко выполнить при помощи опции site. Выдача покажет все страницы с искомой фразой. Но нужно помнить, что вводимый текст через site: не должен быть длиннее одного предложения, и не нужно заканчивать его точкой.

Рис. 4 - Ручной мониторинг выдачи

Рис. 4 – Ручной мониторинг выдачи

  1. Просканировать сайт на наличие текста, который дословно повторяется, с помощью специальных программ.

Одним из самых простых способов проверки сайта на наличие дублированного контента можно назвать использование Google Search Console. Это самый известный ресурс. И пусть он позволяет проверить только отрывки текста длиной до 32 слов, тем не менее, эффективен. Инструмент от Google поддерживает 46 языков.     

Чтобы проверить дубли страниц на сайте, в консоли Search Console перейдите на вкладку “Покрытие” слева на панели, и затем посмотрите страницы, индексирование которых не выполнялось намеренно (параметр “Исключено”).   

Рис. 5 - Интерфейс Серч консоль

Рис. 5 –  Интерфейс Google Search Console

Для поиска внешнего дублирования есть множество профессиональных инструментов, кроме стандартных программ для копирайтеров Text.ru, Advego и Content-watch:

  • Serpstat.com – опция “Аудит сайта” позволяет найти технические ошибки на сайте и проанализировать их. Для того чтобы найти дубли страниц, нужно перейти в сводку по ошибкам, затем открыть раздел «Метатеги», найти пункты «Дублирующийся Title» и «Дублирующийся Description». Серый цвет указывает на неполадки, которые нуждаются в исправлении.
Рис. 6 - Интерфейс Serpstat

Рис. 6 – Интерфейс Serpstat

  • Plagiarisma – бесплатная регистрация, загрузка файлов на 190 языках. Кроме контента, который выложен в интернете в открытых источниках, ресурс также проверяет информацию в Google Books и Google Scholar. Таким образом, можно посмотреть уникальность патентов, научных статей, публикаций в журналах и правовой документации.
Рис. 7 - Интерфейс Плагиаризма

Рис. 7 – Интерфейс Plagiarisma

  • Copyscape – при переходе на ресурс достаточно ввести URL-адрес своего сайта. Далее он ищет в поиске тексты похожего содержания и может показать, что именно скопировано. У ресурса есть платная версия, которая позволяет осуществить поиск копий и предусматривает систему предупреждения о плагиате.
Рис. 8 - Интерфейс Копискейп

Рис. 8 – Интерфейс Copyscape

  • Searchenginereports – позволяет вам бесплатно проверять рейтинг Google по любому ключевому слову и URL. Есть как десктопная версия, так и мобильная. Нужно указать домен и поисковый движок. Можно проверить ключевые слова, программа принимает до 5 ключей в интерфейсе одновременно. Есть здесь и интересная опция “Домен конкурента”.
Рис. 9 – Интерфейс Searchenginereports

Рис. 9 – Интерфейс Searchenginereports

  • Plagium.com – проверяет текст длиной до 1000 символов. Поиск может быть быстрым или глубоким. “Быстрый поиск” предназначен для незарегистрированных пользователей, которые проверяют контент не очень часто и, соответственно, не нуждаются в платной версии.
Рис. 10 – Интерфейс Plagium

Рис. 10 – Интерфейс Plagium

  • Duplichecker – два варианта загрузки проверки: либо загрузить в формате txt, либо просто скопировать и вставить в проверочное поле. Язык ресурса – английский. Преимущество его работы – скорость, он разбивает текст на предложения и за счет этого быстрее обрабатывает информацию. Сравнивает содержимое с результатами выдачи из Google и других поисковиков.
Рис. 11 – Интерфейс Duplichecker

Рис. 11 – Интерфейс Duplichecker

  • Quetext.com – использует технологию DeepSearch, позиционирует себя как веб-сервис проверки плагиата для писателей. Находит точные совпадения фрагментов текстов.
Рис. 12 - Интерфейс Quetext

Рис. 12 – Интерфейс Quetext

Для того чтобы не повторяться в использовании заголовков, можно использовать сервис их генерации Portent. Метаописания для каждой страницы должны быть уникальными, поэтому разнообразие заголовков обязательно. 

Рис. 13 - Интерфейс Portent

Рис. 13 – Интерфейс Portent

Кроме того, есть полезные программы, которые нужно скачать на компьютер:

  • Netpeak Spider – и эта программа поможет провести полный аудит сайта, выявить проблемы и ошибки. Всего ресурс определяет в 54 параметрах 62 ошибки, среди них и дублирование контента. 
  • В поиске дублированных заголовков и метаописаний вам поможет инструмент Visual SEO. Сканирование всего веб-ресурса обнаружит неправильные метаданные, теги H1 и заголовки страниц. 

А здесь понадобится завести аккаунт:

  • Copyleaks – проверка на плагиат для блогеров. Доступен со всех устройств благодаря облачной системе хранения. Имеет сканирование в режиме реального времени. Файлы можно сохранять в любом формате. Подробные отчеты о сканировании покажут, где использован повторно ваш контент. 
  • PlagTracker – есть бесплатная версия, которая проверит до 5 000 знаков в месяц. У программы наиболее понятный интерфейс. Материалы могут быть на испанском, немецком, французском, румынском языках (планируется добавление итальянского). Недостаток – медленно работает, на обработку одного текста в 250 слов у него уходит около минуты. 
  • Unicheck.com – образовательный сервис, подразделяется на уровни сложности обучения. Сервис насчитывает 1 млн пользователей и известен более чем в 90 странах. Скорость обработки материала – 4 секунды на страницу. Но сервис платный. Подходит для тех сайтов, тематика которых связана с онлайн-обучением.
  • JetOctopus.com – онлайн-сервис поможет не только проверить сайт на дубли страниц, но и другие ошибки: проблемы с индексацией в Google, наличие страниц, неинтересных роботам, плохая структура сайта и т.д. Здесь есть настроенный раздел аналитики и анализатор журналов. 
  • Seoto.me – сервис, который позволяет мониторить полные и частичные дубли и многое другое. Запускает сканирование сразу после добавления проекта.
  • PlagTracker – есть бесплатная версия, которая проверит до 5 000 знаков в месяц. У программы наиболее понятный интерфейс. Материалы могут быть на испанском, немецком, французском, румынском языках (планируется добавление итальянского). Недостаток – медленно работает, на обработку одного текста в 250 слов у него уходит около минуты. 

Таким образом, каждый специалист может найти удобный ему сервис для качественной работы с контентом – есть из чего выбрать! 

3. Решения проблем, которые создают дубли

Дублированный контент может всплыть на сайте по самым различным причинам, но у каждой причины есть отдельный способ борьбы с ситуацией. Поэтому рассмотрим самые распространенные проблемы внутреннего типа дублей и сразу же – пути их оптимального решения.

  1. Проблема: дублируются URL-адреса страниц сайта

Доступ к одним и тем же страницам в браузере можно получить при различных версиях каждого URL. Например:

Алгоритмы Google подразумевают, что все эти URL должны рассматриваться как один, но который из них брать в качестве основного?

Решение: согласовать внутренние ссылки, а также использовать 301 редирект.

Важно следить, чтобы каждое перенаправление страницы осуществлялось на каноническую версию URL. Например, при  каноническом URL https://ppcseo.com все остальные ссылки должны перенаправляться именно на него. Снизив количество  URL, вы снизите количество ошибок и ускорите загрузку страницы. Не стоит доверять право выбора Google – поисковик может выбрать не ту версию, которую вы бы хотели видеть. Проверку на канонический URL можно осуществить на https://sitechecker.pro/ru/canonical-url/.  

Что касается 301 редиректа, то он представляет собой один из инструментов SEO, который позволяет добиться корректной работы ресурса и избежать ошибок при открытии отдельных страниц. Код состояния HTTP 301 настраивается разными способами – при помощи специальных программ или встроенных инструментов, при использовании HTML и PHP, через плагины или панель управления.

2. Проблема: Дублируются товары в различных категориях на коммерческих сайтах

Для посетителя сайта расположение одного товара сразу в нескольких категориях может быть удобно. Но если система генерирует уникальный URL для каждой категории, в которой появляется продукт, получится так, что к одному товару будут относиться несколько URL. 

Например, пользователь находится на сайте по интернет-маркетингу и ищет книгу по линкбилдингу. Это можно сделать, следуя любому из поисковых путей:

  • Главная -> SEO-продвижение -> Линкбилдинг -> Литература;
  • Главная -> SEO-продвижение -> Литература -> Линкбилдинг;
  • Главная -> Литература -> SEO-продвижение -> Линкбилдинг.

Каждый из путей навигации имеет право на существование, но наличие уникального URL для каждого пути множит контент, который дублируется. 

Решение: Есть два варианта. Можно либо вовсе исключить из URL-адресов разбивку по категориям – тогда URL самого продукта будет одинаковым независимо от пути навигации для его поиска, но потеряет ключевик в ссылке. Либо помечать товары для конкретной категории, а не для нескольких. 

Впрочем, есть и третье, временное решение – канонические метки. При наличии на сайте идентичного контента они позволяют предотвратить индексацию поисковиками всех неканонических URL. Определение приоритетных страниц позволит им получить больший вес и стать вариантом, подходящим для индексации.

Выглядит канонический тег, например, так:

<link rel = «canonical» href = «https://www.https://ppcseo.com/news/ppc»/>

Атрибут rel=“canonical” размещают на нужных страницах между тегами <head> и </head>. Также можно прописать его в карте сайта или при помощи специального плагина например, Yoast SEO, если речь идет о  WordPress.

3. Проблема: Разнообразие похожего контента целевых страниц для рекламных объявлений

Разработка большого количества страниц для рекламных объявлений оправдана с точки зрения обратной связи от потребителя, но приведет к появлению дублей.

Решение: использовать метатег NoIndex

К каждой странице, которую нужно исключить из индекса поисковиков, понадобится добавить метатег NoIndex. 

Этот тег может быть помещен в любые элементы html-кода страницы. Он блокирует доступ бота к определенному участку контента, соответственно, тот не может добавить выбранную часть страницы в индексную базу. Выглядит это, например, так:

<noindex>текст на ppcseo.com, который будет запрещен к индексированию</noindex>

Какой вывод можно сделать? Дублирование контента хоть и не влечет за собой наказания, тем не менее, снижает его ценность и может значительно повлиять на индексацию не в лучшую сторону. Однако наиболее распространенные проблемы можно оперативно устранить. Берегите уникальность вашего контента, и это вернется вам рейтинговыми позициями в поисковой выдаче!

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Поделиться:

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: