Размер букв в URL и SEO

Размер букв в URL и SEO

Некоторое время назад, анализируя один из сайтов, я заметил интересную проблему, связанную с размером букв в URL-адресах. Я решил поближе рассмотреть, проанализировал десяток других веб-сайтов в нескольких разных сценариях и пришел к тревожным выводам, которые побудили меня написать эту статью.

URL-адреса являются основным элементом в Интернете, они облегчают размещение ресурсов. В структуре веб-сайтов вы можете наблюдать различные соглашения о URL-адресах, начиная с hxxp: //nazwastrony.pl/? P = 555) и заканчивая дружескими адресами hxxp: //nazwastrony.pl/katalog/nazwa-zasobu.html

В URL-адресе проблема чувствительна к регистру. В большинстве случаев используются строчные имена (целая строка в строчных буквах). Мы предполагаем, что естественный адрес в структуре сайта …

hxxp://nazwastrony.pl/katalog/nazwa-zasobu.html

Далее, давайте предположим, что на каком-то форуме пользователь дал URL-адрес в форме …

hxxp://nazwastrony.pl/katalog/Nazwa-zasobu.html

Последняя часть адреса начинается с заглавной буквы — во время перезаписи пользователь допустил ошибку и непреднамеренно написал «N» вместо «n». Я знаю, чрезвычайно редкая ситуация, но это происходит. Обычно, если мы хотим предоставить ссылку, мы используем copy / paste.

Мы имеем дело с двумя разными адресами, где второй URL-адрес относится к другой подстранице. В этом случае мы можем столкнуться с двумя ошибками:

  • Ошибка дублирования содержимого в домене — страница будет выглядеть одинаково, однако URL-адрес, относящийся к ресурсу, будет другим.
  • Ошибка 404 не найдена — страница не существует.

Чтобы проиллюстрировать проблему, я возьму, например, два сайта (случайно выбранных из выборки), портал Onet и сайт MaxRoy.

Атет идет к первому огню. На следующем снимке экрана отображается статус сайта с правильным URL-адресом и введен неверно.

Очевидно, мы видим здесь, что страница, независимо от размера букв в URL-адресе, идентична.

Второй пример — веб-сайт MaxRoy …

В этом случае вызов ресурса с неправильно введенным адресом, то есть BLOG, заканчивается сообщением 404.

Сайты, которые пытаются получить доступ к концу подстраницы с ошибкой 404, должны строго выполнять 301 переадресацию. Что относительно первого случая?

Первый пример — это одна маленькая вещь, которая должна нарушить администратора сайта, а именно отсутствие канонического тега, который предотвращает дублирование контента, сообщая роботу Google, какой ресурс является более важным (который следует рассматривать как родительский). Таким образом, в данном конкретном случае существует реальная проблема дублирования контента.

Вопрос в том, как именно Google относится к подстранице, для которой несколько или даже несколько неправильных URL-адресов дублируют контент. Действительно ли мы имеем дело с дублирующимся контентом?

В ходе анализа всей ситуации я решил проверить, как Google будет реагировать, когда я введу неправильный URL-адрес в поисковой системе. Я выбрал первый лучший сайт с двойной проблемой URL.

На первом снимке экрана мы имеем базовый, правильный адрес с небольшим «g», на втором ошибочным с большим «G». Как вы можете видеть, оба адреса расположены в Google, они были проиндексированы, обработаны и помещены в базу данных поисковых систем. В обоих случаях поисковая система нацелена на два разных адреса G. G. Вы можете заметить, что на сайте нет канонического тега! Таким образом, тест подтверждает, что Google выделяет адреса, хотя в этом случае у нас есть несколько иной вариант — поисковая система. Мы опускаем проблему индексирования результатов поиска в этой статье.

Вы должны открыто сказать, что сама структура URL-адреса не вызывает спонтанного возникновения проблемы, поэтому неудивительно, что большинство пользователей будут игнорировать проблему до тех пор, пока в инструментах Google не появится соответствующее предложение. Но как насчет случайного или преднамеренного действия для принудительной индексации дублирующего адреса?

Возвращение на сайт Onet. Набрав неправильный адрес на выходе, я получил стандартный (правильный) URL, страница также не имеет канонических адресов, означает ли это, что мы имеем дело с некоторой аномалией? Защищен ли сайт Onet от этого, несмотря на отсутствие канонического адреса? Исследовательских потоков может быть много, один из наиболее вероятных заключается в том, что сайт имеет индексированную подстраницу, видимую только под одним (правильным) URL-адресом. Другая возможность заключается в том, что Google не показывает дубликаты в поисковой системе, и, может быть, весь «удар» необоснован?

Чтобы подтвердить эту проблему, вам необходимо:

  • Получите физический доступ к Инструментам для веб-мастеров для данного сайта, войдите в систему и проверьте отчет HTML, предложения, связанные с дублирующими тегами или описаниями, укажут на проблему.
  • Выполните собственные тесты в этой области, то есть индексируйте подстраницу, которая будет видна под двумя разными адресами, с разделением тестов на канонические адреса и без канонических адресов. Через некоторое время проверьте Инструменты Google для веб-мастеров, если у нас есть сигнализация дублирования метатеги.

На данный момент я не проводил комплексных тестов (требуется время), поэтому я не могу подтвердить 100% проблемы в первом случае — дублирование контента. Однако второй момент, ошибка 404 уже настолько очевидна, что она не требует дополнительных тестов.

Одно можно сказать наверняка, что каждый сайт с rel = "canonical" потенциально защищен. Это не меняет того факта, что если мы хотим быть очень точными, мы должны перенаправить пользователя на правильную версию адреса. Как это сделать?

В следующей статье я опишу простой способ перенаправления недопустимого адреса на основной URL-адрес с использованием 301 перенаправления.

Каково ваше мнение по этому вопросу? Здесь действительно серьезная проблема, я делаю вилы?

Я предлагаю вам прокомментировать!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *