Кириллические url. SEO-фрагменты (SEO Snippets) Google: Можно ли в URL-адресе использовать кириллицу и неанглийские слова? Применение кириллических доменов

VitaliyRodnenko , 03.08.2008

Меня всегда интересовал вопрос, как относятся поисковики к русскоязычным URL .

Сегодня проверял, как индексируется наш блог в поисковиках. И дело дошло до Яндекса, я ввел запрос «работа со строками javascript», в надежде увидеть в выдаче недавнюю статью об и был приятно удивлен. В выдаче блог оказался на 2-й позиции.

В URL статьи были использованы русские буквы: www.. И в результатах выдачи ключевые слова были выделены в URL жирным шрифтом:

У меня появилась мысль, что если уж Яндекс находит ключевые слова в URL , то быть может он использует это в своих поисковых алгоритмах? Или же это выделение сделано только для удобства ориентирования в результатах выдачи?

Google применяет подобную практику и учитывает при ранжировании ключевые слова в URL , набранные латинскими буквами. Тогда я решил проверить, «понимает» ли русскоязычные URL Google? Оказалось, что понимает:

Подписаться на обновления блога

Комментарии (7)

  1. Васька

    Ну как время показало? Какие результаты?

  2. Skaizer

    Да как сказать, по запросу «строки javascript» в яше мы на первом месте. Данный пост было лишь моим предположением и наблюдением. Все таки мне кажется, что русские буквы в URL не влияют на ранжирование.

  3. Приколист

    А как сделать так, чтобы на моём сайте в урле были русские буквы?

  4. dima.london

    Приколист / 26.12.2008 в 05:09
    А как сделать так, чтобы на моём сайте в урле были русские буквы?

    Через мод-реврайт. К примеру, в вашем блоге статьи имеют такие адреса

    Вот когда пишете статьи, анализируйте, придумывайте ссылки, подходящие под тематику, и затем в.htaccess вписывайте адрес типа

    # мод Rewrite включен
    RewriteEngine On
    RewriteRule .* — [L]
    # новый адрес для статьи
    RewriteRule ^новый-адрес-для-статьи$ /papka/podpapka/adres.php?url=125456 [L]

    Теперь в скрипте и, самое главное, в файле sitemap, надо сменить адрес к статье с

    на

    Это первое, что пришло в мою голову в момент прочтения этой статьи.

  5. Кирилл

    А что вы можете сказать на счет времени индексации страниц с русским url’ом Яндексом? Недавно закинул сайт в индекс (прошло 10 дней), и из 3 страниц с русскими урлами-попала 1. Остальные пока не индексируются. Google проиндексировал достаточно быстро. Я считаю, что Google дает некоторые плюсы в ранжировании подобных страниц. Особенно это выражается, если проанализировать западную выдачу ТОПа

Всем привет! Внешняя оптимизация сайта, путем закупки бэклинков, это дорого, не всегда эффективно, а порой опасно. После того, как Гугл ужесточил борьбу с продажными ссылками, а Яндекс и вовсе пытается их отключить, многие видят выход в накрутке поведенческих факторов. Но это не выход. Яндекс прямо заявил, что будет беспощадно наказывать за такие попытки повлиять на результаты выдачи. Таким образом, самым действенным и надежным способом продвижения сайта в поисковых системах была и остается внутренняя оптимизация. И тема сегодняшней статьи на сайт - оптимизация отдельных web-страниц, а точнее, их URL адресов.

Ну в самом деле, все начинающие блоггеры знают, что надо правильно отформатировать текст поста и распределить ключевые слова, грамотно прописать Title и Description. Это описано на каждом втором SEO-блоге, причем не всегда верно. Даже про внутреннюю перелинковку и релевантность многие осведомлены. А вот составить правильный URL адрес страницы могут не многие. Кто-то скажет, что это уже мелочи и, например, WordPress сам умеет формировать урлы. Позвольте не согласиться, URL-факторы очень даже влияют на релевантность страницы и ее ранжирование в результатах поиска. Поэтому я покажу, как изменить URL адрес, который нам любезно подсунул Вордпресс, и выжать максимум в плане SEO.

Что такое URL адрес сайта или web-страницы? Если обратиться к Википедии, то URL (Uniform Resource Locator ) - это Единый Указатель Ресурсов. Проще говоря, это некий стандарт записи адреса интернет-ресурса, в нашем случае, веб-страницы.

Обычно он начинается с протокола передачи данных http:// . Далее следует хост, в виде имени домена, и URL-путь до конечной странички, включающий в себя папки и подпапки, в виде рубрик. Посмотреть URL веб-страницы можно в адресной строке браузера, и выглядит он примерно так:

Чем длиннее путь, тем больший уровень вложенности имеет целевая страница, и тем сложнее ее продвигать. Значит, надо чтобы оптимизированный URL был небольшой длины. Подробнее об этом я расскажу ниже. А пока вернемся к Вордпресс.

Как оптимизировать URL страницы на блоге WordPress

Во-первых , обязательно надо настроить ЧПУ (человекопонятные url) и перевести все ссылки с кириллицы на латиницу при помощи плагина Cyr-To-Lat. Как и зачем это делать, читаем здесь . Я лишь уточню для тех, кто этого еще не сделал, что правильно настроенная логическая структура ЧПУ ясно дает понять посетителю, где он находится и куда попадет при клике по ссылке. Пример смотрите выше. Кто не в курсе, обязательно прочитайте ту статью, а потом возвращайтесь, иначе дальше будет не совсем понятно.

Итак, после этих действий ЧПУ на блоге полностью настроены и можно смело публиковать посты. По умолчанию, Вордпресс генерирует адрес поста из заголовка статьи. В большинстве случаев нам потребуется заменить такой урл более правильным с точки зрения seo-оптимизации. Сделать это не сложно, но надо придерживаться некоторых правил.

Правила оптимизации урлов сайта

1. URL страницы должен содержать ключевые слова. Он отображается под сниппетом в поисковой выдаче и ключи в нем подсвечивается жирным шрифтом. Это в случае, если настроены ЧПУ и ссылка не выглядит набором никому непонятных символов.

Что касается имени домена, то в нем тоже желательно использовать главное ключевое слово для сайта. Это еще продолжает работать, хотя уже не так как раньше. Главное не спамить. Вот так нормально: mir-auto.com , а так делать не надо: kupit-avto-v-moskve-nedorogo.ru .

Кстати, в 2014 году появилось 638 новых доменов верхнего уровня с очень “вкусными” названиями. Например, можно создать сайт SEO.GURU или зарегистрировать домен КУРСЫ.ОНЛАЙН . А как вам такое для арбитражников - tanki.online (пока свободно). Некоторые зоны уже доступны для регистрации, на другие пока можно сделать предварительный заказ. Не знаю, как они будут в плане продвижения, но для брендирования самое то.

2. Веб-адрес должен состоять из 3–5 слов. Максимальная длина URL не ограничивается современными браузерами, они нормально воспринимают адреса, содержащие даже тысячи знаков. Но вот для SEO лучше, чтобы ссылка была покороче. Как сказал Мэтт Каттс (руководитель группы по борьбе с web-спамом в Гугл), если будет больше 5 слов, то вес ключевиков в глазах Google будет снижен . К тому же, длинные ссылки обрезаются при показе в выдаче, что может снизить кликабельность сниппета.

3. Не используйте большую вложенность в адресах. Чем дальше страница от Главной, тем меньший вес имеют ее ключевые слова в url. Большое количество подкатегорий может выглядеть спамно: телевизоры.ру/телевизоры/led-телевизоры/led-телевизоры-самсунг/телевизор-самсунг-модель/ . За избыток кеев можно получить санкции от поисковиков.

Чтобы не было такой проблемы, я настроил постоянные ссылки по схеме /%postname%.html вместо /%category%/%postname%.html . Конечно, такой адрес не будет выглядеть, как “хлебные крошки”, когда легко можно попасть в нужный раздел, удалив часть ссылки справа. Но зато я вижу здесь ряд преимуществ:

  • короткий url и максимальная концентрация веса на ключевом слове;
  • такую ссылку не надо укорачивать, чтобы разместить в социальных сетях, например, в Твиттер;
  • легче запомнить и продиктовать;
  • если надо изменить структуру сайта, то можно спокойно перенести записи в другие рубрики, не создавая битых ссылок.

4. Делайте окончание с расширением .html . Хотя это не играет роли для поисковиков, но дает понять, что дальше идти некуда и выглядит привычно.

5. Для разделения слов лучше использовать дефис (-), чем подчеркивание (_). Раньше так рекомендовал Google. Хотя сейчас, по словам того же Каттса, поисковик одинаково воспринимает эти разделители, но ведь есть еще Яндекс и Mail.ru:-).

6. Все буквы в URL должны быть написаны в нижнем регистре.

7. Перевод, транслит или кириллица в URL? Яндекс и Гугл отлично понимают любую структуру. Что же использовать? Русские буквы я отметаю сразу, так как такие адреса будут слишком громоздкими и непонятными при копировании. Транслит или перевод? Лично я использую транслитерацию, но и тут не все однозначно, ведь существуют разные стандарты. Поэтому, надо смотреть у конкурентов в выдаче, где сами поисковики подсвечивают правильные URL адреса.

8. Используйте только латинские буквы, цифры, дефис и нижнее подчеркивание. Не используйте специальные символы, русские буквы и пробел в url. Не нужно писать предлоги, союзы и другие стоп-слова.

9. Веб-страница должна быть доступна только по одному адресу. Поэтому, если движок генерирует дубли, типа, replytocom в WordPress, то надо закрывать их от индексации и использовать тег rel=”canonical” для указания поисковому боту канонической страницы.

10. Ключевики в ЧПУ учитываются поисковыми системами и влияют на релевантность страниц. То есть, если вы хотите соблюдать какой-то процент тошноты и планируете разместить на странице 3 кейворда, то ключевое слово в URL будет четвертым и может привести к переспаму. Будьте внимательны!

Вот, кстати, наглядный пример влияния кея в урле на ранжирование.

Первые места по запросу “реплитоком” занимают сайты, у которых этот ключ встречается только в url, причем на латинице. На самой странице, естественно, такого слова нет ни в каком виде и написано вообще не об этом. А попали эти дубли в индекс, видимо, только потому, что ни у одного сайта не прописан запрет в robots.txt, так как тег canonical в наличии. Причем, как первый сайт попал в выдачу, вообще непонятка - у него в коде прописано noindex, nofollow.

Может Яндекс глюканул? Так как это явно не тот ответ, который хотел получить пользователь на свой вопрос. Тем более что на SEO-блогах полно оптимизированных статей на эту тему. Ну да ладно, оставим качество поиска на совести “зеркала Рунета”.

Как изменить URL адрес страницы вашего сайта WordPress

При публикации поста в редакторе под полем для заголовка записи отображается “Постоянная ссылка “, где можно найти url адрес текущей страницы.

Нажимаем рядом кнопку “Изменить ” и вписываем нужный нам урл. Обычно для этой цели подходит Title, если он правильно составлен. Можно прописать любой текст на русском языке, следуя правилам выше, и нажать “OK “.

Получаем новый урл страницы.

Далее, при необходимости, замените некоторые символы, если вы видите, что полученная транслитерация не будет подсвечиваться в выдаче Яндекса или Google. В зависимости от того, под какой поисковик вы продвигаете сайт. Возможно, потребуется не транслит, а перевод. Тогда просто скопируйте нужный текст в поиске и вставьте вместо старой ссылки. Не забудьте сохранить изменения.

Важно! При редактировании уже существующего url, появится битая ссылка и надо будет настроить 301 редирект со старой страницы на новую.

Поэтому, сто раз подумайте, стоит ли игра свеч. Продумывайте структуру постоянных ссылок ЧПУ сайта и url адреса web-страниц заранее, чтобы потом не создавать себе проблем, которые неизбежно приведут к временному проседанию позиций в поиске.

Видео-урок по seo-оптимизации URL для Joomla

Сегодня я решил затронуть тему продвижения кириллических доменов. Я отношусь к ним весьма предвзято, поэтому статья будет субъективной, и не будет претендовать на истину. Кроме моего мнения, опыта, и некоторых моментов, уточненных в Google, я попросил знакомого (обладателя кириллического домена) также описать основные нюансы работы с кириллическими доменами, плюсы и минусы. В итоге, получилось много информации, которую я сейчас попытаюсь структурировать.

Что такое кириллический домен

Итак, что собой представляет кириллический домен. Не углубляясь в техническую сторону, можно сказать, что такой домен указывается кириллическими символами, и предназначен для улучшения читабельности и запоминаемости. За почти 30 лет существования системы доменных имен (DNS разработана в 1984 году) все привыкли к доменам в латинице, появление кириллических доменных имен в 2010 году, вызвало небывалый ажиотаж в интернет-обществе. Многие IT-специалисты скептически отнеслись к такому нововведению, уже тогда увидев недостатки использования кириллицы в доменах. Простые же юзеры Сети обрадовались, за первые 6 часов существования зоны «.рф», было зарегистрировано 183 000 кириллических доменов .

Применение кириллических доменов

Первыми кириллическими доменами стали президент.рф и правительство.рф. Спустя некоторое время (конец 2009 – начало 2010), регистрация кириллических доменных имен стала доступной владельцам торговых знаков, позже — для всех резидентов России. Сейчас насчитывается уже несколько десятков кириллических доменных зон, включая «.укр», «.бел», и другие региональные и тематические домены.

Область применения кириллических доменных имен весьма обширна, их используют правительственные и частные организации, интернет-магазины, компании любого уровня, блогеры. Многие вебмастера используют кириллические домены в качестве дополнительных зеркал для своих сайтов. Часто компании покупают такие имена лишь для того, чтобы обезопасить себя от киберсквоттинга.

Преимущества и недостатки

Использование кириллических доменов имеет свои плюсы и минусы. Лично для меня, минусов гораздо больше (включая как объективные, так и субъективные факторы), однако, я честно попытался найти хоть что-то в пользу кириллических доменов. Давайте попытаемся перечислить и то, и другое.

Преимущества кириллических доменов

  1. Домен с использованием кириллицы удобно читать и запоминать . Встречается информация, что такие домены созданы как раз для людей, не очень хорошо понимающих транслитерацию и английский язык.
  2. Возможность добавления ключевых слов в домен , без использования транслита. Имхо, данный пункт не очень однозначный, не наблюдал выраженной зависимости позиций СДЛ от ключа в домене. Лучше потратить больше времени на грамотный нейминг.
  3. Большой выбор свободных доменных имен в кириллических зонах. Тогда как на латинице за три десятка лет «вкусных» доменов осталось довольно мало — введение кириллицы дало шанс найти такой домен для своей компании. Впрочем, через несколько лет этого преимущества уже не будет, скорее всего.

На этом, пожалуй, и все.

Недостатки кириллических доменов

  1. Некоторые браузеры по-разному копируют адрес сайтов . Например, в Google Chrome домен копируется в буфер только в Punycode, тогда как Mozilla Firefox позволяет скопировать домен из адресной строки в кириллице.
  2. Отсутствие возможности создания корпоративной почты для домена. К сожалению, кириллические домены пока нельзя корректно использовать для создания почтового адреса. Можно только использовать адрес в Punycode. Например, вместо «admin@домен.рф», адрес будет выглядеть как «[email protected]». Согласитесь, не очень удобно. Правда, Google не так давно заявил о начале поддержки кириллицы в адресах почт, но пока ее станут корректно воспринимать почтовики и начнут поддерживать другие поисковики (в Рунете, безусловно, основная почта для домена — от Яндекс) — пройдет не один год.
  3. Возможны проблемы при работе со ссылочными биржами , в частности, GGL (GoGetLinks). Дело в том, что часть адреса сайта (доменное имя) трансформируется в Punycode, а сам адрес страницы/папки/ресурса (URL) передается в шестнадцатеричной системе Unicode (UTF-8, как правило). В итоге, адреса могут быть очень и очень длинными, и из-за ограничений систем бирж, могут быть проблемы.
  4. Могут быть сложности с установкой и администрированием CMS . На данный момент, с популярными CMS проблем не должно быть, но вот с самописами или не очень хорошо развивающимися системами могут быть сложности.
  5. Есть информация, что некоторые онлайн-антивирусы могут некорректно работать с кириллическими адресами страниц.
  6. Зарубежные пользователи Сети будут испытывать сложности с доступом к сайту на кириллическом домене, из за проблем с кодировкой. На сегодняшний день, большинство браузеров научились правильно «понимать» и отображать кириллические адреса, но 100% гарантии нет.
  7. С кириллическими адресами неудобно работать оптимизатору/вебмастеру . Специфика нашей профессии такова, что часто приходится копировать адреса страниц, или же анализировать отчеты различных программ. Преобразованные в UTF урлы выглядят абсолютно нечитабельно, и понять, что за страница, можно лишь по title (без перехода по ссылке, разумеется).
  8. Ну и напоследок, если на компьютере не установлена русская раскладка клавиатуры — с введением адреса будут проблемы . Можно использовать виртуальную клавиатуру, конечно, но это не всегда предосталяется возможным, и мягко говоря, не особо удобно.

Заключение

Как я упоминал вначале — кириллические домены, в моем понимании, несут больше минусов, чем наоборот. Но я честно постарался обработать и систематизировать всю найденную и полученную по своим каналам информацию, чтобы каждый желающий приобрести такой домен, мог принять решение самостоятельно. Уверен, что еще год-второй — и описанных мною минусов станет на порядок меньше. Но для большинства интернет-старожилов, давно работающих в сфере WEB, кириллические домены так и продолжат оставаться чем-то слегка странным и неоднозначным. Возможно, среди нас просто много консерваторов 🙂

А каково ваше мнение относительно достоинств и недостатков кириллических доменов?

Итак, сегодня хотела написать немного об использовании кириллицы в ЧПУ. На мой взгляд русскоязычные ссылки были бы очень хороши, если бы не... Ходят слухи что они не доступны браузерам, поисковикам и другим системам, а в адресной строке браузера отображается что-то совершенно ужасное. Вот о всех плюсах, минусах, слухах и реализации на сайтах я бы и хотела рассказать.

Итак, пример того как можно использовать русский язык в URL можно увидеть прямо в адресной строке вашего браузера. Там должно быть написано следующее:

Http://сайт/news/2009/09/08/Русский_язык_в_URL.html

Заглянем что говорит по этому поводу официальная спецификация HTML 4.01 :

B.2.1 Non-ASCII characters in URI attribute values Although URIs do not contain non-ASCII values authors sometimes specify them in attribute values expecting URIs (i.e., defined with %URI; in the DTD ). For instance, the following href value is illegal : href ="http://foo.org/Håkon" >... We recommend that user agents adopt the following convention for handling non-ASCII characters in such cases: - Represent each character in UTF-8 (see ) as one or more bytes. - Escape these bytes with the URI escaping mechanism (i.e., by converting each byte to %HH, where HH is the hexadecimal notation of the byte value). This procedure results in a syntactically legal URI (as defined in , section 2.2 or , section 2) that is independent of the character encoding to which the HTML document carrying the URI may have been transcoded.

Что примерно означает следующее:

Хотя URL (есть разница между URL и URI, но тут она не важна), дожен содержать только латинские (ASCII) символы, бывает что авторы вставляют их в значение ссылок. Например в следующем примере значение атрибута href неправомерно: href ="http://vasya.ru/Вася_Пупкин" >... Рекомендуем браузерам сделать следующее: - Заменить каждый символ кодировкой urf-8 - Кодировать эти символы побайтно экранированием url, т.е. шеснадцатиричными значениями (каждый байт будет %HH). В итоге ваш URL будет синтаксически верен.

Отметим особо, что ссылка у нас получилась в (экранированной) кодировке UTF-8 , и её длинна соответственно возрасла. Вебмастера чьи сайты используют в качестве основной кодировки win-1251 (как например этот сайт) должны обрабатывать имя ссылок особо, например можно перевести её в нужную вам кодировку.

В IE8 к сожалению чистый русский язык будет только если там адрес вбивать вручную. Но, таков уж IE =).

В яндексе русский язык в url прекрасно понимают, и даже используют для поиска.


Гугл словам в ссылках значения не даёт, кроме того, слова соединённые через подчёркивание считаются с его точки зрения одним, для разделителей лучше использовать минус (дефис). Этот факт горячо обсуждался на xpoint.ru. Однако правильно сформированные русскоязычные ссылки он тоже отображает.

Теперь время для небольшого интервью, я опросила коллег на эту тему:

если например ссылка в utf-8?
Jelu (программист): ну кракозябра сверху) вообще считаю что это плохо давно хотела спросить кое что про оптимизацию. Как влияет на оптимизацию русский язык в url? @ (оптимизатор): не знаю что даже и ответить, думаю что зависит от того что ты хочешь получить в результате, т.е. для чего делается эта ссылка. но думаю что большого траста она не придаст, а смысл передается анкором, думаю что русский язык тут не причем. @: я не знаю как конкретно поисковик относится к ссылкам на русском языке. ну если говорить в общем о том как она влияет, я склонен думать что никак. На релевантность влияет текст на странице, но никак не ссылающийся на нее урл. привет. твоё мнение о использовании русского языка в url? ov3r (программист): привет. отрицательно, хотя бы из-за различных кодировок твоё мнение о использовании русского языка в url? Джехи (программист): только что обнаружил, что бл***ая сапа обрезает урлы длиннее 255 символов, что меня огорчило. поскольку у меня урленкод на > 255 сиволов от русского языка. с**и пи***ы. в остальном длинные русские урлы красивы, приятны, удобны, всеми понимаются и повышают релеванстность. твоё мнение о использовании русского языка в url? Dark Lord (программист): шняга!

Прокоментируй статью, хотя бы пару слов!

Комментарии:

    Итак, ярослав, для того чтобы сделать url на русском, предполагается что у вас уже есть реализация url на английском, если вы сами писали себе сайт.
    В базе данных, url хранится в кодировке utf-8[u], не важно в какой кодировке сам сайт. Если сайт в кодировке 1251, то при сохранении конвертируете кодировку в Utf-8.
    Когда вы показываете ссылку на странице блога - нужно также ту часть которая содержит русский язык обработать php-функцией urlencode.
    Соответственно потом, чтобы найти новость, вы парсите url, и ищете по той части его которая содержит русский язык. sql запрос выглядит примерно так:
    SELECT ... where ... CONVERT(`caption_latin` USING utf8) = CONVERT("".$pname."" USING utf8) ..., где caption_latin имя столбца содержащего ваш url в кодировке utf8.

    я только начинающий веб-мастер, поэтому мне кое что непонятно. Если честно мне бы подошла инструкция "для чайников" по этому вопросу))
    как сохранить кодировку в Utf-8?
    как обработать русский язык php-функцией?
    что такое парсить url?
    Извеняюсь если какие то вопросы покажутся смешными, но я только учусь)
    Ещё хорошо бы было показать пример кода до и после (т.е. какие изменения в код нужно внести что бы получить русские буквы в URL), думаю новичкам таким как я так будет легче разобраться.
    Заранее спасибо.

    Прошло 2 года спустя публикации этой статьи. Народ вовсю пользует возможность задавать кириллические ссылки; Яша этому рад; саперы тоже рады; не слишком давно регистраторам разрешили раздавать IDN-домены; даже зону на кириллице ввели (хотя и выдают, как я понял, алиасы для каждого домена в уникоде)...
    Все это не может не радовать.
    А вот делать правильный редирект (имею ввиду 301) научились не все(?). Потому как header`ы не принимают кириллические ссылки. Чего только не делют похапэшники со строками перед вставкой в header("Location: ".СЮДА);

    У автора (меня т.е.) соображения конечно есть. Подготовка ссылки для 301 редиректа вообще никак не отличается от подготовки ссылки для html. Я уже писала о том мой блог поддерживает автоисправление ссылок.
    Вот ради интереса можете стереть в адресной строке год, или месяц, или вообще дату целиком. Или можете просто нажать . Вас снова поредиректит на эту статью.
    В случае если у вас движок хранит данные в win-1251 вам следует выполнить 2 действия:

    • Перевести поле отвечающее за ЧПУ ссылки в кодировку UTF8
    • Выводить это поле в ссылке, используя urlencode() в PHP. (не всю ссылку а только данную часть url).
    Если у вас движок всё хранит в utf - ну вы поняли, да? =)
  • Долго я возился с этим...

    И раньше все делал как и было сказано в статье: переводил в utf-8, потом экранировал. По-разному экспериментировал...
    А оказалось, проблема в том, что urlencode() просто экранировал слеш.

    Спасибо, из-за статьи снова взялся разбираться с функцией. Разобрался) Вот ф-ция на php:

    function redirectto($redirect_link)
    {
    $redirect_link=iconv("windows-1251", "utf-8", $redirect_link);
    $redirect_link=urlencode($redirect_link);
    $redirect_link=str_replace("%2F", "/", $redirect_link);
    header("Location: ".$redirect_link."");
    }

    День добрый. У меня такой вопрос... Обо всем по порядку. Хочу сделать, чтобы urn имел возможность быть на русском (да, вот так я выразился)).
    Собственно, что делать?)
    Пользователь пытается зайти на адрес host.domen/2011/статья-1/
    Как мне перехватить это? Ловить все запросы отправляемые на 404? Но тогда будет возвращаться код 404 вместо 200. Или сделать "мягкую ошибку 404" с кодом возврата 200? (кстати как это сделать не понимаю).
    Или настраивать.htaccess для редиректа 301? Но тогда будет делаться редирект (парадокс, да?))... А в силу того, что имена всех файлов и папок на хосте только латиницей url будет меняться на host.domen/2011/statja-1/ (это верный адрес страницы). Но я такой не хочу) Хочу чтобы в строке адреса так и отображался host.domen/2011/статья-1/ Используя ErrorDocument 404 адрес в адресной строке остается как раз таким. Что позволяет немного обмануть природу и использовать русский на сервере, где это делать нельзя) Вобщем, есть идеи?

    Буду копать пока mod_rewrite

    Таки мощный инструмент mod_rewrite. Но малость неудобно с ним работать. Можно было сделать проще. Хотя, это, судя по всему, вызвано его внутренней сложностью. Или просто влияние "старой школы". Все-таки когда он был разработан то. Ну да не суть, главное сделал я все) Но с mod_rewrite вариант оказался не таким гибким. Лучше такие всю обработку оставить на php собирая неверный запросы в 404.

    В нашем движке используется следующее правило для mod_rewrite:

    RewriteCond %{REQUEST_FILENAME} !-f
    RewriteRule ^(.*)$ index.php?rewrite_url_query_toget=$1

    Можно использовать просто RewriteRule ^(.*)$ index.php , но в таком случае адрес страницы нужно брать из переменной $_SERVER["REQUEST_URI"] что будет не совсем верно если движок установлен в папку, а не в корень.

    Собирать страницы через обработку 404 запросов, не совсем правильно. Во-первых может быть что по умолчанию вернётся 404 статус. Во-вторых апач может попытаться отдать страницу через протокол HTTP 1.0 вместо HTTP 1.1, потому что страницу 404 нужно возвращать именно через HTTP 1.0, т.е. не используя метод chunked для выдачи, что тоже приведёт к ошибке. И т.п.
    А mod_rewrite действительно сложен именно в силу своей универсальности. При должном изучении вы сможете с помощью его делать очень многое.

    Ну первые две проблемы решаются с помощью посылки заголовка HTTP/1.1 200 Ok. Но в том, что это не совсем правильно, я, конечно, согласен) Это все-таки обходной путь. Я бы его не трогал, если бы все ровненько "склеилось" с mod-rewrite. У меня склеилось, но как-то кривовато. Ну за час этот механизм не освоить точно. Попробую поэкспериментировать с Вашими командами в mod_rewrite.

    Всем привет! Увидел просьбу прокомментить хоть на пару слов, и вот у меня сайты на WordPress, там это дело автоматизировано во всех записях и страницах использую название на русском языке, отображается во всех основных браузерах нормально. И реально для пользователя это удобно.

    Прикольная у вас страница ошибки)))))

    Вы блин не залогинились и не поставили галочку. Ваш комментарий не сохранён. На случай если вы таки не бот, то вот он, скопируйте и попробуйте снова:

    Здравствуйте!
    В ie ваша ссылка отражается закодированной. Я так понимаю для ie на русском ссылки не зделать? Если фильтровать пользователей по браузерам и генерировать ссылки на русском для всех, кроме ie и на транслите для ie, то поисковики будут воспринимать данную страницу как две. Получается, что надо все делать в транслите или есть все-таки решения?

    В адресную строку вводим например: mysite/?привет
    код php
    $chpu = $_SERVER["REQUEST_URI"];
    echo $chpu;
    код php
    выводит что-то типо того: %D0%BF%D1%80%D0%B8%D0%B2%D0%B5%D1%82
    вставляете в базу данных этот код и наслаждаетесь:)

    Влад, в ие - страница будет отображаться закодированной только до 9й версии. Это менее 5% от всех браузеров.

    Здравствуйте, очень интересная статья, многого не знал.
    Однако я не совсем понял, как всё-таки решить проблему отображения русских символов в URL.
    Я посмотрел "сырой исходник" (в Opera это Crl+U), и увидел, что у вас ссылка, на самом деле - UTF-8 после экранирования (escaped). Но при наведении в статусбаре браузера видны кракозябры, а после перехода - получается русский текст, как и надо. Уж как только не пробовал - и с экранированием, и без, и во всех кодировках (без конвертирования в UTF-8 и с оным). У меня при любом раскладе после перехода по ссылке получаются экранированные символы =(

    UPD: разобрался. Оказывается, такой фокус не проходит с параметром. Только с частью пути, но не query_string. Мне кажется, стоит дополнить этот нюанс - а то мало ли. Мне-то и нужен был как раз путь, но для теста я сдуру выбрал параметр. Интересно, к слову, чем вызвана эта особенность, и кто всё-таки преобразует неэкранированные символы в экранированный вид - браузер или же веб-сервер. Ещё было бы интересно понять, что же уходит на сервер, когда в адресной строке видны русские буквы. Украшательство ли это со стороны браузера, или они правда уходят без экранирования?

    И да, с параметрами тоже не всё так просто - ставил я однажды nginx без Apache, так там, кажется, параметры так и оставались на русском без замены... И вроде даже пришлось менять PHP код, чтобы оно заработало (хотя БД в той же кодировке была, что на девелоперском сервере). rewrite срабатывал, а данные приходили "плохие", как-то так.

    На т.н. location.hash - т.е. всё что существует после решётки существует своя спецификация. Поэтому да, браузер её увы экранирует.


В первую очередь, статья предназначена для тех, кто пользуется системой управления контентом CMS Joomla! 1.5, т.к. я буду объяснять все особенности использования кириллических урлов в контексте улучшения поисковой оптимизации и выдачи по поисковым запросам в основных ПС на основании технических решений, с которыми я сталкиваюсь при создании сайтов и в дальнейшей работе по их раскрутке. Тем не менее, принципы изложенные мною ниже будут актуальными для всех вебмастеров, которые не упускают из внимания в своей практической деятельности столь важную часть работы как в интернете и поисковая оптимизация сайта для улучшения выдачи в ПС Google, Yandex etc.

Весь изложенный ниже материал основан на моём практическом опыте и будет подкрепляться реальными примерами моих работ.

Итак...

Формирование кириллических урлов в joomla

CMS Joomla!, как и другие системы управления контентом имеют массу различных доработок и добавлений в виде компонентов, модулей и плагинов, которые могут отвечать за наличие и реализацию тех или иных функций. Поскольку здесь речь идёт в основном о СЕО, я, для формирования кириллических урлов использую такой компонент как sh404SEF. Задача этого компонента заключается в том, что он может формировать урлы в кириллице. Сам процесс формирования таких урлов подробно расписан на joomlaportal.ru

Есть ещё несколько подобных компонентов, однако свой выбор я остановил именно на нём, потому что с ним удобно работать и я не встречал никаких нерешаемых проблем при его использовании. Тем более, мне пришлось работать также в связке с компонентом интернет-магазина VirtueMart и могу сказать, что практически под каждый необходимый компонент есть возможность использования кириллических урлов, будь то компонент интернет-магазина или карта сайта.

Настройка кириллических урлов – что важно учитывать

При настройке кириллических урлов, важно, чтобы они не были очень длинными по нескольким причинам. Поисковая машина при формировании сниппета обрезает слишком длинные урлы, если Вы собираетесь устанавливать модули контекстной рекламы на своём сайте, учтите тот факт, что при очень длинном урле (более 30 символов), вы не сможете добавить на эту страницу модуль Google AdSense и отслеживать конверсию. Поисковая машина видит кириллический урл адрес в таком виде,

но тем не менее, отображает его в нормальном буквенном виде.

Отсюда, ниже будут описаны преимущества и недостатки таких урлов.

Преимущества кириллических урлов

1 Закладывая в такой урл ключевое слово (прямое вхождение или не прямое) вы получаете возможность вывести вашу статью выше в поисковой выдаче. Конечно, очень важно само качество материала (этого никто не отменял), однако таким образом у вас есть возможность добавить ещё один ключ – а почему бы и нет?

2 Очень важен тот факт, что при формировании сниппета поисковая система покажет кириллический урл и выделит жирным ключевые слова по поисковому запросу, как в примере видно.


Более того, статья из примера появилась сразу после её индексации в топ 10 по запросу «тренажерный зал кпи», и спустя краткий период времени стала первой в выдаче после появления первых комментариев.

3 Психологический фактор – очень важно, человек, глядя на такой красивый урл, при соответствии его тематике запроса, однозначно обратит на него внимание и кликнет, потому что сразу будет уверен в том, что он найдёт нужную ему информацию. Очень важно этот момент учесть для интернет-магазинов, особенно в том случае, когда есть существенная конкуренция по тому или иному виду товара. И с эстетической точки зрения на токой урл не сравнимо приятнее смотреть, чем на идентификаторы сессий и прочие различные значки, которые ни о чём не говорят среднестатистическому пользователю.


Недостатки использования кириллических урлов

1 Во втором пункте мы вспоминали об особенностях использования модуля контекстной рекламы от Google – AdSense и того, как видит поисковая машина кириллический урл, недостаток заключается в том что существует лимит на количество символов в урле, при добавлении их для отслеживания конверсии.

2 Поисковая машина (как и любой другой HTML-редактор видит одну кириллическую букву как совокупность таких символов, например слово поисковая-оптимизация в HTML-редакторе видится так – %D0%9F%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BE%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F. По этой причине, если вы хотите оставить где-то на форуме сообщение со ссылкой, которая отображается в адресной строке браузера кириллицей, то оно будет иметь такой вид (смотри 1-й скриншот).

3 Я заметил такую особенность, что если вы к примеру меняете хостера или просто восстанавливаете сайт с бекапа, то после восстановления нужно опять включать функцию поддержки кириллических урлов в настройках соответствующего компонента. Естественно, в таких обстоятельствах ссылки могут полететь и тогда посетители увидят страницу 404 вместо искомого запроса, по крайней мере до переиндексации. Тем более ПС не любят таких вещей в принципе, да и посетители (потенциальные клиенты) вряд ли обрадуются увиденному…

4 Также, если у вас накопилось много материала (статей, товаров в интернет-магазине) то при использовании такого компонента будет неуклонно возрастать нагрузка на БД. Это чревато тем что хостер начнёт бодаться (особенно говнохостер) и тогда смотри предыдущий пункт. Во-вторых, неумолимо увеличится время загрузки сайта, а это будет вызывать раздражение у пользователей, в итоге они с меньшим азартом захотят к вам заходить ещё.

В качестве итога данной статьи хочу поведать ситуацию с моими проектами на данный момент. Лично моё решение, после взвешивания всех ЗА и ПРОТИВ состоит в том, что сайты с кириллическими урлами (как правило, это сделанные и раскрученные мною интернет-магазины) я решил оставить в прежнем виде, в виду очевидности вышеописанных «плюсов». Тем не менее, новые сайты я делаю без использования кириллических урлов, использую родной mod_rewrite, просто в качестве псевдонима страницы вписываю грамотную транслитерацию латиницей. Опять таки, с точки зрения собственной практики грамотный транслит урла или грамотное английское написание хватается ПС (по крайней мере гуглом) как ключевое слово, что не может не радовать!

Пару замечаний о том, как настроить компонент sh404SEF

Если вы приняли решение об установке этого компонента, важно знать его преимущества. Поскольку на моём сайте мы говорим о SEO, то в данном контексте и будем рассматривать этот вопрос. Компонент sh404SEF замечателен тем что:

  • создаёт большое количество технических url, которые ссылаются на главную
  • тем самым формирует семантическое ядро сайта из заголовков страниц, что определяет тематику сайта
  • в последствии ПС охарактеризовав тематику сайта, считают тематические поисковые запросы, по которым вы создаёте новые страницы релевантными вашему сайту
  • это поднимает ваш сайт в поисковой выдаче по тематическим запросам, поскольку сайт является релевантным и авторитетным в глазах ПС
  • в свою очередь, это значительно экономит ссылочный бюджет и позволяет выходить в ТОПы поисковых систем путём создания контента

Итак, для настройки sh404SEF, позаботьтесь о том, чтобы в строке url адреса значился раздел, либо категория товара. Если раздел, категория и сам товар (их названия) не занимают много места в браузере, можете сделать всех их отображаемыми. Однако это касается только не кириллических url, по выше указанным причинам.

Отсюда можно сделать вывод, что если на сайте установлен компонент sh404SEF и он был ранее настроен на формирование кириллических url, то удалять компонент не стоит. Желательно перенастроить его таким образом, чтобы урлы формировались латиницей. Переиндексация сайта ПС зависит от частоты посещения его поисковыми роботами. Если сайт обновляется чаще, то и роботы заходят на него чаще. В тот период времени, пока будет происходить переиндексация, позаботьтесь о внешнем виде 404 страницы, обеспечьте посетителей быстрым доступом к главной странице сайта, нужным категориям и разделам меню, товарам и т.д.

Данная статья не даёт однозначного ответа на вопрос – использовать кириллические урлы или нет? Однако, я надеюсь, что вышеописанные преимущества и недостатки их использования помогут вам принять правильное решение в данном вопросе.



В продолжение темы:
Android

Популярная социальная сеть ВКонтакте позволяет находить новых друзей и держать контакт со всеми близкими. Помимо этого, каждый пользователь может делиться собственными...