Kyrahalar's web

Bring me that horizon!

Список сайтов на якутском языке

21 Aug 2011

Николай “CyberSakha” Павлов и Болот Бочкарёв задумали небольшой такой, но очень ценный проект. Ценность таких проектов подтверждена историей. Из в точности такого же проекта, лет эдак 17 назад, например, образовался Yahoo! Так вот, в чём собственно проект? Они собрали ни много ни мало, список веб-сайтов и страничек, где так или иначе есть информация на якутском языке. Оригинальный список и рассказ о том, как всё это появилось на свет можно найти у Болота на сайте Ask Yakutia. Я пожалуй, продублирую его ещё раз прямо тут (см. под катом). Там же под катом, ложка дёгтя от меня в бочку мёда якнета.

Я сам тоже прошёлся по всем 24 линкам, чтобы проверить ещё раз, что все линки работают как надо. Вроде всё чётко, ни одной 404-ой ошибки или “протухшего” домена не обнаружено. Но что меня сразу, мягко говоря, неприятно удивило, так это то, что до сих пор, уже более десятилетия в XXI веке, более 20 лет без СССР существования Юникода, чуть-ли не половина сайтов в списке хостают свой контент в CP1251 претендуя при этом на якутский язык. Дело в том, что в якутском алфавите 40 букв, представленных 38-ю символами из набора Кириллицы. Но не все они представлены в кодовой странице CP1251, про которую знают операционные системы и веб-браузеры. Поэтому те буковки, которые не входят в CP1251 приходится кодировать каждую отдельно в виде HTML мнемоники, как например “Ǯ” вместо Ҕ. Это расточительно в плане трафика, это может вызвать проблемы при повторном редактировании текста, это с трудом индексируется для поиска. Но это ещё пол-беды. То что, в интернете буквы представлены их цифровым кодом в Юникоде, намекает на то, что всё-таки, сам источник информации (статьи написанные их авторами) закодирован, скорее всего, в Юникоде. И при желании, и небольшом усилии, кодировку на веб-сайтах ещё можно починить, а данные переконвертировать.

Самое веселье начинается, когда под видом CP1251 на самом деле используется своя, суррогатная кодировка, которая частично повторяет CP1251, но полностью с ней не совпадает, следовательно, на самом деле, уже не CP1251. И чтобы запутать браузер окончательно, и чтобы он графически отображал на экране примерно правильную картинку, используются всяческие трюки. Простейший - это попросить пользователя, возможно совершенно случайно проходившего мимо, сходить на специальную страницу, загрузить и (!) проинсталлировать в свою систему специальные шрифты, предназначенные для просмотра только этого конкретного веб-сайта. Другой способ, похитрее - это прописать на каждой странице вебсайта инструкции для браузера, какие шрифты использовать и где их взять. По сути, проделать всё, что описано в первом способе, только без участия (и без согласия) пользователя. Ладно, мне подгрузить несколько бесплатных мегабайт за кулисами трафика может и не составит больших хлопот (а кому-то моежет быть и не ладно). Но если вы хотите, чтобы ваши публикации вобще хотя бы как-то индексировались в поисковых системах, чтобы ваши читатели имели возможность искать в тексте слова без учёта регистра или напечатать страницу на принтере, ну или просто чтобы ваш сайт открывался не только в персональных компьютерах, но и в телефонах и в других мобильных устройтсвах, то я бы сказал не стоит идти таким “своим путём”.

А каким путём правильно? Если вы и ваши пользователи используют программное обеспечение от ведущих производителей, таких как Microsoft, Mozilla, Apple, Opera и т.д., то и следовать надо станадартам, которые все они поддерживают. Так вот, единственная принятая мировой промышленностью система кодирования текста, на сегодняшний день и, пожалуй, в более или менее обозримом будущем, в которой предусмотрено место для якутского алфавита - это Юникод. Других вариантов просто нет.

А как перейти на Юникод? Для тех, кто любит создавать вещи по правилам и не дрогнет перед необходимостью для этого предварительно переработать массу теории, есть великолепная статья на сайте W3 Консорциума “Переход на Unicode”. А если вкратце, то можно для начала просто попробовать в мета-тэг “Content-Type” вставить значение “text/html; charset=UTF-8”, и посмотреть что получится сломается. А дальше уже плясать вокруг этого. Скорей всего, придётся кое-что еще подкрутить там и сям, в настройках базы данных и т.д. Но это уже, как говорится, дело техники, и зависит от вашей платформы.

А вот, собственно, сам список (на август 2011)…

  1. www.sakhaopenworld.org/media/ - The Sakha National Broadcasting TV Programs (selected).
  2. uhhan.ru - The website of Ivan Uhhan, writer, public speaker. Some texts in Russian
  3. www.sakhatyla.ru - SakhaTyla.ru, the Sakha language website with Russian-Sakha and Sakha-Russian online dictionaries, Pekarsky's Sakha Language Dictionary (graphic), a text-book for the Russian-speakers, the Sakha language grammer book, samples of the Sakha folklore texts and songs.
  4. www.kyym.ru - The Kyym Sakha-Language News Agency. Please don't confuse with the newspaper of the same name. This one is a seperate online project. Kyym.ru publishes stories in the Sakha language from different media outlets.
  5. sakhasire.ykt.ru - (Not in Unicode) The online version of the Sakha Sire republic governmental newspaper.
  6. news.iltumen.ru - (Not in Unicode) IL Tumen News, online version of the republic parliament newspaper. Published in Russian and Sakha languages.
  7. sah.wikipedia.org - Wikipedia in the Sakha language.
  8. sah.wikisource.org - Wikisource in the Sakha language.
  9. www.viktoriasakha.ru - (Not in Unicode) Sakha Viktoria FM Radio Station.
  10. bertjickty.narod.ru - (Not in Unicode) Bert Jickty's website, he is a big promoter of the Sakha fonts on the Internet.
  11. www.baayaga.narod.ru - (Not in Unicode) Unofficial website of the Bayaga settlement of Yakutia's Tattinsky region.
  12. olonkho-yak.my1.ru - Private website dedicated to the Olonkho, the Sakha heroic epos.
  13. tylbaas.ykt.ru - Online dictionary: Sakha-Russian, Russian-Sakha
  14. 42.ykt.ru/edersaas/ - (Not in Unicode) Eder Saas Newspaper archive.
  15. www.bichik.ru - (Not in Unicode) Bichik National Publishing House. Partly in Russian.
  16. khohuun.h1.ru - (Not in Unicode) Khohuun NGO newspaper
  17. pages.ykt.ru/tumus/index_sa.html - Public speaker Tumus Mekhaale
  18. sitim.ykt.ru/sakha/ - Sakhalyy Sitim NGO.
  19. il.ucoz.net - Sakha Non-Governmental Centre. Partly in the Sakha language.
  20. ilin-yakutsk.narod.ru/index.htm - (Not in Unicode) ILIN, historical & cultural magazin.
  21. tymen.org.ru - Tumen Youth Organization.
  22. sanaalar.ru - Sakha Music Website supported by Sinilga and Qwer
  23. eyge.sakha.ru - (Not in Unicode) Eyge, website for the deliberated Sakha man, as it says in the header.
  24. altan.naslegy.ru - Website of the Altan settlement, a pioneer among Sakha-language websites.