green_fr (green_fr) wrote,
green_fr
green_fr

Categories:

Корейский unicode

Провозился пол дня, разбираясь с корейскими символами Unicode для очередной лингвистической задачки из книжки.
Непередаваемый кайф копаться в таблицах Unicode в поисках нужного символа. Символе на пятом начинаешь понимать структуру их "алфавита" - я о слоговой азбуке Hangul, в которой 11000 символов, PDF на 45 страниц, так что структуру понять нужно. Под конец уже почти на автомате находишь нужный символ. Ну, а набив весь текст, я нашёл формулу, по которой можно вычислить код слога по кодам составляющих его букв...

Вообще, замечательная система письма. Изначальный постулат - слог состоит из трёх букв: согласная + гласная + согласная. И пишется как комбинация этих трёх символов (согласная ᄇ + гласная ᅡ + согласная ᆨ = слог 박).
Затем начинаются поправки.
1. Последняя согласная может отсутствовать в произношении, тогда она должна быть опущена на письме, например 가.
2. Первая согласная может отсутствовать в произношении, тогда на письме она заменяется на специальную "отсутствующую согласную" ᄋ (эта же согласная на конце слога прекрасно читается).
3. Последняя согласная может быть не одной согласной, а двумя, а то и тремя. Для этого в алфавит вводятся двойные и тройные буквы (например ᇗ при существующих ᆯ и ᇫ).

Соответственно, в Unicode присутствуют все согласные, все гласные, ещё раз все согласные (для последней позиции, потому что "Unicode различает буквы по их функциям, а не по их форме") и все возможные варианты кратных согласных.
Слоги предлагается писать простыми последовательностями составляющих их букв.
При этом, если нам нужно по каким-то причинам написать не весь слог, а только часть его, Unicode поддерживает специальные fillers (коды 115F и 1160), правда у меня не получилось заставить их работать. Впрочем, и автоматическую сборку слогов по буквам не получилось - вроде как никто этот геморрой пока не поддерживает.

Для того, чтобы всё таки как-то писать корейские слоги, нужно использовать другую таблицу Unicode, т.е. 11 с чем-то тысяч слогов, возвращаемся к началу поста и поиску в таблицах нужного символа.

Следующая задачка в книге на санскрите...
Tags: unicode, лингвистика
Subscribe

  • Об эффективности вакцины

    Очень интересно было бы сравнить процент вакцинированных среди заболевших ковидом — с процентом вакцинированных среди населения. Le Monde пишет…

  • Renault Megane Estate PHEV

    Вторая часть, как выразился _not_me, рекламного поста про нашу машинку :-) Потому что водить её оказалось одновременно и удобно,…

  • Клаус Барби, Лионский палач

    Ехали мимо Лиона, у дороги стоит очередной туристический указатель: Les enfants d’Izieu. Нам это словосочетание ни о чём не говорило, полезли…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 4 comments