green_fr (green_fr) wrote,
green_fr
green_fr

Categories:

Корейский unicode

Провозился пол дня, разбираясь с корейскими символами Unicode для очередной лингвистической задачки из книжки.
Непередаваемый кайф копаться в таблицах Unicode в поисках нужного символа. Символе на пятом начинаешь понимать структуру их "алфавита" - я о слоговой азбуке Hangul, в которой 11000 символов, PDF на 45 страниц, так что структуру понять нужно. Под конец уже почти на автомате находишь нужный символ. Ну, а набив весь текст, я нашёл формулу, по которой можно вычислить код слога по кодам составляющих его букв...

Вообще, замечательная система письма. Изначальный постулат - слог состоит из трёх букв: согласная + гласная + согласная. И пишется как комбинация этих трёх символов (согласная ᄇ + гласная ᅡ + согласная ᆨ = слог 박).
Затем начинаются поправки.
1. Последняя согласная может отсутствовать в произношении, тогда она должна быть опущена на письме, например 가.
2. Первая согласная может отсутствовать в произношении, тогда на письме она заменяется на специальную "отсутствующую согласную" ᄋ (эта же согласная на конце слога прекрасно читается).
3. Последняя согласная может быть не одной согласной, а двумя, а то и тремя. Для этого в алфавит вводятся двойные и тройные буквы (например ᇗ при существующих ᆯ и ᇫ).

Соответственно, в Unicode присутствуют все согласные, все гласные, ещё раз все согласные (для последней позиции, потому что "Unicode различает буквы по их функциям, а не по их форме") и все возможные варианты кратных согласных.
Слоги предлагается писать простыми последовательностями составляющих их букв.
При этом, если нам нужно по каким-то причинам написать не весь слог, а только часть его, Unicode поддерживает специальные fillers (коды 115F и 1160), правда у меня не получилось заставить их работать. Впрочем, и автоматическую сборку слогов по буквам не получилось - вроде как никто этот геморрой пока не поддерживает.

Для того, чтобы всё таки как-то писать корейские слоги, нужно использовать другую таблицу Unicode, т.е. 11 с чем-то тысяч слогов, возвращаемся к началу поста и поиску в таблицах нужного символа.

Следующая задачка в книге на санскрите...
Tags: unicode, лингвистика
Subscribe

  • Le Chat déambule

    На Елисейских полях до следующей недели выставка Le Chat Гелюка (потом катается по Франции, откуда и название). Я когда-то писал о его совершенно…

  • Наш 2019 год: мелочи Парижа

    В январе, после множества выступления «жёлтых жилетов» мы с Анютой и Ленкой сходили на митинг «красных шарфов». Нам очень хотелось в кои-то веки…

  • Мелочи Парижа — церкви

    Самое глубокое впечатление от 2019 года — это, конечно, пожар в Нотр-Дам. Я тогда сразу же написал, нужно было выговориться. Вспоминать и сейчас…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 4 comments