August 12th, 2006

2017

Корейский unicode

Провозился пол дня, разбираясь с корейскими символами Unicode для очередной лингвистической задачки из книжки.
Непередаваемый кайф копаться в таблицах Unicode в поисках нужного символа. Символе на пятом начинаешь понимать структуру их "алфавита" - я о слоговой азбуке Hangul, в которой 11000 символов, PDF на 45 страниц, так что структуру понять нужно. Под конец уже почти на автомате находишь нужный символ. Ну, а набив весь текст, я нашёл формулу, по которой можно вычислить код слога по кодам составляющих его букв...

Вообще, замечательная система письма. Изначальный постулат - слог состоит из трёх букв: согласная + гласная + согласная. И пишется как комбинация этих трёх символов (согласная ᄇ + гласная ᅡ + согласная ᆨ = слог 박).
Затем начинаются поправки.
1. Последняя согласная может отсутствовать в произношении, тогда она должна быть опущена на письме, например 가.
2. Первая согласная может отсутствовать в произношении, тогда на письме она заменяется на специальную "отсутствующую согласную" ᄋ (эта же согласная на конце слога прекрасно читается).
3. Последняя согласная может быть не одной согласной, а двумя, а то и тремя. Для этого в алфавит вводятся двойные и тройные буквы (например ᇗ при существующих ᆯ и ᇫ).

Соответственно, в Unicode присутствуют все согласные, все гласные, ещё раз все согласные (для последней позиции, потому что "Unicode различает буквы по их функциям, а не по их форме") и все возможные варианты кратных согласных.
Слоги предлагается писать простыми последовательностями составляющих их букв.
При этом, если нам нужно по каким-то причинам написать не весь слог, а только часть его, Unicode поддерживает специальные fillers (коды 115F и 1160), правда у меня не получилось заставить их работать. Впрочем, и автоматическую сборку слогов по буквам не получилось - вроде как никто этот геморрой пока не поддерживает.

Для того, чтобы всё таки как-то писать корейские слоги, нужно использовать другую таблицу Unicode, т.е. 11 с чем-то тысяч слогов, возвращаемся к началу поста и поиску в таблицах нужного символа.

Следующая задачка в книге на санскрите...