green_fr (green_fr) wrote,
green_fr
green_fr

Categories:

Culturomics

Я когда-то писал об n-gram’ах, а тут автор той рубрики (Jean-Paul Delahaye) выпустил более подробную книгу на эту же тему. Надо брать!

Книга немного более полна, чем набор его же статей в журнале (я увидел там следы статьи про n-gram, про задачу рейтинга учёных, про словари чисел и последовательностей, про закон Бенфорда), и, самое главное, хорошо структурирована, плавные переходы от одной темы к другой, связи становятся более понятными.
Очень рекомендую, и с удовольствием дам почитать.


Автор рассматривает вопрос «базового уровня». Есть, оказывается, некий комфортный нам уровень, до которого мы предпочитаем усложнять или упрощать понятия. Например, нормальный человек не будет указывать породу лошади, даже если он знает её, он скажет просто «лошадь». Но при этом он же не обобщит и до «парнокопытного» или «животного». Аналогично «собака», а не «водолаз» (mbla, конечно же, скажет про ньюфа «ньюф», но мы о среднестатистическом человеке).
И наоборот — у каждого общего понятия есть универсальное конкретное представление. Назовите поэта — Пушкин. Представьте себе фрукт — яблоко.

Эти конкретные представления чаще всего обозначают хорошо знакомые нам реализации общего понятия. Но есть и непонятные исключения, так у «птицы» конкретное представление — это очень часто «канарейка». Не «воробей» или «голубь», которых мы видим каждый день, а жёлтая канарейка, которую мы, скорее всего, в жизни никогда не видели.


Автор описывает исследование корпуса текстов на частоту использования разных чисел. В качестве потенциальных проблем приводит пример пика 2044 — это число упоминается в разных книгах существенно чаще, чем, скажем, 2043 или 3044. Объяснение прекрасное — огромная часть книг, оцифрованных google, пришла из библиотеки Гарвардского университета. Штрих-код которого начинается с 2044 — ошибка оцифровки, штрих-код считается частью содержания книги.

Какие-то аномалии легко объясняются, а какие-то не объяснены до сих пор. Есть общее правило — частота упоминания чисел уменьшается с увеличением числа. Есть очевидные исключения «круглых чисел» — их упоминают чаще. Но почему 8 упоминается чаще, чем 7? Причём автор проверял на разных языках, и везде восьмёрка регулярно обгоняла семёрку. Нашему программистскому сердцу 8, конечно же, ближе и круглее. Но за 7 говорит вся мировая религия и мифология.


Цитирует инвертор иррациональных чисел — программу, пытающуюся найти символическую запись для примерной десятичной записи какого-то числа. Тоже развлечение не на одну минуту :-)


Оказывается, во французском языке «миллиард» — это неофициальное название 109, правильное обозначение — это «тысяча миллионов». Декрет 1961 (ещё в силе) определяет названия степеней десятки группами по 6 знаков — миллион (106), биллион (1012), триллион (1018) и т.д. А между ними используются тысячные множители.
Наконец-то я понял путаницу между триллионом, который с 12-ю нулями, и триллионом, который с 18-ю!


Заключительная глава — данных будет всё больше, жизнь гиков будет всё интереснее. Упоминает общественно-политические движения за открытость данных (у читателей Навального в этом месте нервный смех), открытые государством данные. Но при этом уточняет, что из всех данных, выложенных парижской мэрией в открытый доступ, наибольшей популярностью пользуется список мест съёмок художественных фильмов :-)
Tags: knigi, популярная наука
Subscribe

  • Помпиду, в основном сюрреалисты

    Картина, привлекшая внимание табличкой: Сергей Шаршун, «La fortune danseuse», 1922. Пишут, что это, возможно, портрет Айседоры Дункан, которую…

  • Баранов-Россине в Центре Помпиду

    В прошлый поход в Помпиду наткнулся на целый зал, посвящённый человеку, о котором я до сих пор ничего не слышал — Владимир Давидович…

  • Drôle de langue

    Как и множество других французских газет, Le Monde каждое лето запускает множество «сериалов», потому что новостей летом меньше, а страницы чем-то…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 24 comments

  • Помпиду, в основном сюрреалисты

    Картина, привлекшая внимание табличкой: Сергей Шаршун, «La fortune danseuse», 1922. Пишут, что это, возможно, портрет Айседоры Дункан, которую…

  • Баранов-Россине в Центре Помпиду

    В прошлый поход в Помпиду наткнулся на целый зал, посвящённый человеку, о котором я до сих пор ничего не слышал — Владимир Давидович…

  • Drôle de langue

    Как и множество других французских газет, Le Monde каждое лето запускает множество «сериалов», потому что новостей летом меньше, а страницы чем-то…