green_fr (green_fr) wrote,
green_fr
green_fr

Categories:

Culturomics

Я когда-то писал об n-gram’ах, а тут автор той рубрики (Jean-Paul Delahaye) выпустил более подробную книгу на эту же тему. Надо брать!

Книга немного более полна, чем набор его же статей в журнале (я увидел там следы статьи про n-gram, про задачу рейтинга учёных, про словари чисел и последовательностей, про закон Бенфорда), и, самое главное, хорошо структурирована, плавные переходы от одной темы к другой, связи становятся более понятными.
Очень рекомендую, и с удовольствием дам почитать.


Автор рассматривает вопрос «базового уровня». Есть, оказывается, некий комфортный нам уровень, до которого мы предпочитаем усложнять или упрощать понятия. Например, нормальный человек не будет указывать породу лошади, даже если он знает её, он скажет просто «лошадь». Но при этом он же не обобщит и до «парнокопытного» или «животного». Аналогично «собака», а не «водолаз» (mbla, конечно же, скажет про ньюфа «ньюф», но мы о среднестатистическом человеке).
И наоборот — у каждого общего понятия есть универсальное конкретное представление. Назовите поэта — Пушкин. Представьте себе фрукт — яблоко.

Эти конкретные представления чаще всего обозначают хорошо знакомые нам реализации общего понятия. Но есть и непонятные исключения, так у «птицы» конкретное представление — это очень часто «канарейка». Не «воробей» или «голубь», которых мы видим каждый день, а жёлтая канарейка, которую мы, скорее всего, в жизни никогда не видели.


Автор описывает исследование корпуса текстов на частоту использования разных чисел. В качестве потенциальных проблем приводит пример пика 2044 — это число упоминается в разных книгах существенно чаще, чем, скажем, 2043 или 3044. Объяснение прекрасное — огромная часть книг, оцифрованных google, пришла из библиотеки Гарвардского университета. Штрих-код которого начинается с 2044 — ошибка оцифровки, штрих-код считается частью содержания книги.

Какие-то аномалии легко объясняются, а какие-то не объяснены до сих пор. Есть общее правило — частота упоминания чисел уменьшается с увеличением числа. Есть очевидные исключения «круглых чисел» — их упоминают чаще. Но почему 8 упоминается чаще, чем 7? Причём автор проверял на разных языках, и везде восьмёрка регулярно обгоняла семёрку. Нашему программистскому сердцу 8, конечно же, ближе и круглее. Но за 7 говорит вся мировая религия и мифология.


Цитирует инвертор иррациональных чисел — программу, пытающуюся найти символическую запись для примерной десятичной записи какого-то числа. Тоже развлечение не на одну минуту :-)


Оказывается, во французском языке «миллиард» — это неофициальное название 109, правильное обозначение — это «тысяча миллионов». Декрет 1961 (ещё в силе) определяет названия степеней десятки группами по 6 знаков — миллион (106), биллион (1012), триллион (1018) и т.д. А между ними используются тысячные множители.
Наконец-то я понял путаницу между триллионом, который с 12-ю нулями, и триллионом, который с 18-ю!


Заключительная глава — данных будет всё больше, жизнь гиков будет всё интереснее. Упоминает общественно-политические движения за открытость данных (у читателей Навального в этом месте нервный смех), открытые государством данные. Но при этом уточняет, что из всех данных, выложенных парижской мэрией в открытый доступ, наибольшей популярностью пользуется список мест съёмок художественных фильмов :-)
Tags: knigi, популярная наука
Subscribe

  • П.В. Маковецкий «Смотри в корень!»

    На днях наткнулся взглядом на старую книжку «Смотри в корень!» Маковецкого, взял с полки — и чуть ли не на едином дыхании снова её прочитал.…

  • 2020 год дома

    Вторая часть фотографий 2020 года: что было у нас дома. Купили игрушку на Новый год, Turing Tumble — интересный концепт, когда ты строишь очень…

  • Музеи 2019—2020

    Очень не хватает музеев, во Франции они до сих пор всё ещё закрыты. В какой-то момент задумался: насколько объективно снижение количества моих…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 24 comments

  • П.В. Маковецкий «Смотри в корень!»

    На днях наткнулся взглядом на старую книжку «Смотри в корень!» Маковецкого, взял с полки — и чуть ли не на едином дыхании снова её прочитал.…

  • 2020 год дома

    Вторая часть фотографий 2020 года: что было у нас дома. Купили игрушку на Новый год, Turing Tumble — интересный концепт, когда ты строишь очень…

  • Музеи 2019—2020

    Очень не хватает музеев, во Франции они до сих пор всё ещё закрыты. В какой-то момент задумался: насколько объективно снижение количества моих…