green_fr (green_fr) wrote,
green_fr
green_fr

Category:

Pour la Science № 489 — закон Бенфорда

Я когда-то давно наткнулся на описание закона Бенфорда, он мне сразу же понравился, но оставалось какое-то ощущение недосказанности. В общих чертах понятно, откуда он берётся*, но хотелось конкретики. И вот в журнале статья с разоблачением магии :-)

Начнём с определения записи для целой части [x] и части после запятой {x}. Очевидно, x = [x] + {x}.
Плюс постулат (вот здесь потенциально грабли, но авторы утверждают, что они этот вопрос проработали, да и лично меня такие постулаты на веру устраивают), что у нас есть некоторое достаточно широкое распределение, у которого запись после запятой распределена достаточно равномерно. Имеется в виду, например, рост человека, выраженный в сантиметрах — тогда распределение количества миллиметров роста (первая цифра после запятой в десятичной записи) можно принять за равномерное. Точнее даже, что вся запись после запятой {x} распределена равномерно. То есть, вероятность попадания {x} в некий интервал [a; b] пропорциональна длине этого интервала b-a.

А дальше дело техники. Рассмотрим log10(x). В том же приближении у этого числа запись после запятой тоже будет распределена равномерно. Например, вероятность попадания log10(C) ≤ {log10(x)} < log10(C + 1) пропорциональна log10(C + 1) — log10(C).
При этом можно показать, что если первая значащая цифра x равна C, то log10(C) ≤ {log10(x)} < log10(C + 1). Это можно доказывать, а можно «увидеть» на примере: {log10(7234)} = log10(7234) — [log10(7234)] = log10(7234) — [3,8593...] = log10(7234) — 3 = log10(7234) — log10(1000) = log10(7234 / 1000) = log10(7,234), а поскольку логарифм — возрастающая функция, то log10(7) ≤ log10(7,234) < log10(8).
Мы доказали, что (в указанном допущении о равномерности распределения дробной части) вероятность для x иметь первую цифру C равняется log10(C + 1) — log10(C). Это и есть определение закона Бенфорда.

И это доказательство открывает дверь для других вариантов. Кто нас заставляет брать функцию десятичного логарифма? Исключительно простота интерпретации с первой цифрой десятичной записи. Авторы показывают варианты закона Бенфорда с другими функциями. Которые тоже можно использовать для детекции фальсификации на выборах, когда жулики научатся подтасовывать первую цифру.

* Мне нравилось объяснение «на пальцах» вроде: если на улице есть дом № 43, скорее всего, на этой же улице есть дом № 15, обратное верно не всегда. А также объяснение через существование: предположим такое распределение существует, тогда оно должно оставаться инвариантным относительно смены масштаба (перепишем все суммы в евро франками — закон продолжает действовать), откуда можно вывести аналитическую форму закона. Но ни то, ни другое формально не объясняло природу закона Бенфорда.


Очень понравилась историческая справка о том, что закон Бенфорда открыл астроном, заметивший, что первые страницы таблицы логарифмов более затёртые — ими пользуются чаще, потому что чаще выпадают числа на «1», чем на «2», и т.д.
Tags: pour la science, statistiques
Subscribe

  • П.В. Маковецкий «Смотри в корень!»

    На днях наткнулся взглядом на старую книжку «Смотри в корень!» Маковецкого, взял с полки — и чуть ли не на едином дыхании снова её прочитал.…

  • 2020 год дома

    Вторая часть фотографий 2020 года: что было у нас дома. Купили игрушку на Новый год, Turing Tumble — интересный концепт, когда ты строишь очень…

  • Музеи 2019—2020

    Очень не хватает музеев, во Франции они до сих пор всё ещё закрыты. В какой-то момент задумался: насколько объективно снижение количества моих…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 10 comments

  • П.В. Маковецкий «Смотри в корень!»

    На днях наткнулся взглядом на старую книжку «Смотри в корень!» Маковецкого, взял с полки — и чуть ли не на едином дыхании снова её прочитал.…

  • 2020 год дома

    Вторая часть фотографий 2020 года: что было у нас дома. Купили игрушку на Новый год, Turing Tumble — интересный концепт, когда ты строишь очень…

  • Музеи 2019—2020

    Очень не хватает музеев, во Франции они до сих пор всё ещё закрыты. В какой-то момент задумался: насколько объективно снижение количества моих…