green_fr (green_fr) wrote,
green_fr
green_fr

Categories:

Pour la Science (№ 406) — Ngram

Много раз видел результаты google Ngram, но ни разу сам не игрался, а тут замечательная статья о них. В двух словах — создан корпус текстов на разных языках (грубо говоря, отсканировали кучу книжек), по которому можно искать и анализировать употребление тех или иных слов.

Поскольку автор статьи — математик (это всё тот же Jean-Paul Delahaye развлекается, которого я регулярно цитирую, и которого называю французским коллегой Мартина Гарднера), первый поиск — по цифрам (я все поиски перевёл на русский корпус).


По теории здесь можно наблюдать закон Бенфорда (чем бы мы не мерили что бы то ни было, чаще всего результат будет начинаться с единицы), но «круглость» пятёрки выкидывает её чуть выше четвёрки.
Это легко исправляется другим поиском (в статье приводится пример с 135, 235 и т.д., но по-русски он тоже выкидывает 535 выше 435, я так и не понял, почему, поэтому сжульничал :->)

Другой пример, когда кривые имеют совершенно другую форму — поиск по годам. Очевидно, что упоминание каждого конкретного года растёт с приближением к этому году, а затем постепенно спадает. Во французской версии чётко виден эффект 1968 года, упоминание которого спадало существенно медленнее (и сейчас о нём говорят чаще, чем о любом другом годе того десятилетия), русская же версия выпячивает 1965-й — то ли из-за пятилеток, то ли 20-летие Победы.

Ещё один красивый поиск — по дням недели. Во-первых, видно наличие второго смысла у слова «среда» (с «воскресеньем» непонятно, т.к. по-французски оно тоже вырывается вверх — по воскресеньям больше всего происходит, об этом чаще пишут). Во-вторых, видна реформа русского языка 1918 года, а также слова, которые она затронула (если кто-нибудь знает, как писался «понедельник» до реформы, интересно было бы взглянуть на его кривую).

Поиск сильно затрудняет склонение в русском языке — система пока что не принимает во внимание тот факт, что «понедельник» и «понедельнику» — это одно и то же слово. Во французском с этим проще.
Вторая проблема — буква «ё», которая в половине случаев пишется как «е». Автор проводит сравнение частот упоминаний математиков (Тьюринг, Гёдель, Кантор и Бурбаки), которое из-за этих двух факторов практически нереально повторить по-русски.

Ещё один график — использование слова «война». Хорошо видны периоды, когда Россия воевала с кем-то.

Поиск по главам государства — история страны как на ладони. Вот смерть Сталина. Вот скромный холмик Хрущёва — никакого культа личности. Вот период, когда о Хрущёве уже, а о Брежневе ещё не пишут — тут же Ленин идёт вверх (ну и 100-летие со дня рождения, конечно, помогает). Вот перестройка, Сталина опять вытащили на первые полосы, а Ленин стал откровенно немодным.

Какой простор для игр, оказывается!
Tags: pour la science
Subscribe

  • Радиус 10 километров

    У нас через пару дней обещают снять ограничение на перемещение по стране, а пока ещё можно свободно перемещаться только в радиусе 10 километров…

  • Аукционы на билеты

    Началось! Получил мейл — не хочу ли я проапгрейдить свой билет на самолёт до бизнес-класса? Если хочу, то просят указать, сколько именно я согласен…

  • Увеличенная реальность

    Слушаю сейчас курс по Machine Learning (в двух словах: пока весело, но первые несколько недель слишком просто), мысли в основном о нейронных сетях.…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 9 comments