Эконометрика для «чайников» или Data Mining в поэме «Москва – Петушки» Венички Ерофеева.

1. Любимая глава

Для многих любителей русской словесности, самой известной главой в культовой поэме «Москва-Петушки» является «Серп и Молот — Карачарово». Сам автор, флиртуя: «предупреждал всех девушек, что главу «Серп и Молот — Карачарово» следует пропустить, не читая, поскольку за фразой «И немедленно выпил» следуют полторы страницы чистейшего мата, что во всей этой главе нет ни единого цензурного слова за исключением фразы «И немедленно выпил». «Добросовестным уведомлением этим» — автор, Веничка Ерофеев, — «добился только того, что все читатели, в особенности девушки, сразу хватались за главу «Серп и Молот — Карачарово», даже не читая предыдущих глав, даже не прочитав фразы «и немедленно выпил».

Для других любимой главой является «Электроугли — 43-й километр», в которой автор дает рецепты приготовления различных коктейлей, как-то: «Ханаанский бальзам», «Сучий потрох», «Дух Женевы», «Слеза комсомолки», «Поцелуй тети Клавы». За поэти-ческими названиями скрываются настолько неудобоваримые сочетания ингредиентов, что можно свихнуться от одной только мысли, что и в самом деле существовали люди, которые смешивали и реально пили эти адские смеси.

Но для меня, обладателя первой степени по статистике и экономике Иерусалимского Университета и второй степени по эконометрике того же университета, однозначно самой любимой главой является «Новогиреево — Реутово». Эта глава «Поэма в Поэме», посвященная эмпирическим исследованиям и анализу данных.

2. Индивидуальные графики или «методичка» эмпирического исследования.

И так, что-же меня так «зацепило» в этой главе? — Ну конечно «индивидуальные графики»:
«….что это были за графики? Ну, это очень просто: на веленевой бумаге, черной тушью, рисуются две оси — одна ось горизонтальная, другая вертикальная. На горизонтальной откладываются последовательно все рабочие дни истекшего месяца, а на вертикальной — количество выпитых граммов, в перерасчете на чистый алкоголь. Учитывалось, конечно, только выпитое на производстве и до него, поскольку выпитое вечером — величина для всех более или менее постоянная и для серьезного исследователя не может представить интереса».

Вопросы технологии, как-то тушь и бумага, оставим для других специалистов, а я как «серьезный исследователь» разберу методы исследования Венечки Ерофеева:

  • Выбор метода анализа — График! Венечка уже в 70-х годах предыдущего столетия осознавал преимущества визуального представления данных.
  • Определения горизонтальной оси — «все рабочие дни истекшего месяца», тем самым автор подразумевает анализ временных рядов при этом графики индивидуальные, практически возможно использование Panel Data Analysis.
  • Определения вертикальной оси или зависимой переменой: «количество выпитых граммов», т.е цель исследования изучение зависимости потребления алкоголя от личных характеристик и временных/сезонных факторов, как будет показано далее.
  • Нормализация данных— «количество выпитых граммов, в перерасчете на чистый алкоголь». Вне зависимости от вида напитка, происходит нормализация данных.
  • Фокусирование исследования на главной проблеме: «Учитывалось, конечно, только выпитое на производстве и до него, поскольку выпитое вечером — величина для всех более или менее постоянная и для серьезного исследователя не может представить интереса».
  • Процесс сбора и первичной обработки: «Итак, по истечении месяца рабочий подходит ко мне с отчетом: в такой то день выпито того то и столько то, в другой — столько то и того то. А я, черной тушью и на веленевой бумаге, изображаю все это красивою диаграммою.»

3. Индивидуальные графики или «методичка» эмпирического исследования.

Помимо самого разбора научного метода Венички, интересно посмотреть и проанализировать сами графики:
«Вот, полюбуйтесь, например, это линия комсомольца Виктора Тотошкина»

1-слеза

А это Алексей Блиндяев, «член КПСС с 1936 г., потрепанный старый хрен»:

2-слеза

А вот уж это — ваш покорный слуга, экс бригадир монтажников ПТУСа, автор поэмы «Москва — Петушки»:

3-слеза

Вот анализ самого автора: «Ведь правда, интересные линии? Даже для самого поверхностного взгляда — интересные? У одного — Гималаи, Тироль, бакинские промыслы или даже верх кремлевской стены, которую я, впрочем, никогда не видел. У другого — предрассветный бриз на реке Кама, тихий всплеск и бисер фонарной ряби. У третьего — биение гордого сердца, песня о буревестнике и девятый вал. И все это — если видеть только внешнюю форму линии».

Как было обещано ранее, индивидуальные графики позволяют определить личные особенности потребления алкоголя, как-то волатильность потребления, минимум и максимум. Помимо этого, временные ряды позволяют в данном случае определить сезонность потребления у всех участников данного исследования. Как можно заметить на графиках выделены 10-ое и 26-ое числа. Более того, в эти числа на всех графиках наблюдается увеличение потребления алкоголя. Априорные представления о структуре оплаты труда в Советском Союзе (аванс и получка) и увеличения потребления алкоголя в эти дни, позволяют сделать вывод, что резкое увеличение ликвидности (наличные средства) статистически увеличивает потребление алкоголя.

4. Резюме

Романтик Веничка, в своей гениальной поэме смог объяснить доступным языком «Слезы Комсомолки» и «Поцелуя тети Клавы» основные подходы эконометрических исследований. Наглядность и доходчивость его объяснений делают первую половину главы «Новогиреево — Реутово» обязательным для изучения для всякого, уважающего себя специалиста по анализу данных. В наше время Data Mining и наступающей Big Data без анализа получаемых данных не возможен ни какой бизнес или научная разработка.

Подписаться

Комментировать

Статьи автора