Sunday, June 1, 2008

Мания величия подмастерьев от статистики или почему есть ложь, большая ложь и статистика

Кросс-пост с персонального блога...
---

Недавно я менял страховую компанию для дома и машин. Новая компания прислала мне обе страховки, расписанные на многих страницах с детальными обьяснениями всего на свете, и в частности обьяснения, что самым большим фактором, негативно влияющим на мою кредитную историю (от которой зависит, сколько с меня берут за страховку) было то, что большинство моих кредитных карточек имеет относительно небольшой возраст, в то время как у людей с совсем идеальной кредитной историей новых карточек почти нет, а все карточки у них лет этак двенадцать и больше... Я прочитал это и мне стало смешно.

Нет, в самом деле, подумайте сами. Кредитная карточка - это по сути ключ к вашим деньгам, пароль. Представьте себе, что вы используете один и тот же пароль двенадцать лет подряд. Каковы шансы, что за это время вы использовали его на серьезно инфицированном компьютере, что он попал в какую-нибудь базу данных очередного магазинчика с манией величия, что он осел где-то и может в любой момент выплыть?

В общем, полный идиот может и не понимает этого, но любой приличный IT отдел это знает очень хорошо, и потому-то и требует менять пароль, используемый на корпоративных сетях с некоторой периодичностью. Пароль, которому 12 лет - это признак плохо работающего IT отдела и работника, который подвергает риску информационные активы фирмы. А вот кредитная карточка, которой 12 лет, считается признаком блогосостояния и кредитной надежности. Причина? Причина проста - статистический анализ. Кривой статистический анализ, и мания величия того, кто его проводил.

Дело в том, что на одного человека, который понимает, что кредитную карточку, по крайней мере кредитную карточку с одним и тем же номером, просто нельзя использовать непрерывно в течении 12 лет, приходится сотня, а то и больше тех, у кого и правда кредит не очень. В среднем по госпиталю все смотрятся одинаково нехорошо.

Это, кстати, очень популярная ошибка в статанализе. Берется группа с похожими характеристиками, например, возрастом кредитных карточек, и обнаруживается корреляция с каким-нибудь интересным параметром, например, способностью платить по долгам в будущем. Внешне, в презентации менеджменту, все выглядит очень убедительно. Практически, в этой большой группе могут прятаться маленькие подгруппы с обратной корреляцией, которых просто не заметили.

Можно, конечно, сказать, что фирме это все равно, поскольку статистика все равно сработает и в среднем она все-таки получит свою прибыль. Так? Так, да не так. Дело в том, что на многих рынках наиболее инересны как раз очень небольшие сектора, которые способны дать наибольшую прибыль. Это своего рода сливки рынка. Найдите такую небольшую группу, и она может дать вам больше прибыли, чем весь низ рынка вместе взятый. Игнорируя этот небольшой сектор людей знакомых с безопасностью в IT, фирмы упускают людей, которые как раз очень неплохо платят по долгам, и реже чем остальные оказываются жертвой воровства, которое тоже немалая проблема для самих компаний.

Приведу в качестве примера другой случай ошибки подмастерьев от статистики, уже не в финансовой области. Пример этот относится к советским временам, когда некоторое исследование показало, что интеллект у человека обычно достигает максимума примерно лет в 20-25, а потом только падает. Понятное дело, такая информация немного удручает.

Однако позднее более детальное исследование тех же данных показало очень интересную вещь, похожую на то, что мы только что обсуждали. А именно, оказалось, что население делится на две очень неравных группы. У одной - значительного большинства - пик наступает не в 25, а в 18-19 лет, с последующим постепенным падением до конца жизни. А у другой пик часто приходится и на 40, и на 50, а то и больше лет. В среднем же получалось как раз 20-25 лет.

То есть у большинства развитие было только в школе. Как система поддержания жизни качает кровь и воздух в общем-то безжизненное тело человека в коме, так школа насильственно качала новые мемы в сам по себе неактивный мозг, приводя к форсированному развитию. Потом школа кончается, вилку выдернули из розетки, и - кирдык! - готов новый консьюмер для потребительского рынка. А те, у кого мозг был активен самостоятельно продолжали развиваться как ни в чем не бывало сами по себе еще многие годы и десятилетия. Вот такая вот разница между правильным и неправильным статистическим анализом.

No comments: