Нейт Силвер: больше данных не всегда лучше
Изобилие данных позволяет статистикам выбрать из них то, что нужно для получения желаемого результата
«Большие Данные позволяют заглянуть глубоко, но больше – не всегда лучше», – предупреждает статистик Нейт Силвер, ставший одним из наиболее известных специалистов в США в области анализа данных, после того как в своем блоге FiveThirtyEight точно предсказал результаты президентских выборов 2012 года во всех 50 штатах.
«Чем больше у людей данных, тем выше соблазн выбрать из них подтверждение того, что они желают продемонстрировать», – подчеркнул он.
Изобилие данных – серьезная проблема в политике, где у многих прослеживается свой интерес в получении тех или иных результатов. Важна она и во многих других областях, начиная от медицины – где многие исследователи и журналы предпочитают увидеть работы, которые показывали бы интересные результаты, а не подтверждали отсутствие новостей, – и заканчивая прогнозированием землетрясений.
«В итоге вместо реальной глубины Большие Данные помогают выявить массу фиктивных связей и продемонстрировать наличие отношений, которые, по сути, являются случайным шумом», – указал Силвер в своем выступлении на недавней конференции RMS Exceedance в Бостоне.
Силвер ведет блог FiveThirtyEight, который теперь можно увидеть на страницах New York Times, а также написал книгу The Signal and the Noise: why so many predictions fail — but some don't («Сигнал и шум: почему не сбывается так много прогнозов, но некоторые все же оказываются верны»).
Известный статистик дает четыре совета, помогающие повысить эффективность анализа данных и использования полученных результатов.
1. Мыслите вероятностными категориями. Говорите о возможности, а не об абсолюте. Не бойтесь рисовать в своих прогнозах уровень неопределенности, ведь изучение общественного мнения допускает некоторую погрешность, даже если не вся ваша аудитория способна это понять.
Многие критиковали заключения, публиковавшиеся в FiveThirtyEight, отмечая уровень вероятности, о котором не уставал повторять Сильвер, но учет неопределенности очень важен и является неотъемлемой частью хорошего исследования.
Игнорирование неопределенности грозит серьезными последствиями. В 1997 году Национальная метеорологическая служба США предупредила о приближающемся наводнении. Ожидалось, что уровень воды в реке Ред-Ривер в районе города Гранд-Форкс поднимется до 15 метров. Многих жителей города это успокоило, потому что набережная была способна выдержать подъем воды до 16 метров. К сожалению, жителям Гранд-Форкса не сообщили, что точность предыдущих прогнозов составляла плюс-минус три метра. В итоге река поднялась на 17 метров и значительная часть города была затоплена.
«Сегодня Национальная метеорологическая служба к учету неопределенности относится с гораздо большим вниманием, когда составляет свои прогнозы, – отметил Силвер, указав на 'конус неопределенности', сопровождающий прогнозируемый путь урагана. – Демонстрация неопределенности визуальными способами очень важна для правильного восприятия людьми прогнозов».
Вероятностные прогнозы на полную достоверность, конечно же, не претендуют.
2. Не отрывайтесь от реальности. Не забывайте о своих предубеждениях и мотивах, побудивших сделать то или иное заключение, а также о причинах, заставивших отказаться от других выводов. «Ваше поведение определяется вашими стереотипами», – указал Силвер. В качестве примера он привел эксперимент, в котором проверялась склонность людей к дискриминации по половому признаку. Участникам эксперимента показывали два технических резюме: одно было написано от имени женщины, а другое – от имени мужчины. Те, кто утверждал, что не склонен к дискриминации по половому признаку, на практике отвергал резюме женщины. Почему? «Люди, которые знают о своих склонностях и пристрастиях, чаще принимают меры к тому, чтобы с ними бороться», – пояснил Силвер.
3. Изучайте имеющиеся у вас данные и учитывайте возможные варианты перед выдачей прогноза. (Другими словами, выдать точный прогноз погоды в солнечном Сан-Диего гораздо проще, чем в непредсказуемом Буффало.)
Аналогичным образом, прогнозировать состояние экономики в период ее стабильности легче, чем во время краткосрочных подъемов и спадов. Этим можно объяснить неготовность многих специалистов к последней рецессии. В своих прогнозах они отталкивались от данных, собранных в период с 1986-го по 2000 год, когда экономика была на редкость стабильной. «Комплексная и детализированная модель, построенная на нелепых предположениях, не принесет пользы», – отметил Силвер.
4. Метод проб и ошибок полезен. Модели обычно хорошо работают в тех случаях, когда разрабатываются постепенно, с учетом обратной связи. «Как и в обычной жизни, к поразительным результатам здесь следует относиться с подозрением», – подчеркнул Силвер.