Чтобы идентифицировать человека, достаточно трех транзакций
Новое исследование показало, что существующие анонимные наборы данных на самом деле не вполне анонимны
Всего в трех ключевых документах – чеках за пиццу, кофе и пару джинсов – содержится достаточно информации для того, чтобы отличить транзакции кредитной карты, принадлежащей конкретному человеку, от операций миллионов других людей.
Результаты исследований, выполненные в Массачусетском технологическом институте и опубликованные в журнале Science, наряду с другими работами демонстрируют, что в случае тщательного анализа наборы данных, кажущиеся на первый взгляд анонимными, на самом деле не могут обеспечить полной конфиденциальности.
«Если говорить о метаданных кредитных карт, то даже очень небольшого объема информации вполне достаточно для того, чтобы однозначно идентифицировать личность», – отметил один из авторов исследования, Ив-Александр де Монжуа.
Вместе с коллегами Монжуа проанализировал транзакции кредитных карт, выпущенных одним из крупных банков. В течение трех месяцев 1,1 млн клиентов банка совершили покупки в 10 тыс. магазинах.
Исследователи пытались выяснить, какой объем данных понадобится им для выделения транзакций какого-то одного конкретного человека из массы других. При этом в данных не было никаких имен, адресов, электронной почты и другой персональной информации.
В 90% случаев исследователи смогли назвать покупателя, руководствуясь сведениями о месте совершения им четырех покупок. Добавление к ним информации о ценах – например, товарных чеков – позволило идентифицировать человека всего по трем транзакциям.
А размещение в Instagram фотографии, на которой вы пьете с друзьями кофе, или твита о только что купленном телефоне обеспечивает идентификацию даже по одному чеку.
«С научной точки зрения основная задача здесь заключается в анализе поведения, – пояснил Монжуа. – Сравнение поступков одного отдельно взятого человека с поведением других людей в конечном итоге позволяет однозначно его идентифицировать».
При этом исследователи не пытались идентифицировать какую-то конкретную личность, а определяли, сколько данных понадобится в среднем для сужения круга транзакций до одного покупателя.
«Мы не ставили перед собой цель найти какого-то конкретного человека», – пояснил Монжуа.
Последние исследования дополнили собой работы, проведенные Монжуа в 2013 году и показавшие, что четырех наборов данных, включающих информацию о месте и времени, в 95% случаев достаточно, чтобы выделить звонки мобильного телефона какого-то одного человека из массы других звонков.
Исследования выявили несостоятельность правил определения анонимности, диктуемых сегодня регулирующими органами. Считается, что удаление из данных персональных сведений (например, имен и фамилий, а также адресов электронной почты) обеспечивает людям надежную защиту конфиденциальности, но на самом деле это не так.
«Наше исследование показывает, что этого недостаточно для того, чтобы предотвратить идентификацию», – заявил Монжуа.
В другом определении анонимности, предлагаемом Евросоюзом, содержится требование невозможности идентификации человека при любых обстоятельствах.
«Обеспечить соблюдение этого условия очень сложно, – признает Монжуа. – Кроме того, чрезмерная очистка данных может помешать их полезному использованию, например, для изучения привычек потребителей или оценки инфляции. Люди должны знать о потенциальном риске идентификации. Не думаю, что когда-нибудь нам удастся обезопасить себя на 100%, но к этому надо стремиться».