Следите за новостями

Цифра дня

34 игровых проекта разработали на Global Game Jam Kazakhstan 2026

    Чтобы идентифицировать человека, достаточно трех транзакций

    Новое исследование показало, что существующие анонимные наборы данных на самом деле не вполне анонимны

    3 февраля 2015 08:20, Computerworld.kz
    Рубрики: Мир

    Всего в трех ключевых документах – чеках за пиццу, кофе и пару джинсов – содержится достаточно информации для того, чтобы отличить транзакции кредитной карты, принадлежащей конкретному человеку, от операций миллионов других людей.

    Результаты исследований, выполненные в Массачусетском технологическом институте и опубликованные в журнале Science, наряду с другими работами демонстрируют, что в случае тщательного анализа наборы данных, кажущиеся на первый взгляд анонимными, на самом деле не могут обеспечить полной конфиденциальности.

    «Если говорить о метаданных кредитных карт, то даже очень небольшого объема информации вполне достаточно для того, чтобы однозначно идентифицировать личность», – отметил один из авторов исследования, Ив-Александр де Монжуа.

    Вместе с коллегами Монжуа проанализировал транзакции кредитных карт, выпущенных одним из крупных банков. В течение трех месяцев 1,1 млн клиентов банка совершили покупки в 10 тыс. магазинах.

    Исследователи пытались выяснить, какой объем данных понадобится им для выделения транзакций какого-то одного конкретного человека из массы других. При этом в данных не было никаких имен, адресов, электронной почты и другой персональной информации.

    В 90% случаев исследователи смогли назвать покупателя, руководствуясь сведениями о месте совершения им четырех покупок. Добавление к ним информации о ценах – например, товарных чеков – позволило идентифицировать человека всего по трем транзакциям.

    А размещение в Instagram фотографии, на которой вы пьете с друзьями кофе, или твита о только что купленном телефоне обеспечивает идентификацию даже по одному чеку.

    «С научной точки зрения основная задача здесь заключается в анализе поведения, – пояснил Монжуа. – Сравнение поступков одного отдельно взятого человека с поведением других людей в конечном итоге позволяет однозначно его идентифицировать».

    При этом исследователи не пытались идентифицировать какую-то конкретную личность, а определяли, сколько данных понадобится в среднем для сужения круга транзакций до одного покупателя.

    «Мы не ставили перед собой цель найти какого-то конкретного человека», – пояснил Монжуа.

    Последние исследования дополнили собой работы, проведенные Монжуа в 2013 году и показавшие, что четырех наборов данных, включающих информацию о месте и времени, в 95% случаев достаточно, чтобы выделить звонки мобильного телефона какого-то одного человека из массы других звонков.

    Исследования выявили несостоятельность правил определения анонимности, диктуемых сегодня регулирующими органами. Считается, что удаление из данных персональных сведений (например, имен и фамилий, а также адресов электронной почты) обеспечивает людям надежную защиту конфиденциальности, но на самом деле это не так.

    «Наше исследование показывает, что этого недостаточно для того, чтобы предотвратить идентификацию», – заявил Монжуа.

    В другом определении анонимности, предлагаемом Евросоюзом, содержится требование невозможности идентификации человека при любых обстоятельствах.

    «Обеспечить соблюдение этого условия очень сложно, – признает Монжуа. – Кроме того, чрезмерная очистка данных может помешать их полезному использованию, например, для изучения привычек потребителей или оценки инфляции. Люди должны знать о потенциальном риске идентификации. Не думаю, что когда-нибудь нам удастся обезопасить себя на 100%, но к этому надо стремиться».