Следите за новостями

Цифра дня

138 тыс. цифровых доверенностей оформлено через «Цифровой нотариат» с момента запуска

    Чтобы идентифицировать человека, достаточно трех транзакций

    Новое исследование показало, что существующие анонимные наборы данных на самом деле не вполне анонимны

    3 февраля 2015 08:20, Computerworld.kz
    Рубрики: Мир

    Всего в трех ключевых документах – чеках за пиццу, кофе и пару джинсов – содержится достаточно информации для того, чтобы отличить транзакции кредитной карты, принадлежащей конкретному человеку, от операций миллионов других людей.

    Результаты исследований, выполненные в Массачусетском технологическом институте и опубликованные в журнале Science, наряду с другими работами демонстрируют, что в случае тщательного анализа наборы данных, кажущиеся на первый взгляд анонимными, на самом деле не могут обеспечить полной конфиденциальности.

    «Если говорить о метаданных кредитных карт, то даже очень небольшого объема информации вполне достаточно для того, чтобы однозначно идентифицировать личность», – отметил один из авторов исследования, Ив-Александр де Монжуа.

    Вместе с коллегами Монжуа проанализировал транзакции кредитных карт, выпущенных одним из крупных банков. В течение трех месяцев 1,1 млн клиентов банка совершили покупки в 10 тыс. магазинах.

    Исследователи пытались выяснить, какой объем данных понадобится им для выделения транзакций какого-то одного конкретного человека из массы других. При этом в данных не было никаких имен, адресов, электронной почты и другой персональной информации.

    В 90% случаев исследователи смогли назвать покупателя, руководствуясь сведениями о месте совершения им четырех покупок. Добавление к ним информации о ценах – например, товарных чеков – позволило идентифицировать человека всего по трем транзакциям.

    А размещение в Instagram фотографии, на которой вы пьете с друзьями кофе, или твита о только что купленном телефоне обеспечивает идентификацию даже по одному чеку.

    «С научной точки зрения основная задача здесь заключается в анализе поведения, – пояснил Монжуа. – Сравнение поступков одного отдельно взятого человека с поведением других людей в конечном итоге позволяет однозначно его идентифицировать».

    При этом исследователи не пытались идентифицировать какую-то конкретную личность, а определяли, сколько данных понадобится в среднем для сужения круга транзакций до одного покупателя.

    «Мы не ставили перед собой цель найти какого-то конкретного человека», – пояснил Монжуа.

    Последние исследования дополнили собой работы, проведенные Монжуа в 2013 году и показавшие, что четырех наборов данных, включающих информацию о месте и времени, в 95% случаев достаточно, чтобы выделить звонки мобильного телефона какого-то одного человека из массы других звонков.

    Исследования выявили несостоятельность правил определения анонимности, диктуемых сегодня регулирующими органами. Считается, что удаление из данных персональных сведений (например, имен и фамилий, а также адресов электронной почты) обеспечивает людям надежную защиту конфиденциальности, но на самом деле это не так.

    «Наше исследование показывает, что этого недостаточно для того, чтобы предотвратить идентификацию», – заявил Монжуа.

    В другом определении анонимности, предлагаемом Евросоюзом, содержится требование невозможности идентификации человека при любых обстоятельствах.

    «Обеспечить соблюдение этого условия очень сложно, – признает Монжуа. – Кроме того, чрезмерная очистка данных может помешать их полезному использованию, например, для изучения привычек потребителей или оценки инфляции. Люди должны знать о потенциальном риске идентификации. Не думаю, что когда-нибудь нам удастся обезопасить себя на 100%, но к этому надо стремиться».