Исследование применяет теорию игр к геномной конфиденциальности

Соглашения об использовании данных, предусматривающие штрафы за попытку повторной идентификации участников, могут быть сдерживающим фактором, но вряд ли являются гарантией конфиденциальности. Геномные данные могут быть частично подавлены по мере их выпуска, устраняя уязвимости и делая отдельные записи нераспознаваемыми, но подавление быстро портит научную полезность набора данных.

Новое исследование Университета Вандербильта представляет неортодоксальный подход к повторной идентификации риска, показывая, как можно найти оптимальный компромисс между риском и научной полезностью, когда геномные данные будут переданы для исследований.Исследование опубликовано в Американском журнале генетики человека.

Кандидат в доктора наук Чжию Ван, доктор философии Брэдли Малин и его коллеги используют теорию игр для моделирования поведения потенциальных противников конфиденциальности данных и показывают, как объединение соглашений об использовании данных с более конфиденциальной политикой подавления данных, подобной скальпелю, может предоставлять больше свободы действий и контроля по мере публикации данных. Их структура может использоваться для подавления достаточного количества геномных данных, чтобы убедить потенциальных наблюдателей в том, что их лучшие атаки на конфиденциальность будут убыточными."Эксперты в области конфиденциальности склонны предполагать худший вариант развития событий: злоумышленник с неограниченными возможностями и не боится финансовых потерь.

Но в реальном мире этого может не случиться, поэтому вы склонны переоценивать риск и ничего не делиться, "Сказал Ван. «Мы разработали подход, который дает лучшую оценку риска».Малин согласен с тем, что неспособность разобраться в реальных сценариях риска может помешать обмену геномными данными.«Исторически сложилось так, что люди утверждали, что слишком сложно представлять противников конфиденциальности.

Но теоретическая точка зрения игры гласит, что на самом деле вам просто нужно представить все способы, которыми люди могут взаимодействовать друг с другом при выпуске данных, и если вы можете это сделать, тогда вы увидите решение. Вы моделируете то, что происходит в реальном мире, и вопрос лишь в том, правильно ли вы представили правила игры », — сказал Малин, доцент кафедры биомедицинской информатики.

Биостатистика и информатика.На сегодняшний день никто не подвергся судебному преследованию за посягательство на конфиденциальность обезличенных геномных данных.

Тем не менее, эксперты по конфиденциальности предполагают, что по мере выпуска обезличенных данных происходит соревнование компьютеризированных алгоритмов, при этом алгоритмы конфиденциальности патрулируют крепостные стены, в то время как гнусные алгоритмы повторной идентификации пытаются масштабировать их.Атаки повторной идентификации имели место, но, согласно более раннему исследованию Малина и его коллег, преступники, по-видимому, руководствуются любопытством и академическим прогрессом, а не преступными корыстными интересами. Они сидят за компьютерами, так сказать, в коридоре, подавляя меры по деидентификации вашего набора данных, а затем публикуют научную статью, в которой рассказывается, как они это сделали. Все очень бескровно и вежливо.

Новое исследование представляет собой нечто иное, более сложное, рассматривает алгоритмы обмена данными и конфиденциальности в реальном мире, где люди попадают в тюрьму или штрафуются за нарушения. Здесь предполагаемый злоумышленник не носит повязки на локтях, не пользуется поддержкой правительства и просто пытается заработать на незаконной продаже частной информации.Записи обезличенных генотипов связаны с обезличенной медицинской, биометрической и демографической информацией.

В том, что в исследовании называется «игрой», предполагается, что злоумышленник уже имеет некоторые данные по именованному генотипу и попытается сопоставить эти идентифицированные данные с записями деидентифицированного генотипа по мере публикации данных исследования.

Чтобы вывести этих потенциальных злоумышленников из тени, авторы представляют подробное тематическое исследование, включающее публикацию данных о генотипах примерно 8000 пациентов. Они кропотливо назначают незаконное экономическое вознаграждение за криминальную повторную идентификацию данных исследований. Основываясь на затратах на создание данных, они также приписывают экономическую ценность научной полезности данных исследований.На пути к оценке риска и затрат злоумышленника авторы оценивают вероятность того, что любая указанная индивидуальная запись генотипа, уже имеющаяся у злоумышленника, будет включена в набор обезличенных данных, который планируется опубликовать; по мнению авторов, этой ключевой оценкой часто пренебрегают при повторных оценках риска.

Авторы измеряют полезность геномных данных исследования с точки зрения частот генетических вариантов: для данного варианта тем больше разница между его частотой в исследуемой группе и его частотой в общей популяции (на основе имеющихся справочных данных), тем больше его научная полезность. Такой подход к полезности недавно восторжествовал, когда Ван и Малин выиграли конкурс iDASH Healthcare Privacy Protection Challenge в 2016 году. Их алгоритм победы лучше всех показал научную полезность набора геномных данных и предотвратил атаку на конфиденциальность.Для любого набора геномных данных, прежде чем какие-либо данные будут опубликованы в начале игры, участник совместного использования может использовать игру для сравнения различных политик совместного использования данных с точки зрения риска и полезности.

В данном тематическом исследовании политика теории игр обеспечивает лучшую отдачу для участника, значительно превосходя традиционную политику подавления данных и вытесняя политику соглашения об использовании данных.Независимо от того, где установлены параметры в отношении незаконного финансового вознаграждения или информации, которая может быть использована злоумышленником, авторы показывают, что теоретико-игровой подход обычно обеспечивает наилучшую отдачу для участника.

Они обрисовывают в общих чертах, как их подход может помочь в получении данных из других источников, включая предстоящую инициативу федерального правительства по прецизионной медицине.