Новая техника удаляет ненужные данные

Для этого программы в этих системах рассчитывают прогнозные отношения на основе огромных объемов данных. Системы идентифицируют эти прогнозные взаимосвязи с помощью усовершенствованных алгоритмов — набора правил для решения математических задач — и «обучающих данных». Эти данные затем используются для построения моделей и функций, которые позволяют системе определять последний бестселлер, который вы хотите прочитать, или прогнозировать вероятность дождя на следующей неделе.

Этот сложный процесс означает, что часть необработанных данных часто проходит в системе серию вычислений. Вычисления и информация, полученные системой из этих данных, вместе образуют сложную сеть распространения, называемую «происхождением» данных.

Этот термин был придуман Иньчжи Цао, доцентом кафедры информатики и инженерии, и его коллегой, Цзюньфэном Яном из Колумбийского университета, которые являются первопроходцами нового подхода к тому, чтобы системы обучения забыли.Учитывая, насколько важна эта концепция для повышения безопасности и защиты конфиденциальности, Цао и Ян полагают, что простое внедрение систем забывания будет пользоваться все большим спросом. Два исследователя разработали способ сделать это быстрее и эффективнее, чем это можно сделать с помощью существующих методов.

Их концепция, получившая название «машинное отучение», настолько многообещающа, что Цао и Ян были награждены четырехлетним грантом Национального научного фонда в размере 1,2 миллиона долларов на разработку этого подхода.«Эффективные системы забывания должны позволять пользователям указывать данные, которые следует забыть, с разными уровнями детализации», — сказал Цао, главный исследователь проекта. «Эти системы должны удалять данные и отменять их последствия, чтобы все будущие операции выполнялись так, как будто данных никогда не существовало».Повышение безопасности и защиты конфиденциальностиСуществует ряд причин, по которым отдельный пользователь или поставщик услуг может захотеть, чтобы система забыла данные и их полное происхождение.

Конфиденциальность — это одно.После того, как Facebook изменил свою политику конфиденциальности, многие пользователи удалили свои учетные записи и связанные с ними данные. Инцидент со взломом фотографий iCloud в 2014 году, когда доступ к сотням личных фотографий знаменитостей был получен через пакет облачных сервисов Apple, привел к появлению в Интернете статей, в которых пользователей учили, как полностью удалять фотографии iOS, включая резервные копии.

Новое исследование показало, что модели машинного обучения для персонализированного дозирования лекарств пропускают генетические маркеры пациентов. Хакерам достаточно лишь небольшого набора статистических данных по генетике и болезням, чтобы идентифицировать конкретных людей, несмотря на механизмы маскировки.Естественно, пользователи, недовольные этими вновь обнаруженными рисками, хотят, чтобы их данные и их влияние на модели и статистику были полностью забыты.

Безопасность — еще одна причина. Рассмотрим системы обнаружения вторжений на основе аномалий, используемые для обнаружения вредоносного программного обеспечения. Чтобы точно идентифицировать атаку, систему необходимо научить распознавать нормальную активность системы. Поэтому безопасность этих систем зависит от модели нормального поведения, извлеченной из обучающих данных.

Загрязняя обучающие данные, злоумышленники загрязняют модель и ставят под угрозу безопасность. После выявления загрязненных данных система должна полностью забыть данные и их происхождение, чтобы восстановить безопасность.Широко используемые системы обучения, такие как Google Search, по большей части способны забыть необработанные данные пользователя, а не их происхождение, только по запросу.

Это проблематично для пользователей, которые хотят обеспечить полное удаление любых следов нежелательных данных, а также для поставщиков услуг, у которых есть сильные стимулы выполнять запросы на удаление данных и сохранять доверие клиентов.Поставщики услуг будут все больше нуждаться в возможности полностью удалять данные и их происхождение в соответствии с законами, регулирующими конфиденциальность данных пользователей, такими как постановление о «праве на забвение», вынесенное в 2014 году верховным судом Европейского Союза.

В октябре 2014 года Google удалил более 170 000 ссылок в соответствии с постановлением, которое подтвердило право пользователей контролировать то, что появляется при поиске по их именам. В июле 2015 года Google сообщил, что получил более четверти миллиона таких запросов.Разрушение зависимостей

Основываясь на работе, которая была представлена на симпозиуме IEEE 2015 и затем опубликована, метод «машинного отучения» Цао и Янга основан на том факте, что большинство обучающих систем можно преобразовать в форму, которую можно постепенно обновлять без дорогостоящей переподготовки с нуля.Их подход вводит слой небольшого количества суммирований между алгоритмом обучения и обучающими данными, чтобы исключить зависимость друг от друга.

Таким образом, алгоритмы обучения зависят только от суммирования, а не от индивидуальных данных. Используя этот метод, для отмены изучения фрагмента данных и его происхождения больше не требуется перестраивать модели и функции, которые предсказывают отношения между частями данных. Простое повторное вычисление небольшого количества суммирований полностью удалит данные и их происхождение — и намного быстрее, чем при повторном обучении системы с нуля.

Цао считает, что он и Ян первыми установили связь между отучением и формой суммирования.И это работает. Цао и Ян протестировали свой подход к отказу от обучения на четырех различных реальных системах: LensKit, рекомендательная система с открытым исходным кодом; Zozzle, детектор вредоносных программ JavaScript с закрытым исходным кодом; спам-фильтр OSN с открытым исходным кодом; и PJScan, детектор вредоносных программ для PDF-файлов с открытым исходным кодом.

Успех этих первоначальных оценок заложил основу для следующих этапов проекта, которые включают адаптацию техники к другим системам и создание поддающейся проверке машины, отменивающей обучение, чтобы статистически проверить, действительно ли отмена обучения восстановила систему или полностью удалила ненужные данные.Во введении к своей статье Цао и Ян говорят, что «машинное разучивание» может сыграть ключевую роль в повышении безопасности и конфиденциальности и в нашем экономическом будущем:«Мы предвидим легкое внедрение систем забывания, потому что они приносят пользу как пользователям, так и поставщикам услуг. Благодаря гибкости, позволяющей запрашивать, чтобы системы забыли данные, пользователи имеют больший контроль над своими данными, поэтому они более охотно делятся данными с системами.

Также больше данных приносят пользу поставщикам услуг, потому что у них больше возможностей для получения прибыли и меньше юридических рисков.«Мы предполагаем, что системы забывания играют решающую роль на развивающихся рынках данных, где пользователи обменивают данные на деньги, услуги или другие данные, потому что механизм забывания позволяет пользователю полностью отменить транзакцию с данными или сдать в аренду права на использование своих данных, не давая до владения ".