Автоматизация анализа больших данных: система, заменяющая человеческую интуицию алгоритмами, превосходит 615 из 906 человеческих команд

Исследователи Массачусетского технологического института стремятся исключить человеческий фактор из анализа больших данных с помощью новой системы, которая не только ищет шаблоны, но и разрабатывает набор функций. Чтобы протестировать первый прототип своей системы, они зарегистрировали его в трех соревнованиях по науке о данных, в которых он соревновался с командами людей, чтобы найти предсказательные закономерности в незнакомых наборах данных. Из 906 команд, участвовавших в трех соревнованиях, "Data Science Machine" исследователей опередила 615.

В двух из трех соревнований прогнозы, сделанные Data Science Machine, были на 94% и 96% такими же точными, как и результаты победителей. В третьем — более скромные 87 процентов. Но там, где группы людей обычно месяцами трудились над своими алгоритмами прогнозирования, Data Science Machine требовала от двух до 12 часов, чтобы создать каждую из своих записей.«Мы рассматриваем Data Science Machine как естественное дополнение к человеческому интеллекту, — говорит Макс Кантер, чья диссертация по информатике в Массачусетском технологическом институте легла в основу Data Science Machine. «Существует так много данных, которые нужно проанализировать.

А сейчас они просто сидят и ничего не делают. Так что, возможно, мы сможем придумать решение, которое, по крайней мере, поможет нам начать работу с ним, по крайней мере, заставит нас двигаться».Между линиями

Кантер и его научный руководитель Калян Верамачанени, научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), описывают Data Science Machine в документе, который Кантер представит на следующей неделе на Международной конференции IEEE по науке о данных и передовой аналитике.Веерамачанени является со-руководителем группы Anyscale Learning for All в CSAIL, которая применяет методы машинного обучения к практическим задачам анализа больших данных, таким как определение мощности выработки электроэнергии ветряных электростанций или прогнозирование учащихся, которым грозит отказ от обучения. вне онлайн-курсов.

«На основе нашего опыта решения ряда задач науки о данных для промышленности мы заметили, что один из очень важных шагов называется функциональной инженерией», — говорит Верамачанени. «Первое, что вам нужно сделать, это определить, какие переменные нужно извлечь из базы данных или составить, и для этого вам нужно придумать множество идей».При прогнозировании отсева, например, оказались два важных показателя: сколько времени до крайнего срока студент начинает работать над набором задач и сколько времени студент проводит на веб-сайте курса по сравнению со своими одноклассниками.

Платформа онлайн-обучения Массачусетского технологического института MITx не записывает ни одну из этих статистических данных, но собирает данные, из которых они могут быть выведены.Избранный состав

Кантер и Веерамачанени используют пару уловок для создания функций-кандидатов для анализа данных. Один из них — использовать структурные взаимосвязи, присущие дизайну базы данных.

Базы данных обычно хранят разные типы данных в разных таблицах, указывая на корреляции между ними с помощью числовых идентификаторов. Data Science Machine отслеживает эти корреляции, используя их как подсказку для построения функций.Например, в одной таблице могут быть перечислены розничные товары и их стоимость; другой может перечислять товары, включенные в покупки отдельных клиентов. Data Science Machine начнет с импорта затрат из первой таблицы во вторую.

Затем, руководствуясь ассоциацией нескольких различных элементов во второй таблице с одним и тем же номером покупки, он будет выполнять набор операций для создания функций-кандидатов: общая стоимость за заказ, средняя стоимость за заказ, минимальная стоимость за заказ и скоро. По мере того, как числовые идентификаторы распространяются по таблицам, Data Science Machine накладывает операции друг на друга, находя минимумы средних, средние суммы и т. Д.Он также ищет так называемые категориальные данные, которые, по-видимому, ограничены ограниченным диапазоном значений, например днями недели или названиями брендов.

Затем он генерирует дополнительные кандидаты в функции, разделяя существующие функции по категориям.Создав массив кандидатов, он сокращает их количество, определяя те, чьи значения кажутся коррелированными.

Затем он начинает тестировать свой сокращенный набор функций на выборочных данных, рекомбинируя их различными способами, чтобы оптимизировать точность получаемых прогнозов.