Исследователи помогают организаторам Бостонского марафона спланировать гонку 2014 года

Одна из проблем, с которыми они столкнулись, заключалась в том, что делать с почти 6000 бегунами, которые не смогли завершить гонку 2013 года. Бостонская спортивная ассоциация, организаторы мероприятия, быстро пообещала предоставить официальное время финиша для этих бегунов.

Забегая вперед, они также должны были подумать о том, как предоставить этим бегунам возможность квалифицироваться на гонку 2014 года.Чтобы получить совет по этим вопросам, они связались с Ричардом Смитом, статистиком и марафонцем из Университета Северной Каролины в Чапел-Хилл и директором Института статистических и прикладных математических наук (SAMSI), базирующегося в Research Triangle Park, NC. Они спросили Смита. придумать статистическую процедуру для прогнозирования вероятного времени финиша каждого бегуна на основе их темпа до последней контрольной точки, прежде чем им пришлось остановиться.«Как только я получил их электронную почту, — сказал Смит, — я, конечно, понял, что должен им помочь».

Смит уже знал организаторов, так как ранее он давал советы относительно времени проведения квалификационных соревнований.Смит быстро собрал команду аналитиков, в которую вошли Франческа Доминичи и Джованни Пармиджани из Гарвардской школы общественного здравоохранения и Дорит Хаммерлинг, научный сотрудник SAMSI, которые участвовали в гонке 2013 года и финишировали без травм.

В команду также входили Мэтью Чефалу из Гарвардской школы общественного здравоохранения; Джесси Сисевски, Университет Карнеги-Меллона, и Чарльз Полсон, Puffinware LLC.Результаты и метод, разработанный исследователями, были опубликованы в выпуске PLOS ONE от 11 апреля.

С помощью Бостонской спортивной ассоциации исследователи создали набор данных, состоящий из всех бегунов в гонке 2013 года, которые достигли середины дистанции, но не смогли финишировать, и всех бегунов из Бостонских марафонов 2010 и 2011 годов. Данные состоят из «временного отрезка» для каждого из 5-километровых участков дистанции (от начала до 40 км) и последних 2,2 км. Перед исследовательской группой была поставлена ​​задача спрогнозировать недостающее промежуточное время для бегунов, которые не смогли финишировать в 2013 году.

Исследователи адаптировали методы, используемые в таких контекстах, как вычисление недостающих данных в экспериментах с ДНК-микрочипами и оценка оценок, которые подписчики Netflix дали бы фильмам, которые они не смотрели. Они предложили пять методов прогнозирования и создали набор проверочных данных для измерения производительности бегунов с помощью среднеквадратичной ошибки и других показателей. Из пяти методов, которые работали лучше всего, использовалась локальная регрессия на основе алгоритма K-ближайших соседей (метод KNN), хотя несколько других методов дали результаты аналогичного качества.Метод KNN рассматривает каждого из бегунов, которые не завершили забег (DNF), и находит набор бегунов для сравнения, которые закончили гонку в 2010 и 2011 годах, чьи промежуточные времена были похожи на бегуна DNF до момента, когда он или она покинул гонку.

Этих бегунов называют «ближайшими соседями».«Мы должны были придумать метод для сравнения бегунов на основе точек разделения до определенного момента забега, а затем должны были решить, сколько ближайших соседей исследовать, чтобы разработать прогноз для бегуна DNF, который будет основываться на разном времени финиша этих ближайших соседей », — сказал Смит, который в прошлом участвовал в Бостонском марафоне и будет участвовать в гонке в этом году. «Мы решили выбрать 200 ближайших соседей. Мы также попробовали 100 и 300 ближайших соседей, но результаты изменились незначительно и не улучшили их».Бостонская спортивная ассоциация решила предоставить доступ к гонке 2014 года всем, кто не смог завершить соревнование 2013 года, чтобы у них все же был шанс завершить Бостонский марафон.

Но в процессе разработки метода Смит и его коллеги поняли, что у этой техники есть и другие применения.«Мы обнаружили, что использование метода KNN, учитывающего промежуточное промежуточное время бегуна, также будет полезно для прогнозирования времени завершения бега во время бега», — сказал Смит. «Это может быть полезно для родственников и друзей, если они смогут встретить человека на финише».