Новый алгоритм помогает как в навигации роботов, так и в понимании сцен.

Такой тип повторной идентификации — вторая натура для людей, но для компьютеров это сложно. На конференции IEEE по компьютерному зрению и распознаванию образов в июне исследователи из Массачусетского технологического института представят новый алгоритм, который может значительно упростить задачу за счет определения основных ориентаций в трехмерных сценах.

Тот же алгоритм может также упростить проблему понимания сцены, одну из центральных задач в исследованиях компьютерного зрения.Алгоритм в первую очередь предназначен для помощи роботам в навигации по незнакомым зданиям, а не автомобилистам в незнакомых городах, но принцип тот же. Он работает, определяя доминирующие ориентации в данной сцене, которые он представляет как наборы осей — так называемые «Манхэттенские рамки» — встроенные в сферу.

Когда робот двигался, он, по сути, наблюдал, как сфера вращается в противоположном направлении, и мог определять ее ориентацию относительно осей. Всякий раз, когда он хотел переориентировать себя, он знал, какие лица его ориентиров должны быть обращены к нему, что значительно облегчало их идентификацию.Как оказалось, тот же алгоритм также значительно упрощает задачу сегментации плоскости или решения, какие элементы визуальной сцены лежат в каких плоскостях и на какой глубине.

Сегментация плоскости позволяет компьютеру строить квадратные трехмерные модели объектов сцены, которые он, в свою очередь, может сопоставить с сохраненными трехмерными моделями известных объектов.Джулиан Штрауб, аспирант в области электротехники и информатики Массачусетского технологического института, является ведущим автором статьи. К нему присоединились его советники, Джон Фишер, старший научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института, и Джон Леонард, профессор механики и океанической инженерии, а также Орен Фрейфельд и Гай Росман, оба постдоки в Fisher’s Sensing, Learning. , и группа вывода.

Новый алгоритм исследователей работает с трехмерными данными, полученными с помощью Microsoft Kinect или лазерных дальномеров. Сначала, используя установленные процедуры, алгоритм оценивает ориентацию большого количества отдельных точек сцены.

Затем эти ориентации представляются в виде точек на поверхности сферы, каждая точка определяет уникальный угол относительно центра сферы.Поскольку первоначальная оценка ориентации является приблизительной, точки на сфере образуют рыхлые кластеры, которые может быть трудно различить. Используя статистическую информацию о неопределенности начальных оценок ориентации, алгоритм затем пытается подогнать кадры Манхэттена к точкам на сфере.

Основная идея аналогична регрессионному анализу — поиск линий, которые наилучшим образом аппроксимируют разброс точек. Но это сложно из-за геометрии сферы. «Большая часть классической статистики основана на линейности и евклидовых расстояниях, поэтому вы можете взять две точки, вы можете суммировать их, разделить на два, и это даст вам среднее значение», — говорит Фрайфельд. «Но если вы работаете в нелинейных пространствах, при таком усреднении вы можете выпасть за пределы этого пространства».Рассмотрим, например, пример измерения географических расстояний. «Скажите, что вы в Токио, а я в Нью-Йорке», — говорит Фрайфельд. «Мы не хотим, чтобы наш средний показатель находился в центре Земли; мы хотим, чтобы он находился на поверхности».

Одним из ключей к новому алгоритму является тот факт, что он включает эту геометрию в статистические рассуждения о сцене.В принципе, можно было бы очень точно аппроксимировать точечные данные, используя сотни различных кадров Манхэттена, но в результате получилась бы модель, которая слишком сложна, чтобы быть полезной.

Таким образом, еще одним аспектом алгоритма является функция стоимости, которая сравнивает точность приближения с количеством кадров. Алгоритм начинается с фиксированного количества кадров — где-то от трех до 10, в зависимости от ожидаемой сложности сцены — а затем пытается сократить это количество без ущерба для функции общей стоимости.

Результирующий набор рамок Manhattan может не отображать тонких различий между объектами, которые слегка смещены друг относительно друга, но эти различия не очень полезны для навигационной системы. «Подумайте о том, как вы перемещаетесь по комнате», — говорит Фишер. «Вы не строите точную модель своей среды. Вы как бы собираете некорректную статистику, которая позволяет вам выполнить свою задачу таким образом, чтобы вы не споткнулись о стул или что-то в этом роде».После определения набора кадров Манхэттена проблема сегментации плоскости становится намного проще.

Объекты, которые не занимают большую часть поля зрения — потому что они маленькие, удаленные или закрытые — создают проблемы для существующих алгоритмов сегментации плоскости, потому что они дают так мало информации о глубине, что их ориентация не может быть надежно выведена. . Но если проблема заключается в выборе среди горстки возможных ориентаций, а не в потенциальной бесконечности, она становится гораздо более разрешимой.