THE ALGORITHM FOR DETERMINING THE POSITION AND ORIENTATION OF THREE-DIMENSIONAL OBJECTS FROM VIDEO IMAGES ON THE BASIS OF A PROBABILISTIC APPROACH

Задача автоматического определения положения и ориентации трехмерных объектов с использованием систем технического зрения актуальна в таких областях, как контроль технологических процессов в промышленности, охранные системы, человеко-машинное взаимодействие, навигация транспортных средств, индустрия развлечений и т.д. Решение этой задачи в автоматическом режиме позволит обеспечить автономность функционирования систем, повысить точность контроля, увеличить производительность работы, снизить затраты на подготовительные операции и обслуживание.

Целью работы является разработка и исследование алгоритма автоматического определения положения и ориентации трехмерного объекта по видеоизображениям. Смысл предлагаемого подхода в том, чтобы сократить пространство поиска за счет определения на начальном этапе приближенных значений положения и ориентации объекта. Это осуществляется с использованием метода максимального правдоподобия.

Обзор методов определения положения и ориентации объектов в пространстве

В настоящее время все подходы к определению положения и ориентации трехмерных объектов в пространстве можно разделить на две группы: неоптические и оптические [7]. К неоптическим технологиям относятся электромагнитные, механические, инерционные, акустические и гибридные [7].

В электромагнитных системах используются магниты, размещенные на объекте. Система рассчитывает позиции по искажениям магнитного потока. Недостатками подобных систем являются зависимость от магнитных и электрических помех, переменчивая чувствительность сенсоров в зависимости от положения, ограниченное рабочее пространство.

В механических системах используется каркас, который крепится к объекту. Движение составных частей объекта приводит в движение элементы каркаса. В этом случае анализируются углы между скелетными элементами каркаса. Однако перемещение всего объекта в пространстве механическая система фиксировать не способна.

Инерциальные системы для сбора информации о движении используют гироскопы, расположенные на объекте. Система определяет не только положение сенсора, но также угол его наклона. Инерционные системы устойчивы к помехам различного рода, но дрейф во время движения приводит к накоплению ошибки.

Акустические системы используют датчики, которые формируют сигнал. Приемники, установленные на некотором расстоянии, измеряют время полета переданного сигнала. Акустические системы восприимчивы к помехам окружающей среды. Также имеются ограничения, связанные с количеством одновременно используемых устройств, размером рабочего пространства. Гибридные системы для повышения эффективности могут использовать в своем составе несколько технологий.

Оптические методы основаны на использовании маркерных и безмаркерных принципов. Маркерные оптические системы бывают пассивными и активными. Оптические пассивные маркерные системы используют датчики, которые отражают падающий на них свет. В оптических активных системах свет испускается самими маркерами.

Вышеописанные технологии требуют использования специальных датчиков, средств сопряжения с блоками приема и обработки данных, ограниченным рабочим пространством. Основным недостатком рассмотренных методов при использовании в специализированных системах является невозможность применения датчиков при постоянном наблюдении множества сцен, что существенно ограничивает их применение. Безмаркерные оптические методы являются наиболее перспективными с точки зрения простоты использования и универсальности. Поэтому важна разработка методов и программных средств определения положения и ориентации объектов с использованием безмаркерных оптических методов.

Вопросы распознавания на основе пассивных оптических методов в настоящее время изучены недостаточно. Использование компьютерного зрения ограничено следующими факторами наблюдения: наличием шумовых и оптических эффектов, изменяющимся фоном, эффектами резкой смены освещения, взаимным перекрытием объектов в сцене. Кроме того, при реализации систем существуют неопределенности, связанные с выделением информативных признаков объекта, так как двумерное изображение не обладает полнотой информации о свойствах трехмерного объекта. Поэтому для реализации подхода необходимо использовать заранее предопределенную информацию о структуре сцены и условиях получения изображения.

Безмаркерные оптические методы определения положения и ориентации объекта принято делить на трекеры и детекторы [4]. Трекеры отслеживают состояние объекта от кадра к кадру. Детекторы определяют положение объекта в текущем кадре без учета состояния в предыдущих кадрах. Применение конкретного безмаркерного оптического метода зависит от условий наблюдения сцены. Подходы, использующие контуры, лучше применять в тех случаях, когда изображение визуальной обстановки получено в градациях серого цвета, на снимках можно достаточно четко выделить края объекта, присутствуют эффекты резкой смены освещения [5, 8]. Если объекты имеют выраженную текстуру, сцена хорошо освещена, видимое пространство небольшое, то лучше использовать методы оптического потока [1]. Методы детектирования часто используют точки интереса. Однако методы на основе использования точек интереса чувствительны к изменению освещения и хорошо подходят для цветных изображений [2, 3, 6].

Алгоритм определения положения и ориентации трехмерных объектов по видеоизображениям на основе вероятностного подхода

Входными данными для описания структуры сцены являются видеоизображения. При анализе используется описание трехмерных объектов на основе комплексной информации о форме элементов, взаимном положении примитивов в пространстве, пропорциях, яркостных характеристиках фона сцены.

Для реализации алгоритма необходимо обучение системы, в результате которого будет сформирован набор изображений объекта в различных положениях. Происходит съемка объекта из различных положений. Предполагается, что камера перемещается по окружности, в центре которой располагается объект. Съемка производится через одинаковые угловые расстояния (рис. 1).

pic_23.wmf

Рис. 1. Получение изображений объекта с изменением угла вращения камеры вокруг центральной оси объекта

Для распознавания объекта необходимо выделить признаки на изображении. Например, если рассматриваемый объект представляет собой параллелепипед, то на изображении он представлен видимыми гранями. Таким же образом можно провести декомпозицию изображения реального объекта. Для этой задачи используются глобальные дескрипторы изображения – гистограммы ориентированных градиентов (HOG). Множество HOG-дескрипторов, локализованных в одном регионе, позволяет судить о конкретной части объекта. Выделим в каждом регионе центр. Совокупность выделенных таким образом точек будет характеризовать положение и ориентацию объекта (рис. 2).

При нахождении соответствий рассматриваются выделенные области на изображении-эталоне и на анализируемом изображении. Для нахождения соответствий предлагается использовать алгоритм ожидания-максимизации (Expectation-maximization, EM). Алгоритм позволяет итеративно вычислять значение максимального правдоподобия при наличии скрытых данных. Основная идея алгоритма заключается в задании модели для некоторого набора данных и многократном вычислении параметров. Вычисление максимального правдоподобия позволяет оценить параметры модели, для которых наблюдаемые данные являются наиболее вероятными. EM-алгоритм итеративно выполняется в два этапа. На первом шаге (ожидание) отсутствующая информация вычисляется с учетом наблюдаемых данных и текущих параметров модели. На втором шаге (максимизация) функция правдоподобия достигает максимума при условии, что отсутствующие данные известны. На этапе максимизации алгоритм использует текущие значения отсутствующих данных. Для обеспечения сходимости EM-алгоритма должна увеличиваться вероятность на каждой итерации.

pic_24.tif

Рис. 2. Выделение характерных точек на изображении

В нашем случае изображение формы объекта представлено точечным множеством произвольного размера. Порядок точек не имеет значения. Получаем два множества точек zahar01.wmf и zahar02.wmf , M ≠ N. Задача состоит в нахождении соответствий между X и Y. Предположим, что yn представляют собой наблюдения с моделью смеси:

zahar03.wmf (1)

zahar04.wmf (2)

где vb – компонент смеси, представляющий «модель фона», которая позволяет учитывать возможность выбросов; vf – компонент смеси, который описывает распознаваемые объекты.

Изменение положения объекта описывается параметрами: s – параметр масштабирования; D – матрица поворота; t ∈ R2 – вектор переноса.

Назначим равную вероятность для каждого компонента смеси p(m) = 1/M. Это предотвращает соответствие одного объекта изображения нескольким объектам другого изображения.

Оценки максимального правдоподобия для других параметров модели s, D, t и p(v) находятся с помощью EM-алгоритма. Алгоритм в этом случае имеет следующий вид.

E-шаг. Вычислить выражение, используя текущие значения параметров:

zahar05.wmf (3)

М-шаг. Обновить параметры:

zahar06.wmf (4)

zahar07.wmf (5)

zahar08.wmf (6)

Формула (6) описывает задачу нахождения соответствий между двумя точечными множествами размерами N и М. Степень соответствия пары (xm, yn) задается величиной zahar09.wmf .

Исследование алгоритма

Исследование алгоритма проводилось на тестовых изображениях (рис. 3). Для обучения системы была произведена съемка объекта с угловым расстоянием 10 градусов. Таким образом, было получено 36 кадров. На каждом снимке были выделены координаты опорных точек. Условием работоспособности алгоритма является успешное распознавание каждого положения объекта в интервале ±10 градусов.

pic_25.tif

Рис. 3. Тестовые изображения объекта

pic_26.wmf

Рис. 4. Результаты определения угла поворота объекта: a – определение положения с помощью одного вида (ряд 1); б – определение положения с помощью двух видов (ряд 2)

Положение и ориентация объекта оценивались вначале на основе одиночного изображения. Исследование алгоритма проводится с объектом, который вращается вокруг одной из координатных осей на 360 градусов. В общей сложности было сделано около 100 снимков объекта. Расстояние от камеры до объекта для всех снимков одинаковое. Была измерена абсолютная погрешность определения ориентации объекта. Следует отметить, что ряд результатов имеет ошибку ориентации 180 градусов, что может быть объяснено симметричностью объекта.

Процент правильно распознанных положений объекта при использовании одиночного изображения составляет около 40 % (рис. 4, а). При использовании двух видов при распознавании эта величина увеличивается до 75 % (рис. 4, б).

Таким образом, при использовании двух видов в большинстве случаев абсолютная погрешность определения угла поворота объекта не превышает 10 градусов. Поэтому алгоритм можно использовать для определения приближенного угла поворота объекта.

Заключение

В работе представлен алгоритм для определения положения и ориентации объектов по изображениям на основе вероятностного подхода. Подход основан на использовании EM-алгоритма и позволяет итеративно оценивать параметры проекции трехмерной модели на плоскости изображения. Проведенные эксперименты показывают, что алгоритм способен восстанавливать угол поворота объекта в пределах ±10 градусов. В дальнейшем предполагается усовершенствовать алгоритм для более точного определения положения и ориентации на основе вычисления параметров линейных признаков объекта на изображении.

Работа выполнена при поддержке гранта РФФИ 13-07-97523, задания № 2014/13 на выполнение государственных работ в сфере научной деятельности в рамках базовой части государственного задания Минобрнауки России.

Рецензенты:

Жизняков А.Л., д.т.н., профессор, первый зам. директора, МИ (ф) ВлГУ, г. Муром;

Орлов А.А., д.т.н., доцент, зав. кафедрой физики и прикладной математики, МИ (ф) ВлГУ, г. Муром.

Работа поступила в редакцию 06.11.2014.

Scientific journal
Fundamental research

ISSN 1812-7339

"Перечень" ВАК

ИФ РИНЦ = 1,674

THE ALGORITHM FOR DETERMINING THE POSITION AND ORIENTATION OF THREE-DIMENSIONAL OBJECTS FROM VIDEO IMAGES ON THE BASIS OF A PROBABILISTIC APPROACH

Fundamental research
Scientific journal | ISSN 1812-7339 | Certificate - PI №77-15598