DeepMind научили преобразовывать картинки в 3D-объекты. 21.by

DeepMind научили преобразовывать картинки в 3D-объекты

15.06.2018 13:22 — Разное |  
Размер текста:
A
A
A

Источник материала:

Принадлежащая Google компания по разработке искусственного интеллекта DeepMind представила алгоритм машинного зрения нового типа, который способен преобразовывать плоские картинки в объёмные 3D-модели, пишет VentureBeat.

Нейросеть Generative Query Network (GQN), о которой компания рассказала в научном журнале Science, умеет «представлять» и отрисовывать сцены с любого угла без какой-либо помощи или предшествующей тренировки со стороны человека. Алгоритму дают лишь несколько изображений композиции — например, обклеенной обоями комнаты с цветным шаром на полу, — на основе которых он восстанавливает невидимые стороны объектов и строит объёмную модель с нескольких точек наблюдения, при этом учитывая даже нюансы вроде освещения в тени.

Цель алгоритма — научиться воспринимать окружение и физическое взаимодействие между объектами подобно мозгу человека, а также избавить ИИ-исследователей от необходимости комментировать изображения в датасетах — для большинства систем распознавания приходится подписывать каждую деталь каждого объекта в каждой сцене датасета, что достаточно трудоёмко и затратно.

Лабиринт, созданный нейросетью DeepMind на основе статических изображений

Система включает две модели: репрезентативную и генеративную. Первая принимает вводные данные и преобразует в математический вид (вектор), описывающий сцену, а вторая изображает эту сцену. Для обучения системы исследователи DeepMind вводили картинки с разных углов зрения, на которых она самостоятельно изучала текстуры, цвета и освещение объектов по отдельности, а также их взаимное расположение в пространстве. Далее она предсказывала, как эти объекты могли бы выглядеть с противоположной стороны.

На основе понимания пространства сеть способна контролировать объекты. Например, поднять мяч с помощью виртуальной роботизированной руки. Перемещаясь по сцене она также сама исправляет ошибки и корректирует неверные предположения.

Интерактивный 3D-объект, созданный на основе 2D-изображений

GQN имеет и некоторые ограничения: пока её тестировали на простых сценах с малым количеством объектов. Кроме этого, она ещё не способна создавать сложные 3D-визуализации. Однако в DeepMind уже работают над более продвинутыми и экономными системами, а также фреймворками для обработки картинок с более высоким разрешением.

 
 
Чтобы разместить новость на сайте или в блоге скопируйте код:
На вашем ресурсе это будет выглядеть так
Принадлежащая Google компания по разработке искусственного интеллекта DeepMind представила алгоритм машинного зрения нового типа, который способен преобразовывать...
 
 
 

РЕКЛАМА

Архив (Разное)

РЕКЛАМА


Яндекс.Метрика