Global VS Rolling shutter. “мегапиксели в секунду”

Из статьи опубликованной в Embedded.com Design Line EE Times’ в сентябре 2014 года.
На сегодняшний день мы уже убедились в прогрессивном росте фотографии и цифрового зрения, а так же знаем примерные ограничения вычислительных решений по передаче данных в современных оптических сенсорах.
Но, новые многообещающие возможности растут с каждым днём, несмотря на некоторые основные проблемы.
Размер пикселей датчика быстро приближается к длине волны света, оставляя ограниченную возможность снизить затраты за счет дальнейшего сокращающихся пикселей, а пиксель основной строительный блок датчика изображения.
В данной статье рассматриваются некоторые из новых архитектур кремния в виде оптимизированных и инновационных процессоров и датчиков, позволяющих иметь дополнительные возможности.

Количественное определение проблемы.
Компьютерное зрение является богатым источником для извлечения информации. В то же время также сложно извлекать релевантную информацию с этого носителя. Некоторые неврологи подсчитали, что человеческий мозг использует более 60% своей способности к обработке зрения. Существует множество элементов, которые способствуют усложнению зрения, включая объем данных, предварительную обработку изображений и их очистку, анализ изображений и принятие решений.
Значительный объем данных, полученных в каждом неподвижном изображении и видеопотоке, является значительным. По данным отраслевых экспертов, в ближайшие два года камера сотового телефона, направленная наружу, будет собирать в среднем более 12 миллионов пикселей на изображение. Многие из этих камер также захватывают видео со скоростью 15 кадров в секунду со скоростью 12 миллионов пикселей на кадр или 30 кадров в секунду при разрешении высокой четкости (приблизительно 2,1 миллиона пикселей на кадр), что означает, что эти камеры генерируют почти 200 миллионов пикселей в секунду.


Рисунок 1: Предполагается, что почти половина всех сотовых телефонов, выпущенных в 2014 году, имеют камеры с разрешением не менее 8 Мпикселей (предоставлено OmniVision Technologies).

Появившиеся мобильные телефоны скоро смогут записывать видео с разрешением 4К. UHD, которое составляет более 8 миллионов пикселей на кадр при 30 кадрах или даже больше – в секунду или не менее 240 миллионов пикселей в секунду. Интерес к более высоким частотам кадров для захвата быстрых движений и создания замедленных видеоклипов почти наверняка увеличит эту скорость передачи данных еще больше.

По мере того как эти значения пикселей собираются, ISP с фиксированным контуром ((image signal processor)процессор сигналов изображения), расположенный либо внутри датчика изображения, либо рядом с ним, выполняет обработку изображения, которая в значительной степени связана с разрешением проблем качества изображения, связанных с датчиком и объективом. Выходные данные датчика фильтра Bayer, например, интерполируются для создания полного набора данных RGB для каждого пикселя. ISP также обрабатывает начальные настройки цвета и яркости (настраивается для каждого устройства датчика изображения), снятие шума и регулировка фокуса.

После завершения базовой обработки изображений алгоритмы обработки изображений затем извлекают данные из изображения, чтобы выполнять такие функции, как вычислительная фотография, отслеживание объектов, распознавание лиц, обработка глубины и дополненная реальность. Поскольку функциональные требования широко варьируются, так же будут и их алгоритмы и итоговая вычислительная нагрузка. Даже относительно простой алгоритм может включать более ста вычислений на пиксель; почти 200 миллионов пикселей, проходящих через систему каждую секунду, что составляет более 20 миллиардов операций в секунду.

В то время как мощные настольные и ноутбуковые процессоры, работающие на скоростях с несколькими гигагерцами, могут выдерживать такую ​​вычислительную нагрузку, процессоры мобильных телефонов сталкиваются с трудностями для удовлетворения этих требований к производительности изображения из-за их более низких тактовых частот. Кроме того, многие архитектуры процессоров часто передают данные в и из кеша и внешней памяти; при скорости передачи данных, необходимой для видео, этот интерфейс является узким местом производительности и потребляет значительную мощность. Чтобы устранить эти ограничения, архитектуры мобильных процессоров используют преимущества двигателей ускорения и добавляют новые двигатели, специально оптимизированные для зрения. В то же время разработчики алгоритмов оптимизируют и переписывают алгоритмы для запуска на этих новых машинах.

Новые архитектуры обработки видения.

Новые двигатели ускорения зрения поступают в виде графических процессоров, DSP и специализированных процессоров зрения, которые способны значительно повысить уровень параллельной обработки. Они часто представляют собой архитектуры SIMD ((single instruction multiple data) однократные несколько данных), которые используют тот факт, что многие алгоритмы видения выполняют одни и те же функции в группах пикселей.

Вместо того, чтобы последовательно выполнять функцию на каждом пикселе, такие архитектуры обрабатывают их параллельно, что уменьшает тактовую частоту и динамическое энергопотребление (рисунок 2). Кроме того, эти архитектуры настраиваются таким образом, чтобы минимизировать доступ к внешней памяти, позволяя им облегчить это узкое место производительности, добиться более низкого энергопотребления и, возможно, снизить стоимость пакета чипов за счет сокращения.

Рисунок 2: В архитектуре SIMD одна команда может работать параллельно с несколькими частями данных, в то время как типичный процессор обрабатывает операции с данными последовательно.

Возрастающее значение ядра GPU отражается в его возрастающем проценте от общей площади кремния процессора мобильных приложений. Например, исследование Chipworks последнего SoC от Apple, «A7», показывает, что большая часть чипа предназначена для GPU, чем для CPU (рисунок 3).


Рисунок 3: Ядро GPU и связанная с ним логика потребляют больше силиконового пространства, чем ядро процессора в Apple A7 SoC.

Аналогичным образом, в исследовании TechInsights на мобильном процессоре Samsung Exynos Octa, ядро GPU было больше, чем комбинация четырехъядерного процессора ARM Cortex-A15 и его кэш-памяти L2 (рисунок 4). В то время как графические процессоры, возможно, существуют для поддержки надежных игровых и других графических возможностей современных мобильных устройств, эти же ядра становятся мощными двигателями для компьютерной фотографии и других приложений видения.


Рисунок 4: GPU, ISP, камера и видео логика занимают почти столько же места, сколько процессоры ARM Cortex-A7 и Cortex-A15 и связанный кэш в процессоре Samsung Exynos Octa.

Поскольку эти приложения становятся все более обыденными, все больше появляются оптимизированные кремниевые блоки. Эти оптимизированные для зрения архитектуры имеют множество эффективных небольших процессоров, которые позволяют им анализировать изображение, а затем обрабатывать каждый из результирующих блоков параллельно. Компании, создающие эти архитектуры, также распознают узкие места производительности и повышенное энергопотребление, которые приходят с движущимися изображениями в и из памяти, и разработали подходы, которые устраняют ненужное перемещение данных.

Например, NVIDIA представила механизм ускорения вычислительной фотографии под названием Chimera в Tegra 4 SoC. Реклама Apple также утверждает, что A7 SoC содержит «новый процессор сенсорных изображений», что позволяет быстрее снимать изображения, фокусировать и видеофрагменты.

Qualcomm, агрессивно выдвигая функции камеры, такие как HDR, распознавание лиц, расширенная реальность и другие возможности видения в процессорах Snapdragon компании, объединяет ядро ​​DSP «Hexagon» для разгрузки некоторых функций обработки изображений от CPU и ISP.

И запуск Movidius обеспечивает видение и визуализацию микропроцессора, используемого в Project Tango от Google, а также некоторые другие потребительские продукты Vision в разработке.

Компании, чья бизнес-модель включает лицензирование ядер IP-процессоров, также распознают потребности в параллельной обработке этих растущих приложений видения и отвечают. Многие из процессорных ядер ARM включают в себя процессор NEON SIMD «двигатель», который часто используется для обработки зрения.

Канадская компания CogniVue предоставляет лицензированные процессоры для IP-видеонаблюдения на основе кремния для автомобильной безопасности. Основные поставщики, такие как Apical, Tensilica (теперь часть Cadence), Tensilica), CEVA, Imagination Technologies и videantis, теперь предлагают оптимизированные ядра для встроенного зрения, которые позволяют обрабатывать большие изображения, все еще приспосабливаясь к жестким энергетическим бюджетам, требуемым конструкциями мобильных систем.

Современные архитектуры SoC обычно объединяют GPU и SIMD-процессоры с традиционными процессорами для создания мощных платформ обработки изображений. Такие гибридные архитектуры обычно используют более специализированные ядра (например, графические процессоры и кодовые сопроцессоры) для параллельной обработки видео для извлечения соответствующих объектов, а затем используют ЦП для идентификации и определения смысла этих объектов, принятия сложных решений и принятия решений по этим решениям.

Приложение для покупок Amazon Firefly является хорошим концептуальным примером (фактическая реализация неизвестна) о том, как распознавание образов может использовать преимущества параллельных процессоров обработки в архитектуре GPU или SIMD, тогда как фактический процесс покупки может быть лучше всего подходит для традиционного процессора. Это разделение общей задачи видения на основные элементы обработки видео / зрения и когнитивных решений более высокого уровня помогает преобразовать вычислительную и энергоемкую проблему в более экономичное и эффективное решение с низким энергопотреблением.

Новые подходы к датчикам изображения
Скорость уменьшения размера пикселя датчика изображения, возможно, замедляется, когда размер пикселя приближается к длине волны видимого света. Однако не замедление, это инновации сенсорных технологий для зрения. Например, новые датчики изображения перемещаются за пределы фильтров Bayer и включают четкие пиксели, которые обеспечивают лучший захват изображения в условиях низкой освещенности (рисунок 5).

Тем не менее, эта улучшенная технология с низким уровнем освещенности идет по цене: первоначально записанная информация о цвете менее точная. В частности, в некоторых из этих передовых подходов отсутствуют зеленые фильтры, которые доминируют в массивах Байера и часть видимого спектра человеческого глаза особенно чувствительны к ним. Поэтому требуется дополнительное вычисление для решения точной детализированной цветной детали.


Рисунок 5: Традиционный датчик изображения модели Bayer фокусирует свою точность данных на критической полосе частот зеленой полосы частот, но не обеспечивает низкую производительность новых схем фильтров (предоставлено Aptina Imaging).

В настоящее время изучаются другие архитектуры датчиков изображений, которые дополняют или заменяют фильтры красного / зеленого / синего с поляризованными фильтрами; это может уменьшить блики или улучшить контраст. В настоящее время изучаются другие архитектуры, которые добавляют пиксели времени пролета в дополнение к красным / зеленым / синим пикселям Bayer; пиксели времени пролета используются для определения расстояния объекта до камеры, что чрезвычайно полезно для идентификации объектов и понимания их формы, размера и местоположения, а также для фокусировки камеры.
http://www.embedded-vision.com/platinum-members/embedded-vision-alliance/embedded-vision-training/documents/pages/3d-sensors-depth-discernment

Инновации также ведутся для увеличения скорости захвата кадров, чтобы обеспечить замедленную съемку и эффективное отслеживание быстро движущихся объектов. Эта большая скорость захвата в сочетании с более высоким разрешением для каждого кадра быстро увеличивает объем данных, которые должны передавать датчики, что может уменьшить время работы от батареи и создать более шумные электрические среды, ухудшающие качество изображения. Для решения этих проблем производители разрабатывают новые интерфейсы шины, такие как CSI-3 (последовательный интерфейс третьего поколения для камер) от MIPI Alliance, который обещает увеличить скорость передачи данных, одновременно уменьшая энергопотребление и не ухудшая качество изображения.

По мере уменьшения размеров пикселей производители датчиков изображения реагируют, добавляя значительно больше логики на свои устройства, чтобы создавать улучшенные снимки посредством цифровой обработки сигналов на кристалле. Например, помимо управления задачами ранее обсуждавшихся «ясных пикселов» и других возникающих структур матриц фильтров поставщики датчиков изображения изучают методы настройки времени экспозиции на более мелкозернистых уровнях, чем весь кадр.

В частности, добавленный сенсорный «интеллект» различается, когда для групп пикселей внутри кадра может потребоваться дополнительное или уменьшенное время экспозиции, тем самым обеспечивая оптимальную экспозицию каждой области изображения. Желательным конечным результатом является общий более высокий динамический диапазон для изображения, без необходимости захвата нескольких изображений и последующей обработки, используемых в традиционных реализациях с высоким динамическим диапазоном.

Рассматриваются другие архитектуры датчиков зрения, которые не будут отправлять фактическое изображение, а скорее отправят метаданные изображения. В такой архитектуре распознавание объектов будет происходить на чипе, и только извлеченные данные будут отправлены с датчика.

Эти обработанные данные могут быть, например, компактной гистограммой изображения. Хотя данные гистограммы могут иметь ограниченное значение для человека, она широко используется в некоторых алгоритмах зрения для таких вещей, как сопоставление изображений. Посылая только обработанное изображение, скорость передачи данных снижается, что позволяет получать дивиденды от более низких скоростей процессора, более медленные шины памяти и более низкие скорости передачи данных в сети, когда информация изображения отправляется в облако или по сети.

Однако добавление логики в датчик может увеличить тепловыделение и рабочий шум, что часто ухудшает качество изображения. Один оцениваемый метод заключается в использовании штабелированной матрицы, где нижняя матрица содержит высокоскоростные цифровые обрабатывающие элементы, а верхний штамп охватывает пиксели, которые собирают свет (рисунок 6).


Рисунок 6: Схема с накоплением в виде штабелей может обеспечить экономичную и привлекательную комбинацию обычного датчика изображения и значительных объемов логики обработки и / или локальной памяти (предоставлено Sony Semiconductor).

Такая «сложная» технология дополняет современный подход к освещению задней подсветки, где датчик инвертирован, а свет захватывается «задней стороной» микросхемы. Чтобы позволить свету проникать в матрицу датчика изображения, пластина разбавляется до того, как ее нарезают на чипсы, а другая пластина прикреплена к ней для обеспечения дополнительной структурной целостности. Эта дополнительная часть кремния может также реализовать логику для обработки цифровых сигналов.

Сложенный кремниевый подход также дает возможность создавать меньшие размеры матрицы и недорогие датчики «глобального затвора». Глобальный датчик изображения затвора собирает значения для всех пикселей и одновременно передает их данные в общий момент времени; глобальный затвор отличается от «поворотного затвора», когда данные последовательно передаются со спутника с течением времени, а не все одновременно. В то время как рулонный затвор представляет собой более простую архитектуру и обеспечивает меньший недорогой датчик, он искажает быстро движущиеся объекты (рисунок 7).


Рисунок 7: Артефакты «затвора», часто обнаруживаемые при захвате изображений, содержащих быстро движущиеся объекты с использованием обычных датчиков изображения CMOS, не встречаются с альтернативным подходом «глобального затвора» (предоставлено Aptina Imaging).

В приложениях с видением, где основным требованием является определение объектов, глобальные датчики затвора часто необходимы для устранения или полного устранения этих искажений и артефактов. Существующие глобальные датчики затвора добавляют локальную память рядом с датчиком изображения для хранения данных пикселя в общей точке времени, пока он не будет готов к загрузке. С помощью «сложенных» датчиков изображения локальная память для глобальных датчиков затвора может перемещаться под сенсором изображения, уменьшая общий размер матрицы и стоимость датчика.

Закрытие идей и дополнительных идей
«Совершенный шторм» надежных технологий обработки изображений и технологий датчиков изображения, потрясающая производительность процессора и сильный рыночный интерес обеспечивают захватывающие условия для огромного роста вычислительной фотографии и компьютерного зрения в ближайшие годы. Многочисленные стартапы появляются из академических кругов, где специализированные технологии видения инкубируют в течение последних двадцати с лишним лет и в других местах.

С появлением новых архитектур обработки, как в мобильных устройствах, так и в «облаке», теперь существуют мощные платформы обработки зрения. Они позволяют использовать новые алгоритмы и приложения, которые будут стимулировать новые возможности и новый рост в течение устойчивого цикла, который, вероятно, будет продолжаться довольно долгое время.
Michael McDonald, Skylane Technology.

Published by