На шестом саммите по компьютерному зрению Machines Can See 2022 обсудили применение технологий
В Москве на площадке «Цифрового делового пространства» прошел шестой ежегодный саммит Machines Can See, который организует компания VisionLabs при поддержке Sber AI и MTS AI. На мероприятии выступили исследователи из Китая, Южной Кореи и России, а также представители таких крупнейших компаний, как ПАО «Ростелеком», МТС, Сбер, X5 Group и другие. Machines Can See прошёл при поддержке 16 партнеров и за один день собрал 900 участников.
Главная тема саммита в этом году — синергия науки и практики для создания удобных и полезных сервисов на основе компьютерного зрения. В рамках мероприятия прошли две параллельные программы. В научной сессии была представлена серия докладов о последних исследованиях, которые позволяют расширять применение компьютерного зрения. Так, Евгений Бурнаев руководитель проектного Центра прикладного ИИ Сколтеха, ведущий научный сотрудник Института искусственного интеллекта AIRI, говорил о глубоком обучении для моделирования и реконструкции 3D-форм. Разрабатываемые технологии помогут реализовать приложения AR/VR, эффективно обрабатывать медицинские данные для планирования сложных хирургических операций, решать задачи планирования городской среды, сохранения культурного наследия и создания цифровых двойников.
Также часть выступлений была посвящена разработке решений в прикладных кейсах. Александр Чигорин, директор по исследованиям VisionLabs, рассказал о распознавании жестов, и как пройти путь от бейзлайна до работающего решения, остановившись на алгоритмической части решения. Сложность разработки заключалась в том, что решение должно успевать отрабатывать в реальном времени на устройстве с нейропроцессором и не реагировать на движения, похожие на жесты. В выступлении Романа Исаченко, старшего разработчика Яндекса, говорилось о визуальном поиске. Спикер отметил: при разработке решения для избежания переобучения нужно иметь хорошую тестовую метрику, а также необходимо уделить большое внимание очистке реальных данных.
Андрей Кузнецов, исполнительный директор по исследованию данных Sber AI рассказал о применении мультимодальных архитектур в задачах генерации изображений по описанию, а исполнительный директор по исследованию данных Sber AI и научный консультант Института искусственного интеллекта AIRI Денис Димитров выступил с презентацией на тему: «Fusion Brain — исследовательская платформа для мультимодального и многозадачного обучения».
Зарубежные исследователи Минсу Чо (Южная Корея) и Силинь Чен (Китай) рассказали о визуальном соответствии в компьютерном зрении и представлении сцен с помощью графов. После чего с ними состоялось прямое включение с сессией вопросов и ответов.
В рамках научного трека прошла постерная сессия, на которой было представлено 14 проектов от исследователей из РН БашНИПИнефть, МФТИ, НИУ ВШЭ, AIRI, МГУ им. М. В. Ломоносова и других AI-лабораторий.
Помимо этого, прошло подведение итогов соревнования по анализу данных, главной целью которого было создание точного и быстрого верификатора моделей транспорта по изображениям. Решения победителей и призеров показали высокие результаты, качество работы лучшего алгоритма составило 97,5% на публичных тестах и 95,5% на приватных. Топ-3 команд подошел к решению задачи с нескольких сторон: сбор данных, выбор архитектуры построения моделей и методов оптимизации алгоритмов, что обеспечило им высокие результаты. Решения команд-лидеров универсальны и заметно лучше работают на различных группах транспорта, в том числе на самых сложных для задачи верификации — тяжелых транспортных средствах и производителях бывшего СССР. Всего соревнование длилось 28 дней, заявки подали 243 участника, было отправлено 1348 решений, при этом одна из команд предложила рекордные 92 варианта решения задачи. Алгоритмы победителей и собранные ими данные будут доступны как open-source, что поможет развитию решений задачи по верификации автомобилей в целом. В датасете победителей собрано более 400 тысяч изображений, таких крупных наборов данных с изображениями транспорта в мире практически нет в открытом доступе.
Одной из основных тем среди кейсов бизнес-сессии стало создание КБС и ЕБС. Наталья Бессонова, менеджер проектов ПАО «Ростелеком», выступила с презентацией «Единая биометрическая система: от технологий до практики применения». Спикер рассказала, что у ЕБС широкие перспективы использования не только в финансовой сфере, но и в других отраслях — в образовании, спорте, на транспорте. Идентификация по биометрии может применяться при сдаче сессии в университете, для прохода на спортивные мероприятия или для посадки в самолет без предъявления посадочного талона и паспорта.
Руководитель центра идентификации и цифровых продуктов ПАО МТС Сергей Яковлев также рассказал о применении биометрических технологий в федеральном масштабе, но уже в рамках МТС. Компания первой в телеком-рознице стала обслуживать клиентов в офисе по лицу без документов, удостоверяющих личность. Спикер подчеркнул, что технологии позволяют ускорить обслуживание на 2-3 минуты, что в масштабе офисов МТС дает большую экономию.
Помимо этого, эксперты обсудили кейсы, в которых использование компьютерного зрения вышло за пределы распознавания лиц. Директор по цифровой трансформации Segezha Group Сергей Меркулов рассказал о применении технологий компьютерного зрения для контроля сырьевых потоков и обеспечения производственной безопасности на заводах. Технологии позволяют автоматизировать приемку круглого леса, а также на 46% снижает количество случаев, когда работник выходит на участок без средств индивидуальной защиты.
Александр Гаценко, руководитель центра технологий видеоаналитики Газпромнефть-цифровые решения, продолжил тему применения компьютерного зрения в промышленности. Видеоаналитика в компании используется для обеспечения безопасности на транспорте и промышленной безопасности, а также для контроля состояния сотрудников и их идентификации. За счет широкого спектра применения Газпромнефть активно развивает проекты с применением компьютерного зрения: за 2020-2022 года из идей в НИОКР перешли более 30 проектов.
В выступлении Александра Капитанова, руководителя R&D команды Computer Vision SberDevices, внимание было уделено жестовому управлению: от виртуальных ассистентов на различных устройствах до автомобилей. Для решения задач такого рода команда SberDevices собрала и выложила в открытый доступ один из самых больших жестовых датасетов – HaGRID – Hand Gesture Recognition Image Dataset, содержащем 552 992 FullHD изображений и 18 функциональных жестов.
Также в рамках бизнес-сессии прошла презентация «Кодекса этики в сфере искусственного интеллекта». Сергей Наквасин, заместитель руководителя аналитического центра при Правительстве РФ, и Андрей Незнамов, управляющий директор-начальник Центра регулирования AI Сбербанка, рассказали, что этические принципы использования ИИ вырабатываются на самых разных уровнях: их предлагают НКО и частные исследователи, мировые корпорации и правительства стран. Российский кодекс состоит из шести принципов и помогает установлению мягкого регулирования в области высоких технологий. В настоящее время к нему уже присоединились 83 участника российского рынка ИИ.
Завершила Machines Can See панельная дискуссия на тему «Будущее цифровых сервисов», на которой спикеры обсудили, насколько массовым применение компьютерного зрения становится в повседневной жизни и бизнесе, что влияет на развитие подобных технологий и как вести подобные инновационные проекты.
Запись выступлений на главной сцене вы можете посмотреть на ютуб-канале VisionLabs.
Стратегическими партнерами саммита выступили Sber AI и MTS AI.
«Среди основных трендов в области компьютерного зрения — взрывной рост количества кейсов применения, развитие этики применения технологий, рост участия государства и появление новых методов поддержки, а также появление таких масштабных проектов, как оплата по лицу в метро или управление умными устройствами с помощью жестов, что делает компьютерное зрение неотъемлемой частью повседневной жизни. Все эти темы мы обсудили в рамках саммита. Рост рынка компьютерного зрения ежегодно достигает практически 40%, поэтому очень важно создавать возможности для обсуждения перспектив, обмена опытом и успешными кейсами, и Machines Can See за шесть лет существования уже стал такой площадкой», — рассказал Дмитрий Марков, генеральный директор VisionLabs.
«Саммит Machines Can See — уникальная площадка для обмена знаниями и идеями между бизнесом, исследователями и разработчиками. Благодаря синергии науки и бизнеса, компьютерное зрение стало одним из самых востребованных направлений в сфере искусственного интеллекта и без сомнения частью повседневной жизни. MTS AI применяет CV для целого ряда своих продуктов и решений, в том числе для Платформы VSaaS — инструмента, позволяющего создавать системы видеонаблюдения и видеоаналитики. Мы постоянно работаем над улучшением алгоритмов CV и ищем новые способы применения этой технологии, в том числе с помощью обмена знаниями на таких площадках, как Machines Can See», — рассказал Александр Ханин, генеральный директор компании MTS AI.
«Сбер проводит огромную работу по внедрению искусственного интеллекта и машинного обучения в индустриях присутствия. Развитие эффективных систем компьютерного зрения и их интеграция в цифровые продукты и сервисы — одно из ключевых и активно развивающихся направлений ИИ, в котором российские исследователи и инженеры занимают лидирующие позиции мирового уровня. Ежегодный саммит Machines can see — это возможность показать свои наработки как раз в области нейросетевых технологий машинного зрения и посмотреть на опыт коллег. Каждая такая встреча даёт мощный толчок исследователям и разработчикам, стимулирует появление новых интересных решений и способствует развитию профессионального сообщества», — отметил Максим Ерёменко, вице-президент, директор Департамента развития искусственного интеллекта и машинного обучения Сбербанка.