Компьютерное зрение: обучение методов распознавания со слабой разметкой данных
Недавний прогресс в компьютерном зрении тесно связан с методами машинного обучения и использованием большого количества данных. Тогда как количество видео и изображений практически неограниченно, их ручная разметка, необходимая для методов обучения с учителем, часто слишком дорога или невозможна. Для решения этой проблемы, в этом докладе мы сосредоточимся на методах обучения допускающих неполную и шумную разметку данных. В первой части мы рассмотрим обучение распознавания событий по видео и соответствующим текстовым описаниям. Я опишу постановку задачи в форме квадратичного программирования и продемонстрирую успешное применение метода к автоматическому обучению действий людей и имен актеров по видео из фильмов и соответствующим сценариям. Во второй части доклада мы остановимся на распознавании изображений и обсудим метод обучения основанный на сверточных нейронных сетях адаптированных к использованию слабой разметки данных. Представленный метод позволяет распознавать и находить местоположение объектов и действий людей на изображениях без использования информации о местоположении при тренировке. К удивлению, данный метод достигает высоких результатов распознавания, не уступающих по качеству лучшим аналогам использующим полную разметку для тренировки.
English version. Computer Vision: Weakly-supervised learning from images and video.
Recent progress in visual recognition goes hand-in-hand with the supervised learning and large-scale training data. While the amount of existing images and videos is huge, their detailed annotation is expensive and often prohibitive. To address this problem, in this talk we will focus on weakly-supervised learning methods using incomplete and noisy annotation for training. I will first address the learning of human actions from videos and corresponding video scripts. I will describe our recent formulation of this problem in the form of a quadratic program with constraints and will show its successful application to the joint learning of actions and actors from movies and corresponding movie scripts. In the second part of the talk I will focus on recognition from still images and will describe our work on weakly supervised convolutional neural networks. I will present a network that learns to recognize and localize objects as well as human actions without using location supervision at the training time. Somewhat surprisingly, our weakly-supervised method achieves state-of-the-art performance comparable to its strongly-supervised counterparts.
Short bio.
Ivan Laptev is a research director at INRIA Paris-Rocquencourt, France. He received Habilitation degree in 2013 from École Normale Supérieure (ENS) in Paris. He also received a PhD degree in Computer Science from the Royal Institute of Technology (KTH) in 2004 and a Master of Science degree from the same institute in 1997. He was a research assistant at the Technical University of Munich (TUM) during 1998-1999. He has joined INRIA as a postdoc in 2004 and became a full-time INRIA researcher in 2005. Ivan's main research interests include visual recognition of human actions, objects and interactions. He has published over 50 papers at international conferences and journals of computer vision and machine learning. He serves as an associate editor of IJCV, TPAMI and IVC journals, he was/is an area chair for CVPR 2010, ICCV 2011, ECCV 2012, CVPR 2013, ECCV 2014, ACCV 2014 and CVPR 2015, he has co-organized several tutorials, workshops and challenges on human action recognition at major computer vision conferences. He has also co-organized a series of INRIA summer schools on computer vision and machine learning (2010-2013). Ivan was awarded ERC Starting Grant in 2012.