С камерой на лбу: как домашняя рутина превращается в данные для обучения роботов

Разработка гуманоидных роботов требует огромного количества видеоматериалов, снятых от первого лица. Чтобы научить машины мыть посуду, складывать белье или наливать напитки, технологические компании нанимают людей, которые фиксируют свои повседневные дела на камеру смартфона. Подобная деятельность становится новым видом гиг-экономики — разовых подработок через мобильные приложения.

Зачем искусственному интеллекту нужны видео домашних дел

Специалисты называют такой контент «эгоцентрическими данными» — это видео, снятые с позиции человеческих глаз. Это специфические кадры, демонстрирующие мелкую моторику в реальных условиях. Хотя интернет переполнен видеороликами, разработчикам требуются тысячи узкоспециализированных клипов — например, крупные планы рук, наливающих воду в стакан без капли мимо. В обзоре индустрии отмечается, что подобные данные критически важны для тонкой настройки машин, предназначенных для работы в реальном мире.

По оценкам инвесторов, в ближайшие несколько лет ведущие технологические компании закупят сотни миллионов часов подобных записей у сторонних поставщиков. Спрос на такой контент уже привел к росту рынка микрозадач в таких странах, как Индия, где самозанятые работники зарабатывают в среднем около 125 долларов в месяц (примерно 11 500 рублей), и подобные видеозадания позволяют существенно увеличить этот доход.

Как проходит процесс обучения

Для сбора данных используются специальные крепления для смартфонов на голову или грудь. Участники тестирования выполняют привычные действия, стараясь, чтобы руки всегда оставались в поле зрения камеры. В рамках тестирования различных платформ, таких как Kled, Luel и Waffle Video, были выделены основные требования к записям:

  • Непрерывная съемка процесса (например, замена мусорного пакета от начала до конца).
  • Отсутствие в кадре лиц для обеспечения анонимности.
  • Высокое разрешение видео (минимум 1080p) и горизонтальная ориентация.
  • Видимость рук в кадре не менее 95% времени записи.

Заказчики крайне строго относятся к качеству. Видео проходят через автоматизированные системы проверки, такие как MAPLE (Media Asset Processing and Labeling Engine — движок для обработки и маркировки медиаактивов). Система проверяет контент на предмет нарушения авторских прав и соответствие метаданных содержимому ролика.

Экономика «роботренеров»

Доходы от такой деятельности сильно разнятся в зависимости от платформы. В ходе одного из экспериментов за серию из девяти бытовых задач (включая вынос мусора и уборку на кухне) и загрузку почти сотни фотографий удалось заработать всего 1 доллар. Другие сервисы предлагают более привлекательные условия — до 25 долларов за час чистого видеоматериала.

Основатель платформы Kled Ави Патель отмечает, что среди пользователей есть рекордсмены, зарабатывающие до 8000 долларов в месяц. Например, один из водителей грузовиков получает такие суммы, постоянно загружая записи со своего видеорегистратора, фиксирующие выбоины на дорогах. Однако для большинства участников это остается лишь скромной подработкой.

Будущее труда и автоматизация

Существует опасение, что люди, обучающие сегодня роботов, приближают момент собственного замещения на рынке труда. Основатели платформ признают этот риск, отмечая, что автоматизация может привести к росту безработицы. Однако они рассматривают гиг-работу по сбору данных как временный инструмент для получения быстрого дохода в условиях меняющейся экономики.

В экспертной среде существует мнение, что специализация станет единственным способом сохранить высокий доход. Любой человек может снять нарезку огурцов, но только профессиональный суши-повар может продемонстрировать эталонную технику разделки лосося. Предполагается, что в будущем мастера своего дела смогут получать пассивный доход, лицензируя свои уникальные навыки для обучения новых поколений автоматизированных систем.