Сортировка отходов и вторсырья с помощью парка роботов
Четверг, 13 апреля 2023 года
Опубликовано Сергеем Левином, научным сотрудником, и Александром Херцогом, штатным инженером-программистом Google Research, Brain Team
Обучение с закреплением (RL) может позволить роботам осваивать сложное поведение путем проб и ошибок, со временем становясь все лучше и лучше. В нескольких наших предыдущих работах изучалось, как RL может развивать сложные навыки робота, такие как роботизированное хватание, многозадачное обучение и даже игра в настольный теннис. Несмотря на то, что роботизированная RL прошла долгий путь, мы все еще не видим роботов с поддержкой RL в повседневной жизни. Реальный мир сложен, разнообразен и меняется с течением времени, что представляет серьезную проблему для роботизированных систем. Однако мы считаем, что RL должен предложить нам отличный инструмент для решения именно этих задач: постоянно практикуясь, совершенствуясь и обучаясь на рабочем месте, роботы должны быть способны адаптироваться к миру по мере того, как он меняется вокруг них.
Сортировка отходов в офисных зданиях с помощью парка мобильных манипуляторов
Мы обсуждаем, как мы изучали эту проблему с помощью недавнего крупномасштабного эксперимента, в ходе которого мы в течение двух лет размещали парк из 23 роботов с поддержкой RL в офисных зданиях Google для сортировки отходов и вторичной переработки. Наша роботизированная система сочетает масштабируемый deep RL на основе реальных данных с загрузкой на основе обучения при моделировании и вспомогательных входных данных для восприятия объектов для повышения обобщенности, сохраняя при этом преимущества сквозного обучения, которое мы подтверждаем 4800 оценочными испытаниями в 240 конфигурациях мусороперерабатывающих станций.
Проблемы внедрения
Когда люди не сортируют свой мусор должным образом, партии вторсырья могут загрязниться, а компост может быть неправильно выброшен на свалки. В нашем эксперименте робот бродил по офисному зданию в поисках “мусорных станций” (контейнеров для вторсырья, компоста и мусора). Роботу было поручено подойти к каждой станции сбора отходов, чтобы отсортировать их, перемещая предметы между контейнерами таким образом, чтобы все вторсырье (банки, бутылки) было помещено в контейнер для вторичной переработки, все предметы, пригодные для компостирования (картонные контейнеры, бумажные стаканчики), были помещены в контейнер для компоста, а все остальное было помещено на свалку. мусорное ведро. Вот как это выглядело:
Эта задача не так проста, как кажется. Простая способность подбирать огромное разнообразие предметов, которые люди выбрасывают в мусорные баки, представляет собой серьезную проблему для обучения. Роботы также должны определить подходящую ячейку для каждого объекта и отсортировать их как можно быстрее и эффективнее. В реальном мире роботы могут сталкиваться с различными ситуациями с уникальными объектами, подобными приведенным ниже примерам из реальных офисных зданий:
Извлекая уроки из разнообразного опыта
Обучение на рабочем месте помогает, но прежде чем перейти к этому этапу, нам нужно обучить роботов базовому набору навыков. С этой целью мы используем четыре источника опыта: (1) набор простых политик, разработанных вручную, которые имеют очень низкий процент успеха, но служат для получения некоторого начального опыта, (2) имитационная система обучения, которая использует перенос sim-to-real для обеспечения некоторых начальных стратегий сортировки ящиков., (3) ”классы роботов», где роботы постоянно практикуются на множестве репрезентативных мусорных станций, и (4) реальные условия развертывания, где роботы практикуются в реальных офисных зданиях с реальным мусором.
Диаграмма RL в масштабе.
Мы загружаем политики из данных, сгенерированных с помощью скрипта (вверху слева). Затем мы обучаем имитационную модель реальной и генерируем дополнительные данные в режиме моделирования (вверху справа). На каждом цикле развертывания мы добавляем данные, собранные в наших классах (внизу справа). Далее мы развертываем и собираем данные в офисных зданиях (внизу слева).
Наш фреймворк RL основан на QT-Opt, который мы ранее применяли для изучения программирования в лабораторных условиях, а также ряда других навыков. При моделировании мы исходим из простых скриптовых политик и используем RL с методом переноса на основе Cycle GAN, который использует RetinaGAN, чтобы имитируемые изображения выглядели более реалистичными.
Отсюда можно попасть в классную комнату. В то время как реальные офисные здания могут обеспечить наиболее репрезентативный опыт, пропускная способность с точки зрения сбора данных ограничена — в некоторые дни приходится сортировать много мусора, в некоторые — не так много. Наши роботы накапливают большую часть своего опыта в “классах роботов”. В классе, показанном ниже, 20 роботов отрабатывают задачу сортировки отходов:
В то время как эти роботы тренируются в классах, другие роботы одновременно обучаются на рабочем месте в 3 офисных зданиях с 30 станциями сбора отходов:
Производительность сортировки
В итоге мы собрали 540 тыс. тестов в классах и 32,5 тыс. тестов в процессе развертывания. Общая производительность системы улучшалась по мере сбора большего количества данных. Мы оценили нашу окончательную систему в классах, чтобы можно было проводить контролируемые сравнения, настраивая сценарии на основе того, что роботы видели во время развертывания. Конечная система смогла точно отсортировать в среднем около 84% объектов, при этом производительность неуклонно возрастала по мере добавления большего количества данных. В реальном мире мы зарегистрировали статистику трех реальных внедрений в период с 2021 по 2022 год и обнаружили, что наша система может снизить загрязнение мусорных баков на 40-50% по весу. В нашей статье содержится дополнительная информация о техническом проектировании, абляциях, изучающих различные проектные решения, и более подробная статистика экспериментов.
Заключение и будущая работа
Наши эксперименты показали, что системы на основе RL могут позволить роботам решать реальные задачи в реальных офисных условиях, а сочетание автономных и онлайновых данных позволяет роботам адаптироваться к широкому спектру реальных ситуаций. В то же время обучение в более контролируемой “классной” среде, как в симуляции, так и в реальном мире, может обеспечить мощный механизм начальной загрузки, позволяющий раскрутить “маховик” RL для обеспечения такой адаптации. Многое еще предстоит сделать: наши окончательные стратегии RL не всегда оказываются успешными, и потребуются более крупные и мощные модели, чтобы улучшить их производительность и распространить их на более широкий круг задач. Другие источники опыта, в том числе другие задания, другие роботы и даже интернет-видео, могут послужить дополнительным дополнением к опыту начальной загрузки, который мы получили в ходе моделирования и занятий в классах. Это захватывающие проблемы, которые предстоит решать в будущем. Ссылка на страницу проекта
Разработчики
Это исследование было проведено несколькими исследователями из отдела робототехники Google и Everyday Robots при участии Александра Херцога, Канишки Рао, Кароля Хаусмана, Яо Лу, Пола Уолхарта, Менгюань Янь, Джессики Лин, Монтсеррат Гонсалес Аренас, Теда Сяо, Дэниела Капплера, Дэниела Хо, Джерека Реттингхауса, Евгения Чеботаря, Куанг-Хуэй Ли, Киртана Гопалакришнан, Райан Джулиан, Эдриан Ли, Чуюан Келли Фу, Боб Вэй, Сангита Рамеш, Кхем Холден, Ким Клейвен, Дэвид Рендлман, Шон Кирмани, Джефф Бингем, Джон Вайс, Ин Сюй, Вэньлун Лу, Мэттью Беннис, Коди Фонг, Дэвид До, Джессика Лам, Юнфэй Бай, Бенджи Холсон, Майкл Квинлан, Ноа Браун, Мринал Калакришнан, Джулиан Ибарз, Питер Пастор, Сергей Левин и вся команда Everyday Robots.
Оригинальная статья здесь
Сказать потрясающе, равно ничего не сказать, Как я хотел бы видеть развитие подобный технологий у нас в России. Я часто снимаю различные места с квадрокоптера, если бы вы знали сколько кругом валяется мусора, все вокруг населенных пунктов просто усеяно им.