Любопытство повысит эффективность обучения роботов

Программисты пробуют сделать искусственный интеллект любопытным, то есть исследовать окружение и взаимодействовать с ним ради обучения как такового. Не иметь конкретной известной цели, к которой стремиться, а пробовать различные варианты и иногда неожиданно испытывать удовлетворение от получившегося результата — все как у людей.

Такой подход делает роботов самостоятельнее и непредсказуемее. Самое сложное — это научить машину делать оценки, какие типы поведения или объекты более "любопытны" (с большей вероятностью дадут ей бонусные баллы и удовлетворение за взаимодействие с ними). Если оценка будет неверной, то любопытный робот проиграет в эффективности обычному, а не выиграет у него.

Есть известная идея разделить награду за достижение большой и далекой цели на маленькие кусочки и выдавать ее частями за полезные небольшие продвижения к ней. На этом принципе построены многие программы для игр, включая шахматы. Суть любопытства в том, чтобы добавить внутренние награды за достижения, никак не связанные с самой целью.

Один из экспериментов состоял в том, чтобы давать программе бонусные очки за исследование лабиринта как таковое, а не только за продвижение к цели — открывание максимального количества дверей, для которых еще нужно было найти ключи. Как оказалось, одни алгоритмы симуляции любопытства повышали результат, а другие понижали.

В другом эксперименте использовалась полуметровая движущаяся игрушка с широким спектром движений. От нее требовалось наступить на кнопку в полу ногой, поднести прикрепленную к руке ленту к своей видеокамере, ударить в цимбалы. Она не знала, что именно от нее хотят, но имела время исследовать свои возможности и комнату вокруг себя. Как оказалось, систематическое исследование с использованием системы внутренних наград было намного эффективнее, чем полностью случайное. При случайном исследовании две из трех целей вовсе не были достигнуты роботом ни за какое время.

Разумеется, если награда за исследования и проявление любопытства окажется существенно выше, чем за основные, действительно нужные человеку от робота, цели, то его эффективность рискует сильно упасть, он может не заниматься ничем кроме исследования ради самого исследования. Эта же проблема возникает и при обучении человека, когда реальное накопление знаний, получение хороших оценок и участие в дополнительных соревнованиях являются разными целями, и две последние не всегда помогают лучше достигать первой.