ИИ научился превращать звуки в визуальные образы городской среды

Команда ученых из Техасского университета в Остине разработала технологию, которая с помощью генеративного искусственного интеллекта (ИИ) преобразует звуки из аудиозаписей в изображения улиц. Это открытие показывает, что машины могут воспроизводить связь между звуками и визуальными характеристиками, схожую с человеческим восприятием.

Исследователи собрали данные из разных городских и сельских местностей, включая аудиозаписи и изображения. Эти данные использовались для обучения модели искусственного интеллекта. На основе 10-секундных аудиоклипов ИИ генерировал изображения, которые затем сравнивались с реальными фотографиями.

В рамках исследования было обнаружено, что звуковые среды содержат достаточно визуальных подсказок, чтобы создавать изображения улиц, которые точно отражают реальность.

Сравнения показали, что ИИ точно воспроизводил пропорции неба, зелени и зданий, а также архитектурные стили и освещение (день или ночь). Участники эксперимента в 80% случаев правильно связывали звуковые клипы с изображениями, созданными ИИ.

По словам авторов, эта технология выходит за рамки простого распознавания окружения. Она может помочь глубже понять, как звуки формируют субъективное восприятие местности. Например, шум трафика может ассоциироваться с городом, а шелест листвы — с лесом.

University of Texas at Austin

Читать в источнике

Добавить комментарий Отменить ответ