Российские исследователи отслеживают «мысли» нейросетей, чтобы управлять их направлением

Исследование помогает разобраться, как нейросети принимают решения. Подход, который основан на методе SAE Match, позволяет создавать детальные карты того, как смысловые элементы зарождаются, трансформируются и исчезают внутри многослойной архитектуры нейронных сетей.
До сих пор исследователи могли лишь фиксировать появление определенных концептов в различных слоях модели, не понимая механизмов их эволюции. Исследователи построили граф потока признаков — карту, показывающую движение смысловых элементов не только между слоями модели, но и внутри них, между отдельными модулями. Это позволяет проследить, как информация из контекста взаимодействует с внутренними знаниями модели.
Исследование демонстрирует возможность активного управления поведением языковых моделей через избирательное усиление или подавление определенных признаков на разных этапах обработки. Это открывает возможности для корректировки стиля, тематики или тональности генерируемого текста без необходимости переобучения всей модели.
Эксперименты показали, что многоуровневое вмешательство — одновременное воздействие на несколько слоев и модулей — обеспечивает более точное управление при меньших потерях в качестве текста по сравнению с попытками влияния на отдельные компоненты.
В T-Bank AI Research сообщают, что метод не требует дополнительных данных и может применяться к уже обученным моделям. Это важно в контексте растущих требований к безопасности ИИ-систем и предотвращения нежелательного поведения чат-ботов и других приложений.
Источник: hightech.fm
- Комментарии