Localization and generative control of concept-specific neurons in deep neural networks

Verbytskyi Oleksandr S.; Haidaienko Oksana V.; Вербицький О. С.; Гайдаєнко О. В.

Localization and generative control of concept-specific neurons in deep neural networks

Files

Verbytskyi.pdf (747.2 KB)

Date

2025

Authors

Verbytskyi Oleksandr S.

Haidaienko Oksana V.

Вербицький О. С.

Гайдаєнко О. В.

Abstract

Глибокі нейронні мережі (ГНМ), попри їхню вражаючу продуктивність у комп’ютерному зорі, здебільшого функціонують як «чорні скриньки», що перешкоджає їхньому впровадженню у важливих сферах, як-от автономні системи та медичний ШІ, де довіра та надійність мають першочергове значення. Наявні методи пояснюваного ШІ (XAI), такі як карти активації, часто виділяють взаємопов’язані області зображення, але не можуть ізолювати мінімальні, причинно відповідальні набори нейронів, які кодують високорівневі семантичні поняття. Це дослідження усуває цю критичну прогалину, пропонуючи нову структуру для точної локалізації, валідації та генеративного контролю концепт-специфічних нейронів у глибоких моделях зору. Мета. Основною метою цього дослідження є подолання проблеми «чорної скриньки» в глибоких моделях зору шляхом розробки та валідації строгої методології для ідентифікації мінімальних, причинно значущих наборів нейронів, відповідальних за кодування конкретних семантичних концептів (наприклад, «кішка», «собака»). Завдання полягає в тому, щоб перейти від кореляційної інтерпретованості до механістичного розуміння нейронних мереж, і використати це розуміння для двох ключових застосувань: (1) забезпечення тонкого, керованого концептами контролю над генеративними моделями для цільового синтезу зображень, та (2) створення кількісної основи для аналізу перцептивних упереджень моделі, таких як парейдолія, для кращої оцінки їхньої відповідності людському сприйняттю та потенційних режимів відмови. Методика. Методологія зосереджена на фреймворку L0-оптимізації з обмеженнями, розробленому для пошуку мінімальної підмножини нейронів S, яка підтримує впевненість цільового класу вище заздалегідь визначеного порогу t. Це формалізовано як min|S| за умови fc(xS) ≥ τ, де fc – імовірність класу, а xS – вхідні дані з активаціями, замаскованими поза межами S. Для вирішення цієї NP-складної задачі ми реалізуємо дві ефективні евристики: жадібний прямий відбір та зворотне виключення. Ключовим механізмом оцінки підмножини S є маскування активацій, де всі активації нейронів поза S у цільових шарах обнуляються, ізолюючи таким чином її функціональний внесок. Експериментальна валідація проводилася на моделі VGG16, попередньо навченій на підмножині ImageNet з 20 класів. Ефективність методу вимірювалася за трьома ключовими метриками: розрідженість набору нейронів |S|, падіння точності класифікації після аблації S ΔAcc та новаторська «Оцінка Парейдолії» (Pareidolia Score), що кількісно визначає частоту виявлення концепту в зашумлених зображеннях. Результати. Експерименти успішно ідентифікували надзвичайно розріджені та причинно значущі набори нейронів для цільових концептів. Для поняття «кішка» було локалізовано мінімальний набір лише з 14 нейронів у згорткових шарах VGG16. Цільова аблація цього набору призвела до падіння точності класифікації для класу «кішка» на 76.2 %, що підтвердило їхню критичну роль. Крім того, цей набір нейронів продемонстрував високу частоту парейдолії – 31.4 % – під час тестування на зображеннях із шумом та текстурами. Аналогічно, для поняття «собака» було виявлено набір із 17 нейронів, аблація якого спричинила падіння точності на 69.8 % і який мав оцінку парейдолії 22.1 %. Ці результати показують, що менше 0.1 % нейронів у цільових шарах є достатніми для надійної класифікації, і що ці ж нейрони мають високу схильність до продукування ілюзорних розпізнавань, що віддзеркалює перцептивні тенденції людини. Наукова новизна. Наукова новизна цієї роботи є потрійною. По-перше, вона впроваджує новий алгоритмічний підхід до інтерпретованості, формулюючи ідентифікацію нейронів як задачу L0-оптимізації з обмеженнями, що виходить за рамки традиційних кореляційних методів на основі теплових карт. По-друге, вона встановлює міцний причинно-наслідковий зв’язок між конкретними, мінімальними ансамблями нейронів і поняттями високого рівня, використовуючи цільову аблацію як остаточний доказ. По-третє, вона є піонером у використанні генеративного контролю для валідації інтерпретованості, вводячи нову кількісну метрику – «Оцінку Парейдолії» – для дослідження внутрішньої «уяви» та перцептивних упереджень глибоких нейронних мереж, що відкриває новий вимір для механістичного аналізу. Практична значимість. Практична значимість цього дослідження полягає в його потенціалі до підвищення безпеки, прозорості та керованості систем ШІ. Можливість проводити аудит моделей шляхом локалізації концептуальних представлень може бути вирішальною для налагодження та валідації ШІ в критичних застосунках, як-от медична діагностика (переконатися, що модель фокусується на правильній патології) та автономне водіння (перевірка обґрунтування виявлення об’єктів). Метод уможливлює семантичний контроль над генеративними моделями, що може бути застосовано для створення контенту та аугментації даних. Нарешті, фреймворк для аналізу парейдолії надає інструмент для виявлення упереджень моделі та її вразливостей до змагальних або позарозподільних вхідних даних, сприяючи розробці більш надійного та стійкого ШІ.

Description

Verbytskyi, O. S. Localization and generative control of concept-specific neurons in deep neural networks = Локалізація та генеративний контроль концептуальних нейронів у нейронних мережах / O. S. Verbytskyi, O. V. Haidaienko // Зб. наук. пр. НУК. – Миколаїв : Гельветика, 2025. – № 4 (502). – С. 272–279.

Keywords

explainable ai , concept neurons , activation masking , neuron ablation , pareidolia , пояснюваний ші , концептуальні нейрони , абляція нейронів , парейдолія

URI

https://eir.nuos.edu.ua/handle/123456789/12955

Collections

№ 4 (502) 2025

Full item page

Localization and generative control of concept-specific neurons in deep neural networks

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

DOI

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By