Localization and generative control of concept-specific neurons in deep neural networks

Verbytskyi Oleksandr S.; Haidaienko Oksana V.; Вербицький О. С.; Гайдаєнко О. В.

Localization and generative control of concept-specific neurons in deep neural networks

dc.contributor.author	Verbytskyi Oleksandr S.
dc.contributor.author	Haidaienko Oksana V.
dc.contributor.author	Вербицький О. С.
dc.contributor.author	Гайдаєнко О. В.
dc.date.accessioned	2026-06-05T11:13:07Z
dc.date.issued	2025
dc.description	Verbytskyi, O. S. Localization and generative control of concept-specific neurons in deep neural networks = Локалізація та генеративний контроль концептуальних нейронів у нейронних мережах / O. S. Verbytskyi, O. V. Haidaienko // Зб. наук. пр. НУК. – Миколаїв : Гельветика, 2025. – № 4 (502). – С. 272–279.
dc.description.abstract	Глибокі нейронні мережі (ГНМ), попри їхню вражаючу продуктивність у комп’ютерному зорі, здебільшого функціонують як «чорні скриньки», що перешкоджає їхньому впровадженню у важливих сферах, як-от автономні системи та медичний ШІ, де довіра та надійність мають першочергове значення. Наявні методи пояснюваного ШІ (XAI), такі як карти активації, часто виділяють взаємопов’язані області зображення, але не можуть ізолювати мінімальні, причинно відповідальні набори нейронів, які кодують високорівневі семантичні поняття. Це дослідження усуває цю критичну прогалину, пропонуючи нову структуру для точної локалізації, валідації та генеративного контролю концепт-специфічних нейронів у глибоких моделях зору. Мета. Основною метою цього дослідження є подолання проблеми «чорної скриньки» в глибоких моделях зору шляхом розробки та валідації строгої методології для ідентифікації мінімальних, причинно значущих наборів нейронів, відповідальних за кодування конкретних семантичних концептів (наприклад, «кішка», «собака»). Завдання полягає в тому, щоб перейти від кореляційної інтерпретованості до механістичного розуміння нейронних мереж, і використати це розуміння для двох ключових застосувань: (1) забезпечення тонкого, керованого концептами контролю над генеративними моделями для цільового синтезу зображень, та (2) створення кількісної основи для аналізу перцептивних упереджень моделі, таких як парейдолія, для кращої оцінки їхньої відповідності людському сприйняттю та потенційних режимів відмови. Методика. Методологія зосереджена на фреймворку L0-оптимізації з обмеженнями, розробленому для пошуку мінімальної підмножини нейронів S, яка підтримує впевненість цільового класу вище заздалегідь визначеного порогу t. Це формалізовано як min\|S\| за умови fc(xS) ≥ τ, де fc – імовірність класу, а xS – вхідні дані з активаціями, замаскованими поза межами S. Для вирішення цієї NP-складної задачі ми реалізуємо дві ефективні евристики: жадібний прямий відбір та зворотне виключення. Ключовим механізмом оцінки підмножини S є маскування активацій, де всі активації нейронів поза S у цільових шарах обнуляються, ізолюючи таким чином її функціональний внесок. Експериментальна валідація проводилася на моделі VGG16, попередньо навченій на підмножині ImageNet з 20 класів. Ефективність методу вимірювалася за трьома ключовими метриками: розрідженість набору нейронів \|S\|, падіння точності класифікації після аблації S ΔAcc та новаторська «Оцінка Парейдолії» (Pareidolia Score), що кількісно визначає частоту виявлення концепту в зашумлених зображеннях. Результати. Експерименти успішно ідентифікували надзвичайно розріджені та причинно значущі набори нейронів для цільових концептів. Для поняття «кішка» було локалізовано мінімальний набір лише з 14 нейронів у згорткових шарах VGG16. Цільова аблація цього набору призвела до падіння точності класифікації для класу «кішка» на 76.2 %, що підтвердило їхню критичну роль. Крім того, цей набір нейронів продемонстрував високу частоту парейдолії – 31.4 % – під час тестування на зображеннях із шумом та текстурами. Аналогічно, для поняття «собака» було виявлено набір із 17 нейронів, аблація якого спричинила падіння точності на 69.8 % і який мав оцінку парейдолії 22.1 %. Ці результати показують, що менше 0.1 % нейронів у цільових шарах є достатніми для надійної класифікації, і що ці ж нейрони мають високу схильність до продукування ілюзорних розпізнавань, що віддзеркалює перцептивні тенденції людини. Наукова новизна. Наукова новизна цієї роботи є потрійною. По-перше, вона впроваджує новий алгоритмічний підхід до інтерпретованості, формулюючи ідентифікацію нейронів як задачу L0-оптимізації з обмеженнями, що виходить за рамки традиційних кореляційних методів на основі теплових карт. По-друге, вона встановлює міцний причинно-наслідковий зв’язок між конкретними, мінімальними ансамблями нейронів і поняттями високого рівня, використовуючи цільову аблацію як остаточний доказ. По-третє, вона є піонером у використанні генеративного контролю для валідації інтерпретованості, вводячи нову кількісну метрику – «Оцінку Парейдолії» – для дослідження внутрішньої «уяви» та перцептивних упереджень глибоких нейронних мереж, що відкриває новий вимір для механістичного аналізу. Практична значимість. Практична значимість цього дослідження полягає в його потенціалі до підвищення безпеки, прозорості та керованості систем ШІ. Можливість проводити аудит моделей шляхом локалізації концептуальних представлень може бути вирішальною для налагодження та валідації ШІ в критичних застосунках, як-от медична діагностика (переконатися, що модель фокусується на правильній патології) та автономне водіння (перевірка обґрунтування виявлення об’єктів). Метод уможливлює семантичний контроль над генеративними моделями, що може бути застосовано для створення контенту та аугментації даних. Нарешті, фреймворк для аналізу парейдолії надає інструмент для виявлення упереджень моделі та її вразливостей до змагальних або позарозподільних вхідних даних, сприяючи розробці більш надійного та стійкого ШІ.
dc.description.abstract1	Deep neural networks (DNNs), despite their impressive performance in computer vision, largely operate as “black boxes”, which hinders their adoption in high-stakes domains like autonomous systems and medical AI where trust and reliability are paramount. Existing explainable AI (XAI) methods, such as activation mapping, often highlight correlated image regions but fail to isolate the minimal, causally responsible sets of neurons that encode high-level semantic concepts. This research addresses this critical gap by proposing a novel framework for the precise localization, validation, and generative control of concept-specific neurons within deep vision models. Objective. The primary purpose of this research is to overcome the “black box” problem in deep vision models by developing and validating a rigorous methodology for identifying minimal, causally significant sets of neurons responsible for encoding specific semantic concepts (e.g., “cat”, “dog”). The goal is to move beyond correlational interpretability towards a mechanistic understanding of neural networks, and to leverage this understanding for two key applications: (1) enabling fine-grained, concept-driven control over generative models for targeted image synthesis, and (2) creating a quantitative framework for analyzing model perceptual biases, such as pareidolia, to better assess their alignment with human perception and potential failure modes. Methodology. The methodology is centered on a constrained L0-optimization framework designed to find the minimal neuron subset S that maintains the target class confidence above a predefined threshold t. This is formalized as min\|S\| subject to fc(xS) ≥ τ, where fc is the class probability and xS is an input with activations masked outside of S. To solve this NP-hard problem, we implement two efficient heuristics: Greedy Forward Selection and Backward Elimination. The core mechanism for evaluating a subset S is activation masking, where all neuron activations outside of S in the target layers are set to zero, thereby isolating its functional contribution. The experimental validation was performed on a VGG16 model pretrained on a 20-class subset of ImageNet. The method’s effectiveness was measured using three key metrics: neuron set sparsity \|S\|, the drop in classification accuracy after ablating S (ΔAcc), and a novel Pareidolia Score, which quantifies the frequency of concept detection in noisy images. Results. The experiments successfully identified highly sparse and causally significant neuron sets for target concepts. For the «cat» concept, a minimal set of just 14 neurons was localized in the convolutional layers of VGG16. Targeted ablation of this set resulted in a 76.2 % drop in classification accuracy for the “cat” class, confirming their critical role. Furthermore, this neuron set exhibited a high pareidolia frequency of 31.4 % when tested on noise and texture images. Similarly, for the “dog” concept, a set of 17 neurons was identified, the ablation of which caused a 69.8 % accuracy drop, and which had a pareidolia score of 22.1 %. These results demonstrate that less than 0.1 % of the neurons in the target layers are sufficient for robust classification, and that these same neurons are highly susceptible to producing illusory recognitions, mirroring human perceptual tendencies. Original contributions. The scientific novelty of this work is threefold. First, it introduces a new algorithmic approach to interpretability by framing neuron identification as a constrained L0-optimization problem, moving beyond traditional correlation-based heatmap methods. Second, it establishes a strong causal link between specific, minimal neuron assemblies and high-level concepts, using targeted ablation as definitive proof. Third, it pioneers the use of generative control for interpretability validation, introducing a novel quantitative metric–the Pareidolia Score–to probe the internal «imagination» and perceptual biases of deep neural networks, providing a new dimension for mechanistic analysis. Practical significance. The practical importance of this research lies in its potential to enhance the safety, transparency, and controllability of AI systems. The ability to audit models by localizing concept representations can be crucial for debugging and validating AI in critical applications like medical diagnosis (ensuring a model focuses on correct pathology) and autonomous driving (verifying the reasoning behind object detection). The method enables semantic control over generative models, which can be applied to content creation and data augmentation. Finally, the framework for analyzing pareidolia provides a tool for uncovering model biases and vulnerabilities to adversarial or out-ofdistribution inputs, contributing to the development of more robust and reliable AI.
dc.identifier.govdoc	https://doi.org/10.15589/znp2025.4(502).31
dc.identifier.issn	3154-8245 (Print)
dc.identifier.issn	3154-8253 (Online)
dc.identifier.uri	https://eir.nuos.edu.ua/handle/123456789/12955
dc.language.iso	en
dc.relation.ispartofseries	УДК; 004.032.26:004.89
dc.subject	explainable ai
dc.subject	concept neurons
dc.subject	activation masking
dc.subject	neuron ablation
dc.subject	pareidolia
dc.subject	пояснюваний ші
dc.subject	концептуальні нейрони
dc.subject	абляція нейронів
dc.subject	парейдолія
dc.title	Localization and generative control of concept-specific neurons in deep neural networks
dc.title.alternative	Локалізація та генеративний контроль концептуальних нейронів у нейронних мережах
dc.type	Article

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Verbytskyi.pdf
Size:: 747.2 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 4.38 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

№ 4 (502) 2025