Automated rule generation for optimal data selection in robust neural network training
| dc.contributor.author | Verbytskyi O. S. | |
| dc.contributor.author | Haidaienko O. V. | |
| dc.contributor.author | Вербицький О. С. | |
| dc.contributor.author | Гайдаєнко О. В. | |
| dc.date.accessioned | 2025-12-16T13:13:32Z | |
| dc.date.issued | 2025 | |
| dc.description | Verbytskyi, O. S. Automated rule generation for optimal data selection in robust neural network training = Автоматизоване формування правил відбору даних для побудови робастних нейронних мереж / O. S. Verbytskyi, O. V. Haidaienko // Зб. наук. пр. НУК. – Миколаїв : Гельветика, 2025. – № 3 (501). – С. 162–171. | |
| dc.description.abstract | Дані є серцем сучасного машинного навчання, проте процес їхнього курирування – вибору та підготовки правильних зразків для тренування – залишається значним вузьким місцем. Це ручне й часто інтуїтивне завдання не лише забирає багато часу, а й може призвести до неоптимальної продуктивності моделі. У цій статті представлено нову структуру, розроблену для автоматизації та оптимізації цього критично важливого кроку. Мета. Основна мета цього дослідження полягає у вирішенні критичної проблеми в конвеєрі машинного навчання: ручного, тривалого та суб’єктивного процесу курування даних. Ключове завдання – розробити новий автоматизований фреймворк, здатний генерувати явні, людино-зрозумілі правила для оптимального відбору даних у контексті навчання глибоких нейронних мереж. Цей фреймворк призначений для систематичної заміни ручних зусиль шляхом інтелектуальної фільтрації великих, потенційно зашумлених наборів даних для створення меншої, але інформаційно насиченої вибірки. Кінцеві цілі є потрійними: максимізувати підсумкову точність і здатність до узагальнення цільової моделі, підвищити її робастність (стійкість) до зашумлених або нерозподілених даних, а також значно прискорити збіжність навчання, тим самим зменшуючи обчислювальні витрати та час розробки. Ця робота є фундаментальним кроком до більш ефективного управління життєвим циклом моделей, зокрема як попередній етап для створення надійних систем безперервного навчання. Методика. Запропонована методологія базується на підході мета-навчання. Спочатку первинна модель (Mprimary) проходить коротке навчання на випадковій вибірці даних для встановлення початкового стану. Потім ця модель використовується для оцінки кожної точки даних (xi ) у повному нефільтрованому наборі, присвоюючи їй кількісну «оцінку корисності» U(xi ). Ця оцінка є зваженою лінійною комбінацією трьох різних, взаємодоповнюючих метрик: інформаційна ентропія, що вимірює невизначеність моделі та надає пріоритет найбільш інформативним зразкам; складність для моделі, що обчислюється через функцію втрат і виявляє складні приклади або межові випадки; репрезентативність у просторі ознак, що забезпечує різноманітність даних шляхом пріоритезації зразків із недостатньо представлених областей, запобігаючи упередженості в бік викидів. Після оцінювання дані поділяються на класи «високої корисності» та «низької корисності». Далі проста, інтерпретовна модель машинного навчання (наприклад, дерево рішень) навчається як мета-модель (Mmeta) на ознаках та метаданих для прогнозування класу корисності. Логіка, вивчена цією мета-моделлю, витягується та формулюється у вигляді набору явних правил фільтрації. Результати. На основі запропонованого дизайну експерименту, який порівнює модель, навчену на відфільтрованому наборі даних, з базовою моделлю (навченою на всіх даних) та моделлю випадкової підвибірки (навченою на випадково обраній вибірці того ж розміру), ми очікуємо однозначних висновків. Передбачається, що запропонована модель досягне підсумкової точності класифікації на чистому тестовому наборі, яка буде порівнянна або навіть перевищить базову модель, незважаючи на використання значно меншого навчального набору. З точки зору ефективності, очікується, що вона продемонструє суттєво вищу швидкість збіжності. Найголовніше, очікується, що запропонована модель матиме вищу робастність, показуючи меншу деградацію продуктивності при оцінці на тестових даних, пошкоджених шумом або підданих змагальним атакам. Очікується, що модель випадкової підвибірки покаже найнижчу точність, що підтвердить, що приріст продуктивності зумовлений саме інтелектуальною стратегією відбору, а не просто зменшенням даних. Наукова новизна. Наукова новизна цієї роботи полягає в її унікальному результаті, що відрізняє її від суміжних парадигм, таких як активне навчання та навчання за навчальним планом. У той час як ці методи відбирають або впорядковують дані, наш фреймворк першим фокусується на автоматизованій генерації явних, людино-зрозумілих та багаторазово використовуваних правил відбору даних. Це змінює парадигму з «чорної скриньки» процесу відбору даних на інтерпретовану, надаючи цінні інсайти про те, що саме є «хорошими» даними для конкретного завдання. Новизна також підсилюється синтезом ентропії, складності та репрезентативності в єдину функцію корисності, створюючи більш цілісний вимір цінності точки даних для робастного навчання моделі. Практична значимість. Практичні наслідки цього фреймворку є значними. Він пропонує прямий шлях до скорочення суттєвих витрат ручної праці та обчислювальних ресурсів, пов’язаних із підготовкою даних та навчанням моделей. Автоматизуючи курування даних, він може кардинально прискорити життєвий цикл розробки МН-систем. Моделі, отримані в результаті, не тільки навчаються швидше, але й є більш робастними та надійними, що є критичною вимогою для реальних застосувань. Крім того, згенеровані правила надають фахівцям з даних дієві інсайти про їхні набори даних. Нарешті, цей фреймворк має сильну синергію з системами безперервного навчання, де його можна використовувати для інтелектуального відбору найбільш інформативних нових зразків для ефективної адаптації моделі у відповідь на дрейф концепту. | |
| dc.description.abstract1 | Data lies at the heart of modern machine learning, yet the process of data curation – selecting and preparing the right samples for training-remains a significant bottleneck. This manual and often intuitive task is not only timeconsuming but can also lead to suboptimal model performance. This paper introduces a new framework designed to automate and optimize this critical step. Objective. The primary purpose of this research is to address the critical bottleneck in the machine learning pipeline: the manual, time-consuming, and subjective process of data curation. The core objective is to develop a novel, automated framework capable of generating explicit, human-readable rules for optimal data selection in the context of training deep neural networks. This framework aims to systematically replace manual effort by intelligently filtering large, potentially noisy datasets to construct a smaller, information-rich subset. The ultimate goals are threefold: to maximize the final accuracy and generalization capabilities of the target model, to enhance its robustness against noisy or outof-distribution data, and to significantly accelerate the training convergence, thereby reducing computational costs and development time. This work serves as a foundational step towards more efficient model lifecycle management, particularly as a precursor to robust continual learning systems. Methodology. The proposed methodology is centered around a meta-learning approach. A primary model (Mprimary ) is first briefly trained on a random data sample to establish an initial performance baseline. This model is then used to evaluate every data point (xi ) in the entire unfiltered dataset, assigning it a quantitative “utility score” U(xi ). This score is a weighted linear combination of three distinct, complementary metrics: 1) Information Entropy, which measures the model’s uncertainty and prioritizes samples that are most informative; 2) Model-based Difficulty, calculated via the loss function, which identifies complex examples or boundary cases that are challenging for the model; and 3) Featurespace Representativeness, which ensures data diversity by prioritizing samples from under-represented regions of the feature space, thus preventing a bias towards only outliers. After scoring, the data is bifurcated into ‘high-utility’ and ‘low-utility’ classes. Subsequently, a simple, interpretable machine learning model (e.g., a Decision Tree) is trained as a meta-model (Mmeta) on the features and metadata of the data points to predict their utility class. The logic learned by this meta-model is then extracted and formulated as a set of explicit filtering rules. Results. Based on the proposed experimental design, which compares the model trained on the filtered dataset against a baseline model (trained on all data) and a random-subset model (trained on a randomly selected subset of the same size), we expect definitive outcomes. The proposed model is hypothesized to achieve a final classification accuracy on a clean test set that is comparable to, or even exceeds, the baseline model, despite using a significantly smaller training dataset. In terms of efficiency, it is expected to demonstrate a substantially faster convergence rate. Most critically, the proposed model is anticipated to exhibit superior robustness, showing less performance degradation when evaluated on test data corrupted with noise or subjected to adversarial perturbations. The random-subset model is expected to show the lowest accuracy, confirming that the performance gains are due to the intelligent selection strategy, not merely data reduction. Original contributions. The scientific novelty of this work lies in its unique output, distinguishing it from related paradigms like Active Learning and Curriculum Learning. While these methods select or order data, our framework is the first to focus on the automated generation of explicit, human-readable, and reusable data selection rules. This shifts the paradigm from a “black box” data selection process to an interpretable one, providing valuable insights into what constitutes “good” data for a specific learning task. The novelty is further enhanced by the synthesis of entropy, difficulty, and representativeness into a single, unified utility function, creating a more holistic measure of a data point’s value for robust model training. Practical significance. The practical implications of this framework are significant. It offers a direct path to reducing the substantial manual labor and computational costs associated with data preparation and model training. By automating data curation, it can drastically accelerate the ML development lifecycle, enabling faster iteration and deployment. The resulting models are not only trained faster but are also more robust and reliable, a critical requirement for realworld applications. Furthermore, the generated rules provide data scientists with actionable insights into their datasets, improving data governance and understanding. Finally, this framework has strong synergy with continual learning systems, where it can be used to intelligently select the most informative new samples for efficient model adaptation in response to concept drift. | |
| dc.identifier.issn | 2311-3405 (Print) | |
| dc.identifier.issn | 2313-0415 (Online) | |
| dc.identifier.uri | https://eir.nuos.edu.ua/handle/123456789/11511 | |
| dc.language.iso | en | |
| dc.relation.ispartofseries | УДК; 004.658.2:004.853 | |
| dc.subject | data selection | |
| dc.subject | data curation | |
| dc.subject | meta-learning | |
| dc.subject | active learning | |
| dc.subject | curriculum learning | |
| dc.subject | robust models | |
| dc.subject | neural networks | |
| dc.subject | відбір даних | |
| dc.subject | курування даних | |
| dc.subject | мета-навчання | |
| dc.subject | активне навчання | |
| dc.subject | навчання за навчальним планом | |
| dc.subject | робастні моделі | |
| dc.subject | нейронні мережі | |
| dc.title | Automated rule generation for optimal data selection in robust neural network training | |
| dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Verbytskyi.pdf
- Розмір:
- 817.14 KB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Вантажиться...
- Назва:
- license.txt
- Розмір:
- 4.38 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: