До проблеми незбалансованих наборів даних при навчанні штучних нейронних мереж
| dc.contributor.author | Гайда А. Ю. | |
| dc.contributor.author | Михелєв І. Л. | |
| dc.contributor.author | Gaida Anatoliy Yu. | |
| dc.contributor.author | Mykheliev Ihor L. | |
| dc.date.accessioned | 2025-09-23T11:29:00Z | |
| dc.date.issued | 2025 | |
| dc.description | Гайда, А. Ю. До проблеми незбалансованих наборів даних при навчанні штучних нейронних мереж = On the problem of unbalanced datasets in training artificial neural networks / А. Ю. Гайда, І. Л. Михелєв // Зб. наук. пр. НУК. – Миколаїв : Гельветика, 2025. – № 2 (500). – С. 245–252. | |
| dc.description.abstract | В роботі розглянута проблема навчання штучних нейронних мереж на незбалансованих наборах даних, що виявляється у низькій якості оцінок зразків з міноритарних класів у процесі експлуатації навченої на таких даних нейронної мережі. Мета роботи полягає у визначенні можливостей підвищення якості навчання штучних нейронних мереж на незбалансованих наборах даних шляхом генерації синтетичних зразків для зменшення нерівномірності представництва класів. Для досягнення мети визначені чинники, що впливають на якість навчання, виконано порівняльний аналіз популярних методів вирівнювання розподілу даних при навчанні штучних нейронних мереж, визначено переваги та недоліки методів балансування даних. У дослідженні застосовані результати експериментів з навчання штучних нейронних мереж різної архітектури на академічних наборах даних «Іриси Фішера», «Біле вино», «Червоне вино», виконано порівняння результатів навчання для зразків з мажоритарних і міноритарних класів, математичне моделювання оцінки якості навчання, синтез моделі відбору зразків кандидатів для розмноження. За результатами аналізу наявних методів запропонована оригінальна модель вирівнювання розподілу наборів даних для навчання, що враховує розподіл даних у класах набору даних та між класами. Вирівнювання здійснюється шляхом синтезу синтетичних зразків у критичних областях розподілу даних. На відміну від наявних методів балансування даних запропонована модель дозволяє підвищити ефективність процесу вирівнювання розподілу даних у наборі даних і зменшити вплив мажоритарних класів на оцінку зразків, що належать міноритарним класам. Практичне значення отриманих результатів полягає у тому, що запропонована модель є порівняно простою у реалізації і дозволяє значно скоротити час на попередню обробку великих наборів даних. У роботі наведений приклад практичної апробації розробленої моделі при вирішенні задачі мінімізації вібрації корпусу судна. | |
| dc.description.abstract1 | The paper considers the problem of training artificial neural networks on unbalanced data sets, which is manifested in the low quality of estimates of samples from minority classes during the operation of a neural network trained on such data. The purpose of the paper is to identify opportunities for improving the quality of training artificial neural networks on unbalanced data sets by generating synthetic samples to reduce the unevenness of class representation. To achieve the goal, the factors affecting the quality of training were identified, a comparative analysis of popular methods for equalizing data distribution when training artificial neural networks was performed, and the advantages and disadvantages of data balancing methods were determined. The study applied the results of experiments on training artificial neural networks of different architectures on academic data sets “Fisher Irises”, “White Wine”, “Red Wine”, a comparison of training results for samples from majority and minority classes, mathematical modeling of training quality assessment, and synthesis of a model for selecting candidate samples for propagation. Based on the results of the analysis of existing methods, an original model for equalizing the distribution of data sets for training was proposed, which takes into account the distribution of data in the classes of the dataset and between classes. The equalization is carried out by synthesizing synthetic samples in critical areas of the data distribution. Unlike existing data balancing methods, the proposed model allows to increase the efficiency of the process of equalizing the data distribution in the dataset and to reduce the influence of the majority classes on the evaluation of samples belonging to the minority classes. The practical significance of the obtained results lies in the fact that the proposed model is relatively simple to implement and allows to significantly reduce the time for pre-processing of large data sets. The paper provides an example of practical testing of the developed model in solving the problem of minimizing the vibration of the ship's hull. | |
| dc.identifier.issn | 2311-3405 (Print) | |
| dc.identifier.issn | 2313-0415 (Online) | |
| dc.identifier.uri | https://eir.nuos.edu.ua/handle/123456789/11259 | |
| dc.language.iso | uk | |
| dc.relation.ispartofseries | УДК; 004.8 | |
| dc.subject | штучна нейронна мережа | |
| dc.subject | навчання штучної нейронної мережі | |
| dc.subject | набір даних для навчання | |
| dc.subject | незбалансовані дані | |
| dc.subject | синтез даних | |
| dc.subject | набір даних «Червоне вино» | |
| dc.subject | artificial neural network | |
| dc.subject | artificial neural network training | |
| dc.subject | data set for training | |
| dc.subject | unbalanced data | |
| dc.subject | “Red wine” dataset | |
| dc.title | До проблеми незбалансованих наборів даних при навчанні штучних нейронних мереж | |
| dc.title.alternative | On the problem of unbalanced datasets in training artificial neural networks | |
| dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Gaida_ Mykheliev.pdf
- Розмір:
- 490.48 KB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Вантажиться...
- Назва:
- license.txt
- Розмір:
- 4.38 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: