Аналіз та класифікація потокових алгоритмів машинного навчання для обробки великих обсягів даних у реальному часі

dc.contributor.authorПаньків В. І.
dc.contributor.authorPankiv Volodymyr I.
dc.date.accessioned2026-06-15T12:11:08Z
dc.date.issued2025
dc.descriptionПаньків, В. І. Аналіз та класифікація потокових алгоритмів машинного навчання для обробки великих обсягів даних у реальному часі = Analysis and classification of streaming machine learning algorithms for real-time big data processing / В. І. Паньків // Зб. наук. пр. НУК. – Миколаїв : Гельветика, 2025. – № 4 (502). – С. 298–305.
dc.description.abstractМета. У роботі здійснено комплексний аналіз підходів потокового машинного навчання, орієнтованих на обробку великих обсягів даних у режимі реального часу, з метою системного окреслення ключових методів, виокремлення їхніх спільних принципів та відмінностей, а також формування узгодженої основи для подальшої класифікації та дослідження цієї галузі. Методика. Аналіз зосереджено на ключових вимогах потокового середовища, серед яких обмеження пам’яті, потреба в одноразовому перегляді даних, динамічність статистичних властивостей і необхідність низької латентності обчислень. Розглянуто специфіку концептуального дрейфу, його типи та вплив на стабільність моделей, а також підходи до адаптації у змінних умовах. Систематизовано класи методів потокового ML: онлайн-алгоритми, моделі адаптації до дрейфу, стрімінгові ансамблі, алгоритми для високошвидкісних часових рядів, а також проаналізовано архітектурні фреймворки Apache Flink, Kafka Streams, Spark Structured Streaming та бібліотеки River і MOA. Результати. Показано, що онлайн-підходи забезпечують інкрементальні оновлення та сталу обчислювальну складність, але є чутливими до шуму. Окреслено сучасні механізми виявлення концептуальних змін і реконфігурації моделей, включно з деревами Hoeffding та їхніми адаптивними модифікаціями. У контексті ансамблевих підходів продемонстровано, як комбінування інкрементальних моделей дозволяє збалансувати точність, стабільність і швидкість реагування. Для високочастотних потоків виявлено ефективність поєднання статистичних моделей онлайн-оновлення з легкими глибокими архітектурами. З’ясовано, що результативність потокових систем визначається поєднанням алгоритмічних рішень та обчислювальних моделей із підтримкою стану, узгодженою семантикою часу й низькою латентністю. Наукова новизна. Узагальнення продемонструвало взаємозв’язок між алгоритмічними механізмами адаптації до дрейфу, ансамблевими стратегіями та архітектурними моделями потокової обробки, що дозволяє розглядати потокові ML-системи не лише як набір моделей, а як інтегровані обчислювально-алгоритмічні екосистеми. Акцентовано перспективи підвищення робастності моделей, удосконалення адаптивних механізмів і стандартизації бенчмарків. Практична значимість. Отримані узагальнення спрямовані на підвищення ефективності проєктування потокових систем, оптимізацію алгоритмів у ресурсно обмежених умовах, удосконалення механізмів адаптації до концептуального дрейфу та формування методичних основ для порівняльного оцінювання потокових методів у реальних застосуваннях високошвидкісної аналітики даних.
dc.description.abstract1Purpose. The paper provides a comprehensive analysis of streaming machine learning approaches focused on real-time processing of large amounts of data, with the aim of systematically outlining key methods, identifying their common principles and differences, and forming a coherent framework for further classification and research in this field. Method. The analysis focuses on key requirements of the streaming environment, including memory limitations, the need for a single view of data, the dynamics of statistical properties, and the need for low latency computations. The specifics of conceptual drift, its types, and its impact on model stability are considered, as well as approaches to adaptation in changing conditions. Classes of streaming ML methods are systematized: online algorithms, drift adaptation models, streaming ensembles, algorithms for high-speed time series, and the architectural frameworks Apache Flink, Kafka Streams, Spark Structured Streaming, and the River and MOA libraries are analyzed. Results. It is shown that online approaches provide incremental updates and constant computational complexity, but are sensitive to noise. Modern mechanisms for detecting conceptual changes and reconfiguring models are outlined, including Hoeffding trees and their adaptive modifications. In the context of ensemble approaches, it is demonstrated how combining incremental models allows balancing accuracy, stability, and response speed. For high-frequency flows, the effectiveness of combining statistical online update models with lightweight deep architectures is revealed. It is found that the performance of streaming systems is determined by the combination of algorithmic solutions and computational models with state maintenance, consistent time semantics, and low latency. Scientific novelty. The generalization demonstrated the relationship between algorithmic mechanisms for adapting to drift, ensemble strategies, and architectural models of streaming processing, which allows us to consider streaming ML systems not only as a set of models, but as integrated computational and algorithmic ecosystems. The prospects for increasing the robustness of models, improving adaptive mechanisms, and standardizing benchmarks are emphasized. Practical significance. The obtained generalizations are aimed at increasing the efficiency of streaming system design, optimizing algorithms in resource-constrained conditions, improving mechanisms for adapting to conceptual drift, and forming methodological foundations for comparative evaluation of streaming methods in real-world applications of high-speed data analytics.
dc.identifier.govdochttps://doi.org/10.15589/znp2025.4(502).34
dc.identifier.issn3154-8245 (Print)
dc.identifier.issn3154-8253 (Online)
dc.identifier.urihttps://eir.nuos.edu.ua/handle/123456789/13095
dc.language.isouk
dc.relation.ispartofseriesУДК; 004.421.2
dc.subjectдрейф
dc.subjectадаптація
dc.subjectвиявлення
dc.subjectтелеметрія
dc.subjectпрогнозування
dc.subjectdrift
dc.subjectadaptation
dc.subjectdetection
dc.subjecttelemetry
dc.subjectforecasting
dc.titleАналіз та класифікація потокових алгоритмів машинного навчання для обробки великих обсягів даних у реальному часі
dc.title.alternativeAnalysis and classification of streaming machine learning algorithms for real-time big data processing
dc.typeArticle

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Pankiv.pdf
Розмір:
439.23 KB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
4.38 KB
Формат:
Item-specific license agreed upon to submission
Опис:

Зібрання