Аналіз та класифікація потокових алгоритмів машинного навчання для обробки великих обсягів даних у реальному часі

Паньків В. І.; Pankiv Volodymyr I.

Аналіз та класифікація потокових алгоритмів машинного навчання для обробки великих обсягів даних у реальному часі

dc.contributor.author	Паньків В. І.
dc.contributor.author	Pankiv Volodymyr I.
dc.date.accessioned	2026-06-15T12:11:08Z
dc.date.issued	2025
dc.description	Паньків, В. І. Аналіз та класифікація потокових алгоритмів машинного навчання для обробки великих обсягів даних у реальному часі = Analysis and classification of streaming machine learning algorithms for real-time big data processing / В. І. Паньків // Зб. наук. пр. НУК. – Миколаїв : Гельветика, 2025. – № 4 (502). – С. 298–305.
dc.description.abstract	Мета. У роботі здійснено комплексний аналіз підходів потокового машинного навчання, орієнтованих на обробку великих обсягів даних у режимі реального часу, з метою системного окреслення ключових методів, виокремлення їхніх спільних принципів та відмінностей, а також формування узгодженої основи для подальшої класифікації та дослідження цієї галузі. Методика. Аналіз зосереджено на ключових вимогах потокового середовища, серед яких обмеження пам’яті, потреба в одноразовому перегляді даних, динамічність статистичних властивостей і необхідність низької латентності обчислень. Розглянуто специфіку концептуального дрейфу, його типи та вплив на стабільність моделей, а також підходи до адаптації у змінних умовах. Систематизовано класи методів потокового ML: онлайн-алгоритми, моделі адаптації до дрейфу, стрімінгові ансамблі, алгоритми для високошвидкісних часових рядів, а також проаналізовано архітектурні фреймворки Apache Flink, Kafka Streams, Spark Structured Streaming та бібліотеки River і MOA. Результати. Показано, що онлайн-підходи забезпечують інкрементальні оновлення та сталу обчислювальну складність, але є чутливими до шуму. Окреслено сучасні механізми виявлення концептуальних змін і реконфігурації моделей, включно з деревами Hoeffding та їхніми адаптивними модифікаціями. У контексті ансамблевих підходів продемонстровано, як комбінування інкрементальних моделей дозволяє збалансувати точність, стабільність і швидкість реагування. Для високочастотних потоків виявлено ефективність поєднання статистичних моделей онлайн-оновлення з легкими глибокими архітектурами. З’ясовано, що результативність потокових систем визначається поєднанням алгоритмічних рішень та обчислювальних моделей із підтримкою стану, узгодженою семантикою часу й низькою латентністю. Наукова новизна. Узагальнення продемонструвало взаємозв’язок між алгоритмічними механізмами адаптації до дрейфу, ансамблевими стратегіями та архітектурними моделями потокової обробки, що дозволяє розглядати потокові ML-системи не лише як набір моделей, а як інтегровані обчислювально-алгоритмічні екосистеми. Акцентовано перспективи підвищення робастності моделей, удосконалення адаптивних механізмів і стандартизації бенчмарків. Практична значимість. Отримані узагальнення спрямовані на підвищення ефективності проєктування потокових систем, оптимізацію алгоритмів у ресурсно обмежених умовах, удосконалення механізмів адаптації до концептуального дрейфу та формування методичних основ для порівняльного оцінювання потокових методів у реальних застосуваннях високошвидкісної аналітики даних.
dc.description.abstract1	Purpose. The paper provides a comprehensive analysis of streaming machine learning approaches focused on real-time processing of large amounts of data, with the aim of systematically outlining key methods, identifying their common principles and differences, and forming a coherent framework for further classification and research in this field. Method. The analysis focuses on key requirements of the streaming environment, including memory limitations, the need for a single view of data, the dynamics of statistical properties, and the need for low latency computations. The specifics of conceptual drift, its types, and its impact on model stability are considered, as well as approaches to adaptation in changing conditions. Classes of streaming ML methods are systematized: online algorithms, drift adaptation models, streaming ensembles, algorithms for high-speed time series, and the architectural frameworks Apache Flink, Kafka Streams, Spark Structured Streaming, and the River and MOA libraries are analyzed. Results. It is shown that online approaches provide incremental updates and constant computational complexity, but are sensitive to noise. Modern mechanisms for detecting conceptual changes and reconfiguring models are outlined, including Hoeffding trees and their adaptive modifications. In the context of ensemble approaches, it is demonstrated how combining incremental models allows balancing accuracy, stability, and response speed. For high-frequency flows, the effectiveness of combining statistical online update models with lightweight deep architectures is revealed. It is found that the performance of streaming systems is determined by the combination of algorithmic solutions and computational models with state maintenance, consistent time semantics, and low latency. Scientific novelty. The generalization demonstrated the relationship between algorithmic mechanisms for adapting to drift, ensemble strategies, and architectural models of streaming processing, which allows us to consider streaming ML systems not only as a set of models, but as integrated computational and algorithmic ecosystems. The prospects for increasing the robustness of models, improving adaptive mechanisms, and standardizing benchmarks are emphasized. Practical significance. The obtained generalizations are aimed at increasing the efficiency of streaming system design, optimizing algorithms in resource-constrained conditions, improving mechanisms for adapting to conceptual drift, and forming methodological foundations for comparative evaluation of streaming methods in real-world applications of high-speed data analytics.
dc.identifier.govdoc	https://doi.org/10.15589/znp2025.4(502).34
dc.identifier.issn	3154-8245 (Print)
dc.identifier.issn	3154-8253 (Online)
dc.identifier.uri	https://eir.nuos.edu.ua/handle/123456789/13095
dc.language.iso	uk
dc.relation.ispartofseries	УДК; 004.421.2
dc.subject	дрейф
dc.subject	адаптація
dc.subject	виявлення
dc.subject	телеметрія
dc.subject	прогнозування
dc.subject	drift
dc.subject	adaptation
dc.subject	detection
dc.subject	telemetry
dc.subject	forecasting
dc.title	Аналіз та класифікація потокових алгоритмів машинного навчання для обробки великих обсягів даних у реальному часі
dc.title.alternative	Analysis and classification of streaming machine learning algorithms for real-time big data processing
dc.type	Article

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Pankiv.pdf
Size:: 439.23 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 4.38 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

№ 4 (502) 2025