Багаторівнева автоматизована система керування роботизованою платформою для задач просторового моніторингу на основі комп'ютерного зору

Роботько Сергій Павлович

Багаторівнева автоматизована система керування роботизованою платформою для задач просторового моніторингу на основі комп'ютерного зору

dc.contributor.advisor	Топалов Андрій Миколайович
dc.contributor.author	Роботько Сергій Павлович
dc.date.accessioned	2026-04-29T10:39:51Z
dc.date.issued	2026
dc.description	Роботько, С.П. Багаторівнева автоматизована система керування роботизованою платформою для задач просторового моніторингу на основі комп'ютерного зору = Multilevel automated control system of a robotic platform for spatial monitoring tasks based on Computer Vision : дис. … д-ра філос. : 151 «Автоматизація та комп’ютерно-інтегровані технології» / С. П. Роботько ; наук. кер. А. М. Топалов ; НУК. – Миколаїв, 2026. – 227 с.
dc.description.abstract	Дисертаційна робота присвячена розв’язанню актуальної науково- технічної задачі підвищення ефективності та безпеки просторового моніторингу в умовах, де рівень ризиків є критичним, зокрема у сценаріях гуманітарного розмінування та ідентифікації предметів. Традиційні підходи, що ґрунтуються на ручному обстеженні, залишаються повільними й небезпечними, а тому автоматизація на базі безпілотних платформ розглядається як один із найбільш перспективних напрямів розвитку відповідних технологій. У цьому контексті комп’ютерний зір та інтелектуальні методи аналізу даних дають змогу перейти від фрагментарного збору інформації до безперервного конвеєра обробки, який може підтримувати прийняття рішень у режимі, наближеному до реального часу, та зменшувати залежність результату від людського фактору. Метою дослідження є підвищення ефективності, швидкості та безпеки процесів виявлення небезпечних предметів за допомогою БПЛА шляхом створення багаторівневої автоматизованої системи керування, яка забезпечує мультимодальне злиття даних, семантичну верифікацію об’єктів і адаптивну корекцію траєкторії польоту під час виконання місії. Запропонований підхід передбачає, що безпілотна платформа виступає не лише носієм сенсорів, а активним агентом, який здатний змінювати поведінку залежно від контексту та узгоджених сигналів від різнорідних джерел інформації. Така логіка переводить моніторинг із парадигми пасивного збору та ретрансляції даних до замкненого циклу, у якому результати аналізу безпосередньо впливають на наступні дії платформи. Формулювання мети та ключових вимог до системи узгоджено з необхідністю одночасно підвищувати надійність розпізнавання та забезпечувати оперативність реакції на події, що виникають у польових умовах. Концептуально система будується як ієрархічна трирівнева архітектура «борт – наземна станція – хмара», де кожен рівень виконує власну роль у наскрізному процесі перетворення необроблених сенсорних масивів у верифіковану семантичну інформацію. У межах такої організації реалізується принцип паралельної асинхронної обробки інформаційних потоків у контурі «Edge–Ground–Cloud». Запропонований підхід забезпечує динамічне оркестрування обчислювальних процесів, де критичні для безпеки польоту задачі виконуються синхронно на бортовому обчислювачі з детермінованою латентністю, тоді як ресурсомісткі задачі семантичної верифікації та глобального планування місії виконуються асинхронно на наземному та хмарному рівнях. Це дозволяє збалансувати затримку прийняття рішень і глибину аналізу, а також раціонально використовувати обмежену пропускну здатність каналів зв’язку під час польових робіт. Методична основа роботи поєднує підходи теорії автоматичного керування, комп’ютерного зору, глибокого навчання, мультимодального аналізу та ймовірнісного прийняття рішень. У модулі комп’ютерного зору застосовано згорткові нейронні мережі сімейства YOLOv8 для детектування об’єктів у відеопотоці, а для підвищення семантичної надійності розпізнавання залучено візуально-мовні моделі, що дають змогу виконувати уточнення типу об’єкта та зменшувати частку хибних тривог у складних сценах. Фізичним каналом підтвердження виступає металодетектор, сигнали якого синхронізуються з відеоданими та телеметрією, утворюючи основу для мультисенсорного аналізу. Практична реалізація передбачає узгодження даних за часом і координатами, а також формування журналів і артефактів випробувань, що забезпечують трасованість від фінальної мітки ризику на карті до первинних вимірювань. Ключовим науково-прикладним результатом є формалізація математичної моделі зваженої агрегації довіри, яка об’єднує нормалізовані виходи візуального детектора, семантичного аналізу та металоканалу в інтегральний показник імовірності загрози, що використовується для прийняття рішень у системі. У роботі показано, що пряме оцінювання повних умовних імовірностей для кожного сенсора в реальному часі є практично складним, тому застосовано наближення у вигляді зваженого голосування, яке апроксимує байєсівську логіку оновлення та дозволяє гнучко налаштовувати робочу точку системи між чутливістю та специфічністю залежно від умов місії. Вагові коефіцієнти інтерпретуються як параметри довіри до каналів та можуть коригуватися з огляду на характеристики середовища, зокрема коли візуальний канал деградує через фон або рослинність, а канал металошукача зберігає інформативність. На основі такої інтеграції формується кінцевий показник, який порівнюється з порогом дії та ініціює або припиняє подальші кроки аналізу й керування. Важливою особливістю запропонованого підходу є те, що модель злиття даних вбудована у контур керування польотом. Розвинуто метод автоматичного адаптивного керування, який організовує замкнений цикл «детекція – семантична верифікація – корекція місії» на базі протоколу MAVLink, завдяки чому система здатна автоматично ініціювати детальніший огляд підозрілої зони, змінювати режим польоту та уточнювати траєкторію для підвищення якості даних. Такий зв’язок між розпізнаванням і керуванням дозволяє перетворити платформу з пасивного реєстратора на інструмент активного збору доказів, коли додаткові маневри виконуються не за командою оператора, а за умовою, визначеною агрегованою оцінкою ризику. Експериментальна частина дослідження спрямована на перевірку адекватності запропонованих моделей та оцінювання точності й часових характеристик системи в умовах, наближених до реальних. Для навчання та налаштування детектора сформовано спеціалізований набір даних, що містить 2500 кадрів із зображеннями вибухонебезпечних предметів визначених типів у реальних умовах експлуатації, що дало змогу забезпечити стійкість моделі до варіативності фону, масштабу та освітлення. Показано, що формалізована модель зваженої агрегації довіри підвищує надійність ідентифікації та дає змогу мінімізувати помилки першого й другого роду, забезпечуючи високу точність розпізнавання до 98% в умовах невизначеності зовнішнього середовища. Додатково продемонстровано операційний виграш багаторівневої інтеграції, що відображається у зростанні інтегральної ймовірності виявлення при використанні кількох каналів підтвердження. Практична цінність отриманих результатів підтверджується апробацією та впровадженням розробок на рівні діючого програмно-апаратного комплексу та впровадженням результатів у виробничій організації, що засвідчено актами. Реалізована система включає бортовий обчислювальний вузол, засоби збору відео та сигналів металодетектора, механізми синхронізації з телеметрією, а також інтеграцію з наземною станцією керування та хмарними сервісами аналізу. У сукупності це забезпечує цілісний технологічний ланцюг від збору даних до формування геоприв’язаних міток ризику та підтримки рішень щодо повторного обльоту чи деталізації обстеження. Отже, дисертаційне дослідження пропонує інтегрований підхід до автоматизації пошукових місій БПЛА, у якому багаторівнева архітектура розподіляє обчислення між бортом, наземною станцією та хмарою. Мультимодальна модель злиття даних підвищує достовірність ідентифікації, а замкнений контур керування забезпечує активну адаптацію траєкторії й режимів польоту на основі результатів комп’ютерного зору та сенсорного підтвердження. Сукупність запропонованих рішень формує основу для практичного застосування у задачах просторового моніторингу з високими вимогами до надійності, швидкодії та безпеки.
dc.description.abstract1	The thesis addresses the urgent scientific and technical problem of enhancing the efficiency and safety of spatial monitoring in environments where the cost of error is critically high, particularly in humanitarian demining and unexploded ordnance (UXO) search scenarios. In modern conflicts, the contamination of territories with mines and munitions creates long-term risks for the civilian population and obstructs infrastructure recovery. Conventional approaches based on manual surveying remain slow and hazardous; therefore, automation based on unmanned platforms is considered one of the most promising directions for technology development. In this context, computer vision and intelligent data analysis methods enable a transition from fragmented information gathering to a continuous processing pipeline capable of supporting decision-making in near-real- time and reducing reliance on the human factor. The aim of the research is to increase the efficiency, speed, and safety of explosive object detection processes using UAVs by creating a multi-level automated control system. This system ensures multi-modal data fusion, semantic object verification, and adaptive flight trajectory correction during mission execution. The proposed approach posits that the unmanned platform acts not merely as a sensor carrier but as an active agent capable of modifying its behavior based on context and reconciled signals from heterogeneous information sources. Such logic shifts monitoring from a passive «capture-and-transmit» mode to a closed-loop cycle where analysis results directly influence the platform's subsequent actions. The formulation of the goal and key system requirements is aligned with the necessity to simultaneously improve recognition reliability and ensure rapid response to events occurring in field conditions. Conceptually, the system is built upon a hierarchical three-level «Edge– Ground–Cloud» architecture, where each level plays a distinct role in the end-to-end process of transforming raw sensor data into verified semantic information. This organization implements the principle of parallel asynchronous processing of information flows within the «Edge–Ground–Cloud» loop. The proposed approach ensures the dynamic orchestration of computational processes: safety-critical tasks are executed synchronously on the onboard computer with deterministic latency, while resource-intensive tasks of semantic verification and global mission planning are performed asynchronously at the ground and cloud levels. This balances decision-making latency with analysis depth and rationalizes the use of limited communication bandwidth during field operations. The architectural principles reflect the modern paradigm of distributed heterogeneous computing, wherein safety-critical decisions must be made with minimal latency, while refinement and confirmation can be offloaded to more powerful computational resources. The methodological basis of the work combines approaches from automatic control theory, machine learning [17, 19], computer vision, deep learning, multi- modal analysis, and probabilistic decision-making. The computer vision module utilizes Convolutional Neural Networks (CNNs) of the YOLOv8 family for object detection in the video stream. To enhance semantic recognition reliability, Vision- Language Models (VLMs) are employed to refine object types and reduce false positives in complex scenes. A metal detector serves as the physical confirmation channel, with its signals synchronized with video data and telemetry to form the basis for multi-sensor analysis. Practical implementation involves temporal and spatial data alignment, as well as the generation of logs and test artifacts, ensuring traceability from the final risk marker on the map back to the primary measurements. A key scientific and applied result is the formalization of a mathematical model for weighted trust aggregation. This model combines the normalized outputs of the visual detector, semantic analysis, and the metal detector channel into an integral threat probability metric used for system decision-making. The study demonstrates that direct estimation of full conditional probabilities for each sensor in real-time is practically complex; therefore, an approximation in the form of weighted voting is applied. This approximates Bayesian update logic and allows for flexible tuning of the system's operating point between sensitivity and specificity depending on mission conditions. Weight coefficients are interpreted as trust parameters for the channels and can be adjusted based on environmental characteristics–for instance, when the visual channel degrades due to background or vegetation while the metal channel retains informativeness. Based on this integration, a final metric is formed, which is compared against an action threshold to either initiate or terminate further analysis and control steps. An important feature of the proposed approach is the embedding of the data fusion model into the flight control loop. A method of automatic adaptive control has been developed, organizing a closed «detection – semantic verification – mission correction» loop based on the MAVLink protocol. Consequently, the system is capable of automatically initiating a more detailed inspection of a suspicious zone, changing flight modes, and refining the trajectory to improve data quality. This link between recognition and control transforms the platform from a passive recorder into an active evidence-gathering tool, where additional maneuvers are executed not by operator command but based on conditions defined by the aggregated risk assessment. The experimental part of the research focuses on verifying the adequacy of the proposed models and evaluating the system's accuracy and temporal characteristics in near-real-world conditions. A unique dataset containing 2,500 frames with images of specific explosive object types in real operating conditions was created for detector training and tuning, ensuring model robustness to variations in background, scale, and lighting. It is shown that the formalized weighted trust aggregation model increases identification reliability and minimizes Type I and Type II errors, achieving a recognition accuracy of up to 98% under environmental uncertainty. Additionally, the operational gain of multi-level integration is demonstrated, reflected in the increase of the integral detection probability when using multiple confirmation channels. The practical value of the results is confirmed by the development of a functional hardware-software complex and the implementation of results in a production organization, as certified by an implementation act. The realized system includes an onboard computing node, tools for video and metal detector signal acquisition, telemetry synchronization mechanisms, and integration with a ground control station and cloud analysis services. Collectively, this ensures a holistic technological chain from data collection to the generation of geo-referenced risk markers and decision support regarding re-flights or detailed surveys. In conclusion, the dissertation offers an integrated approach to automating UAV search missions, wherein a multi-level architecture distributes computations between the onboard unit, ground station, and cloud. A multi-modal data fusion model enhances identification credibility; and a closed control loop ensures active adaptation of trajectory and flight modes based on computer vision results and sensor confirmation. The aggregate of the proposed solutions forms a foundation for practical application in spatial monitoring tasks with high requirements for reliability, speed, and safety.
dc.identifier.uri	https://eir.nuos.edu.ua/handle/123456789/12675
dc.language.iso	uk
dc.relation.ispartofseries	УДК; 681.513.2:004.932
dc.subject	багаторівневий аналіз відео-зображення
dc.subject	візуально- мовні моделі
dc.subject	комп’ютерний зір
dc.subject	гуманітарне розмінування
dc.subject	безпілотний літальний апарат (БПЛА)
dc.subject	хмарна обробка даних
dc.subject	система автоматичного керування
dc.subject	інтелектуальне управління
dc.subject	штучна нейронна мережа
dc.subject	аналіз перетворення сигналу
dc.subject	центр дистанційного керування
dc.subject	обробка зображень
dc.subject	аналітично-структурне моделювання
dc.subject	бездротова комп'ютерна мережа
dc.subject	одноплатний мікрокомп’ютер
dc.subject	151 Автоматизація та комп’ютерно-інтегровані технології
dc.subject	multi-level video image analysis
dc.subject	Vision language models
dc.subject	computer vision
dc.subject	humanitarian demining
dc.subject	unmanned aerial vehicle (UAV)
dc.subject	cloud data processing
dc.subject	automatic control system
dc.subject	intelligent management
dc.subject	artificial neural network
dc.subject	signal conversion analysis
dc.subject	remote control center
dc.subject	image processing
dc.subject	analytical and structural modeling
dc.subject	wireless computer network
dc.subject	single-board microcomputer
dc.title	Багаторівнева автоматизована система керування роботизованою платформою для задач просторового моніторингу на основі комп'ютерного зору
dc.title.alternative	Multilevel automated control system of a robotic platform for spatial monitoring tasks based on Computer Vision
dc.type	Thesis

Files

Original bundle

Now showing 1 - 1 of 1

Name:: diss.Robotko S.P..pdf
Size:: 21.88 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 4.38 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Дисертації