Математичні моделі для обробки інформації з метрик коду JAVA-застосунків для оцінювання їх розміру
| dc.contributor.advisor | Фаріонова Тетяна Анатоліївна | |
| dc.contributor.author | Орєхов Олександр Станіславович | |
| dc.date.accessioned | 2026-05-07T11:30:27Z | |
| dc.date.issued | 2026 | |
| dc.description | Орєхов, О. С. Математичні моделі для обробки інформації з метрик коду JAVA-застосунків для оцінювання їх розміру = Mathematical models for information processing of JAVA application code metrics for their size estimation : дис. … д-ра філос. : 122 "Комп’ютерні науки" / О. С. Орєхов ; наук. кер. Т. А. Фаріонова ; НУК. – Миколаїв, 2026. – 223 с. | |
| dc.description.abstract | Орєхов О. С. Математичні моделі для обробки інформації з метрик коду JAVA-застосунків для оцінювання їх розміру. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії (PhD) за спеціальністю 122 «Комп’ютерні науки» (галузь 12 – Інформаційні технології). – Національний університет кораблебудування імені адмірала Макарова, Міністерство освіти і науки України, Миколаїв, 2026. Дисертаційна робота присвячена вирішенню науково-практичного завдання підвищення достовірності обробки інформації з метрик коду JAVA-застосунків для оцінювання їх розміру шляхом побудови відповідних математичних моделей, а саме нелінійних регресійних моделей, та створенню інструментарію інформаційної технології (ІТ) для обробки інформації з метрик коду, необхідних для оцінювання параметра розміру на ранніх стадіях розробки програмних застосунків за метриками UML-діаграми класів на основі загальної вибірки JAVA-застосунків та вибірки Data Science (DS) і Machine Learning (ML) JAVA-застосунків. Актуальність дисертаційної роботи полягає у тому, що достовірна обробка інформації з метрик коду JAVA-застосунків, а саме їх розміру, на ранніх стадіях проєктування безпосередньо впливає на прогнозування трудомісткості розробки програмних продуктів. Це дозволяє ефективно вирішувати завдання планування ресурсів, бюджету, часу на створення програмних проєктів. Однак оцінювання розміру програмного забезпечення (ПЗ) на ранніх стадіях проєктування ускладнюється тим, що на початкових етапах розробки така інформація обмежена та її важко виміряти, наслідком чого є низька достовірність отриманих оцінок. Підвищення достовірності оцінювання розміру ПЗ досягається завдяки використання відповідних математичних моделей, які враховують фактори середовища – мову програмування JAVA та особливості проєкту, зокрема застосування технологій DS та ML із цією мовою програмування. У звʼязку з цим існує потреба у підвищенні достовірності обробки інформації для оцінювання розміру ПЗ на ранніх етапах розробки шляхом використання метрик програмного коду, які доступні з концептуальної моделі проєкту (UML-діаграми класів). Метою дослідження є підвищення достовірності обробки інформації з метрик коду для оцінювання розміру JAVA-застосунків на ранніх стадіях проєктування програмного забезпечення за рахунок побудови нелінійних регресійних моделей на основі наборів метрик коду проєктів з відкритим кодом. Робочою науковою гіпотезою дисертаційного дослідження є твердження, що підвищення достовірності обробки інформації з метрик коду для оцінювання розміру (кількості рядків коду) JAVA-застосунків на ранніх етапах розробки ПЗ досягається шляхом використання негаусівських нелінійних регресійних моделей, які дозволяють описувати зазначений розмір як випадкову величину та врахувати відмінність розподілу даних від нормального. Для побудови нелінійних регресійних моделей пропонується використовувати підхід на основі застосування багатовимірних нормалізуючих перетворень, які дозволяють врахувати кореляцію між факторами та наблизити розподіл до нормального, що підвищує ймовірність достовірності обробки інформації з метрик коду JAVA-застосунків для оцінювання параметра їх розміру. Для досягнення поставленої мети необхідно вирішити такі завдання: - провести аналіз існуючих математичних моделей для обробки інформації з метрик коду для оцінювання розміру загальних та DS і ML JAVA-застосунків, із використанням відповідних вибірок проєктів з відкритим кодом; - сформувати навчальні та тестові вибірки з метрик коду JAVA-застосунків та обґрунтувати вибір незалежних факторів для побудови нелінійних регресійних моделей обробки інформації з метрик коду для оцінювання їх розміру; - дослідити отримані метрики на відсутність мультиколінеарності за критерієм VIFs, з урахуванням ітеративної обробки багатовимірних даних; - обрати перетворення для нормалізації шестивимірних векторів характеристик метрик коду JAVA-застосунків на основі аналізу існуючих нормалізуючих перетворень та методів оцінювання їх параметрів; - удосконалити чотирьохфакторну нелінійну регресійну модель для обробки інформації з метрик коду для оцінювання розміру JAVA-застосунків із використанням пʼятивимірного нормалізуючого перетворення Бокса-Кокса на основі загальної вибірки метрик коду JAVA-застосунків з відкритим кодом, які можна отримати з концептуальної моделі проєкту; - побудувати пʼятифакторну нелінійну регресійну модель для обробки інформації з метрик коду для оцінювання розміру JAVA-застосунків із застосуванням шестивимірного нормалізуючого перетворення Бокса-Кокса на основі загальної вибірки метрик коду JAVA-застосунків з відкритим кодом, які можна отримати з концептуальної моделі проєкту; - побудувати пʼятифакторну нелінійну регресійну модель для обробки інформації з метрик коду для оцінювання розміру JAVA-застосунків із застосуванням шестивимірного нормалізуючого перетворення Бокса-Кокса на основі вибірки метрик коду DS та ML JAVA-проєктів з відкритим кодом, які можна отримати з концептуальної моделі проєкту; - розробити інформаційну технологію (SaaS програмне рішення) та методику для обробки інформації з метрик коду, отриманих з UML-діаграми класів, для оцінювання параметра розміру JAVA-застосунків із використанням побудованих пʼятифакторних нелінійних регресійних моделей. Наукова новизна отриманих результатів полягає у наступному: 1) Удосконалено чотирьохфакторну нелінійну регресійну модель для обробки інформації з метрик коду для оцінювання параметра розміру JAVA-застосунків залежно від загальної кількості класів та інтерфейсів (CLASS), загальної кількості унікальних викликів методів у класах (RFC), середнього значення кількості звʼязків між класами (aCBO) та середнього значення кількості видимих (public та protected) методів на клас (aVMQ) на основі пʼятивимірного перетворення Бокса-Кокса, що дозволило підвищити достовірність оцінювання параметра розміру таких застосунків як негаусівської випадкової величини у порівнянні з існуючими регресійними моделями. Модель, що побудована, у порівнянні з іншими моделями має більший відсоток прогнозованих значень, менше значення середньої величини відносної похибки та менші ширини інтервалу передбачення нелінійної регресії. 2) Вперше побудовано пʼятифакторну нелінійну регресійну модель для обробки інформації з метрик коду для оцінювання параметра розміру JAVA-застосунків на основі шестивимірного перетворення Бокса-Кокса, в якій, на відміну від існуючих моделей, було розділено метрику загальної кількості класів та інтерфейсів (CLASS) на дві окремі метрики, а саме кількість класів (CLS) та кількість інтерфейсів (INFC), що дозволило підвищити достовірність обробки інформації з метрик коду для оцінювання параметра розміру в порівнянні з існуючими математичними моделями. Модель, що побудовано, в порівнянні з іншими регресійними моделями, має кращі показники якості 𝑅 , 2 𝑀𝑀𝑅𝐸 та 𝑃𝑅𝐸𝐷(0, 25) та менші ширини інтервалу передбачення та довірчого інтервалу нелінійної регресії. 3) Вперше побудовано пʼятифакторну нелінійну регресійну модель для обробки інформації з метрик коду для оцінювання параметра розміру DS та ML JAVA-застосунків на основі шестивимірного перетворення Бокса-Кокса, в якій, на відміну від існуючих моделей, було розділено метрику загальної кількості класів та інтерфейсів (CLASS) на дві окремі метрики коду кількості класів (CLS) та інтерфейсів (INFC) та враховано особливості розробки цієї категорії застосунків, що дозволило підвищити достовірність обробки інформації з метрик коду для оцінювання параметра розміру у порівнянні із використанням одновимірного та пʼятивимірного перетворень Бокса-Кокса. Модель, що побудовано, в порівнянні з іншими регресійними моделями, має більший відсоток прогнозованих значень, менше значення середньої величини відносної похибки та менші ширини інтервалу передбачення та довірчого інтервалу нелінійної регресії. 4) Отримали подальший розвиток рівняння для визначення границь інтервалів передбачення пʼятифакторної нелінійної регресії для загальних JAVA-застосунків та DS і ML JAVA-застосунків на основі шестивимірних нормалізуючих перетворень Бокса-Кокса. Це у порівнянні з використанням пʼятивимірних перетворень Бокса-Кокса дозволяє зменшити ширини інтервалів передбачення нелінійних регресій для оцінювання параметра розміру відповідних програмних застосунків і тим самим підвищити достовірність оцінювання зазначеного розміру як залежної випадкової величини. Практичне значення дисертаційної роботи полягає у розробці інструментарію ІТ для обробки інформації з метрик коду для оцінювання параметра розміру JAVA-застосунків, які можна отримати з концептуальної моделі даних на ранніх етапах розробки програмного проєкту, розрахунку довірчих інтервалів та інтервалів передбачення із застосуванням відповідних пʼятифакторних нелінійних регресійних моделей на основі загальної вибірки JAVA-застосунків, вибірки DS та ML JAVA-застосунків. Для цього мовою програмування Kotlin для отриманих нелінійних регресійних математичних моделей створено ПЗ, що розповсюджується за моделлю software-as-a-service (SaaS) та має відповідний програмний інтерфейс на основі протоколу HTTP. У вступі дисертації розкрито сутність та значущість науково-практичного завдання обробки інформації з метрик коду для оцінювання параметра розміру JAVA-застосунків, обґрунтовано необхідність проведення дослідження за обраною темою. Загальну характеристику дисертації подано в такій послідовності: обґрунтування вибору та актуальність теми дослідження; зв’язок роботи з науковими програмами, планами, темами; мета і завдання дослідження; наукова новизна і практична цінність одержаних результатів; особистий внесок здобувача; апробація результатів дисертації та публікації. У першому розділі дисертації проведено аналіз існуючих методів та моделей для обробки інформації з метрик коду для оцінювання розміру JAVA-застосунків та обґрунтовано необхідність проведення дослідження відповідно до поставленої мети. У другому розділі дисертації на основі огляду та аналізу існуючих нормалізуючих перетворень, які використовуються для побудови нелінійних регресійних моделей, було обґрунтовано вибір перетворення для нормалізації шестивимірних векторів метрик програмного коду загальних JAVA-застосунків, DS та ML JAVA-застосунків. У третьому розділі дисертації побудовано чотирьох- та пʼятифакторні нелінійні регресійні моделі, їх довірчі інтервали та інтервали передбачення для обробки інформації з метрик коду для оцінювання розміру JAVA-застосунків із застосуванням багатовимірних нормалізуючих перетворень на основі загальної вибірки JAVA-застосунків, вибірки DS і ML JAVA-застосунків. Проведено порівняння якості обробки інформації з метрик коду для оцінювання розміру (кількості рядків коду) JAVA-застосунків із використанням розроблених нелінійних регресійних моделей. У четвертому розділі дисертації запропоновано інструментарій ІТ для обробки інформації з метрик коду для оцінювання розміру JAVA-застосунків на початкових етапах проєктування програмних застосунків за метриками діаграми класів. Для цього розроблено SaaS-рішення мовою програмування Kotlin та засобами фреймворку Spring Boot, яке пропонує API для обробки інформації з метрик коду для оцінювання KLOC JAVA-застосунків із застосуванням отриманих нелінійних регресійних моделей. | |
| dc.description.abstract1 | Oriekhov O. S. Mathematical models for information processing of JAVA application code metrics for their size estimation. – Manuscript of the qualification scientific work. Thesis for the degree of philosophy doctor (PhD) in specialty 122 "Computer Science" (field of knowledge 12 – Information Technology). – Admiral Makarov National University of Shipbuilding, Ministry of Education and Science of Ukraine, Mykolaiv, 2026. The dissertation is devoted to solving the scientific and practical problem of improving the reliability of processing information from JAVA application code metrics for their software size estimation by constructing appropriate mathematical models, namely nonlinear regression models, and creating information technology (IT) tools for processing information from code metrics necessary for the software size parameter estimation in the early stages of software application development based on UML class diagram metrics using a general sample of JAVA applications and a sample of Data Science (DS) and Machine Learning (ML) JAVA applications. The relevance of the dissertation lies in the fact that reliable information processing from JAVA application code metrics, namely their size, in the early stages of software design directly affects the prediction of the software development efforts estimation. This allows for effective planning of resources, budget, and time for the creation of software projects. However, software size estimation in the early stages of design is complicated by the fact that in the initial stages of development, such information is limited and difficult to measure, resulting in a series of unreliable estimates. The reliability of software size estimation is improved by using appropriate mathematical models that take into account environmental factors, such as the JAVA programming language and project characteristics, in particular the use of DS and ML technologies with this programming language. In this regard, there is a necessity to improve the reliability of software size estimation in the early stages of development by using software code metrics that are available in the conceptual model of the project (UML-class diagram). The dissertation aim is to improve the reliability of information processing from code metrics for estimating the size of JAVA applications in the early stages of software development by constructing nonlinear regression models based on sets of code metrics from open source projects. The working scientific hypothesis of the dissertation research is the assertion that improving the reliability of information processing from code metrics for software size estimation (number of lines of code) of JAVA applications in the early stages of software development is achieved through the use of non-Gaussian nonlinear regression models, which allow the specified size to be described as a random variable and take into account the difference between the data distribution and the normal distribution. To construct nonlinear regression models, it is proposed to use an approach based on the usage of multivariate normalizing transformations, which allow to take into account correlations between the factors and approximate the distribution to normal, which increases the probability of reliable processing of information from JAVA application code metrics for the size parameter estimation. To achieve the aim, it is necessary to solve following tasks: - to conduct an analysis of existing mathematical models for information processing of code metrics for JAVA applications size estimation of general JAVA applications, DS and ML JAVA applications using appropriate samples of open-source projects; - to form training and testing samples from JAVA applications code metrics, and justify the selection of independent factors for building nonlinear regression models for processing information from code metrics to estimate their size; - to examine the obtained metrics for multicollinearity using the VIFs criterion, taking into account iterative processing of multidimensional data; - to select transformations for normalising six-dimensional vectors of JAVA application code metric characteristics based on the analysis of existing normalising transformations and methods for evaluating their parameters; - to improve the four-factor nonlinear regression model for code metrics information processing for JAVA applications size estimation using the five-dimensional Box-Cox normalizing transformation based on a general sample of code metrics from open-source JAVA application that can be obtainable from the conceptual model of the project; - to build a five-factor nonlinear regression model for processing code metric information to estimate the size of JAVA applications using a six-dimensional Box-Cox normalising transformation based on a general sample of code metrics from open-source JAVA applications, which can be obtained from the conceptual model of the project; - to build a five-factor nonlinear regression model for processing code metrics information to estimate the size of JAVA applications using the six-dimensional Box-Cox normalizing transformation based on a sample of DS and ML from open-source JAVA applications, which can be obtained from the conceptual model of the project; - to develop information technology (SaaS software solution) and methodology for processing information from code metrics obtained from UML class diagrams to estimate the JAVA applications size parameter by using the constructed five-factor nonlinear regression models. The scientific novelty of the obtained results is as follows. 1) A four-factor nonlinear regression model has been improved for code metrics information processing to estimate the size parameter of JAVA applications depending on the total number of classes and interfaces (CLASS), the total number of unique method calls in classes (RFC), the average number of links between classes (aCBO), and the average number of visible (public and protected) methods per class (aVMQ) based on the five-dimensional Box-Cox transformation, which made it possible to increase the reliability of estimating the size parameter of such applications as a non-Gaussian random variable compared to existing regression models. Compared to other models, the constructed model has a higher percentage of predicted values, a lower mean relative error, and smaller prediction interval widths of the nonlinear regression. 2) For the first time, a five-factor nonlinear regression model was constructed for code metrics information processing to estimate the size parameter of JAVA applications based on the six-variate Box-Cox transformation in which, comparing to existing models, the metric of the total number of classes and interfaces (CLASS) was split into two separate code metrics: the number of classes (CLS) and the number of interfaces (INFC) for the first time. This made it possible to increase the reliability of the code metrics information processing for the software size estimation compared to existing mathematical models. The constructed model has better quality indicators 𝑅 , and and smaller prediction interval 2 𝑀𝑀𝑅𝐸 𝑃𝑅𝐸𝐷(0, 25) widths and confidence intervals of the nonlinear regression compared to other regression models. 3) For the first time, a five-factor nonlinear regression model was constructed for code metrics information processing to estimate the size parameter of DS and ML JAVA applications based on the six-variate Box-Cox transformation, in which, comparing to existing models, the metric of the total number of classes and interfaces (CLASS) was split into two separate code metrics: the number of classes (CLS) and the number of interfaces (INFC) and took into account the specifics of developing this category of applications for the first time. This made it possible to increase the reliability of processing information from code metrics for the software size estimation compared to using one-dimensional and five-dimensional Box-Cox transformations. The constructed model has a higher percentage of predicted values, a lower mean relative error, and smaller prediction and confidence interval widths for nonlinear regression in comparison to other regression models. 4) Equations for determining the prediction interval limits of five-factor nonlinear regressions for general JAVA applications and Data Science and Machine Learning JAVA applications based on six-dimensional Box-Cox normalising transformations further developed. This allows us to reduce the width of the prediction intervals of nonlinear regressions for the size parameter estimation of the corresponding software applications compared to the usage of five-factor Box-Cox transformations and thus increase the reliability of specified size estimation as a dependent random variable. The practical significance of the obtained results is as follows. The IT tool development for code metrics information processing to estimate the size parameter of JAVA applications based on metrics that can be obtained from conceptual data models at the early stages of software project development, calculating confidence intervals and prediction intervals using appropriate five-factor nonlinear regression models based on a general sample of JAVA applications and a sample of DS and ML JAVA applications. For this purpose, software was developed in the Kotlin programming language that uses the constructed nonlinear regression mathematical models. The software is distributed under the software-as-a-service (SaaS) model and offers a software interface based on the HTTP protocol. The introduction of the dissertation reveals the essence and significance of the scientific and practical task of code metrics information processing for JAVA applications size estimation, and justifies the necessity of the research on the chosen topic. The general characteristics of the dissertation are presented in the following sequence: justification and relevance of the chosen topic; the connection of the work with scientific programs, plans, and topics; the purpose and objectives of the research; the scientific novelty and practical significance of the obtained results; the personal contribution of the applicant; the approbation of the dissertation results and publications. In Section 1, the analysis of existing methods and models for code metric information processing to estimate the size parameter of JAVA application code lines and justifies the necessary for research on the chosen topic. In Section 2, existing reciprocal singlevariate and multivariate normalizing transformations used to construct nonlinear regression models are reviewed and analysed, the choice of transformation for normalising six-variate vectors of metrics of general JAVA applications, DS and ML JAVA applications was justified. In Section 3, four- and five-factor nonlinear regression models, their confidence intervals and prediction intervals are constructed for processing information from code metrics to estimate the size of JAVA applications using multivariate Box-Cox transformations based on a general sample of JAVA applications and a sample of DS and ML JAVA applications. A comparison was made of the accuracy of processing information from code metrics for evaluating the size (number of lines of code) of JAVA applications using the constructed nonlinear regression models. In Section 4, an IT tool is proposed for processing code metrics information to estimate the size of JAVA applications at the initial stages of software application design using class diagram metrics. For this purpose, a SaaS solution was developed in the Kotlin programming language and using the Spring Boot framework, which offers an API for code metrics information processing to estimate KLOC of JAVA applications using the obtained nonlinear regression models. | |
| dc.identifier.uri | https://eir.nuos.edu.ua/handle/123456789/12735 | |
| dc.language.iso | uk | |
| dc.relation.ispartofseries | УДК; 004.412:519.25 | |
| dc.subject | трудомісткість розробки ПЗ | |
| dc.subject | вихідний код | |
| dc.subject | LOC-оцінка | |
| dc.subject | Java | |
| dc.subject | machine learning | |
| dc.subject | математична модель | |
| dc.subject | регресійна модель | |
| dc.subject | нелінійна регресія | |
| dc.subject | негаусівські дані | |
| dc.subject | нормалізуюче перетворення | |
| dc.subject | перетворення Бокса-Кокса | |
| dc.subject | довірчий інтервал | |
| dc.subject | інтервал передбачення | |
| dc.subject | інформаційна технологія | |
| dc.subject | програмне забезпечення | |
| dc.subject | 122 "Комп’ютерні науки" | |
| dc.subject | software development effort | |
| dc.subject | source code | |
| dc.subject | LOC-estimation | |
| dc.subject | Java | |
| dc.subject | machine learning | |
| dc.subject | mathematical model | |
| dc.subject | regression model | |
| dc.subject | nonlinear regression | |
| dc.subject | non-Gaussian data | |
| dc.subject | normalizing transformation | |
| dc.subject | Box-Cox transformation | |
| dc.subject | confidence interval | |
| dc.subject | prediction interval | |
| dc.subject | information technology | |
| dc.subject | software | |
| dc.title | Математичні моделі для обробки інформації з метрик коду JAVA-застосунків для оцінювання їх розміру | |
| dc.type | Thesis |
Файли
Контейнер файлів
1 - 2 з 2
Вантажиться...
- Назва:
- diss.Oriekhov-O-S.pdf
- Розмір:
- 8.89 MB
- Формат:
- Adobe Portable Document Format
Вантажиться...
- Назва:
- Dissertation-Oriekhov-O-S_Validation_Report.pdf
- Розмір:
- 50.67 KB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Вантажиться...
- Назва:
- license.txt
- Розмір:
- 4.38 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: