Pipeline-підхід до автоматизованого збору та попередньої обробки відкритих даних

В. І. Моренець

doi:10.24144/2616-7700.2026.49(2).238-244

Автор(и)

В. І. Моренець Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0009-0006-0899-4400

DOI:

https://doi.org/10.24144/2616-7700.2026.49(2).238-244

Ключові слова:

вiдкритi данi, вебскрейпiнг, API, pipeline, якiсть даних, feedback loop, ISO 25012, CKAN

Анотація

У роботi запропоновано pipeline-пiдхiд до автоматизованого збору та попередньої обробки вiдкритих даних, що iнтегрує етапи збору, очищення, трансформацiї та оцiнювання якостi в єдиний iтеративний процес. Наукова новизна полягає у трьох складових: (1) формалiзована система методологiчних принципiв (вiдтворюванiсть, модульнiсть, розширюванiсть, вимiрюванiсть), адаптована до гетерогенних вiдкритих джерел; (2) iтеративний механiзм feedback loop, що забезпечує керування процесом обробки на основi кiлькiсної оцiнки якостi; (3) математична модель оцiнювання якостi даних \(Q(D)\) на основi стандарту ISO/IEC 25012 з теоретично обґрунтованими властивостями обмеженостi, монотонностi та коректностi граничних випадкiв. Пiдхiд апробовано на реальних даних порталу вiдкритих даних України (data.gov.ua): з використанням CKAN API зiбрано 95 наборiв метаданих та проведено їх обробку за основними етапами pipeline. Iнтегральний показник якостi зрiс з \(Q(D) = 0.7720\) до \(Q(D) = 0.8222\) (прирiст \(\Delta Q = +6.5\%\)). Найбiльший внесок у покращення якостi забезпечив етап очищення, тодi як показник актуальностi залишився низьким (\(Q_\textrm{tim} = 0.2886\)) через значний середнiй вiк даних (1031 день). Отриманi результати демонструють, що запропонований пiдхiд є практично ефективним iнструментом для пiдвищення якостi вiдкритих даних та виявлення системних проблем їх актуальностi, що обмежують можливостi подальшого аналiтичного використання.

Спонсор дослідження

Дослiдження було проведено без фiнансової пiдтримки.

Біографія автора

В. І. Моренець, Київський національний університет імені Тараса Шевченка

Асистент кафедри прикладної статистики

Посилання

Dong, X. L., Halevy, A. (2014). Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion. Proceedings of the 20th ACM SIGKDD. https://doi.org/10.1145/2623330.2623623
Mitchell, R. (2018). Web Scraping with Python: Collecting More Data from the Modern Web. O’Reilly Media.
McKinney, W. (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. O’Reilly Media.
Krotov, V., Johnson, L., Silva, L. (2020). Tutorial: Legality and Ethics of Web Scraping. Communications of the Association for Information Systems, 47. https://doi.org/10.17705/1CAIS.04724
Fielding, R. T. (2000). Architectural Styles and the Design of Network-based Software Architectures. Doctoral dissertation, University of California, Irvine. https://roy.gbiv.com/pubs/dissertation/fielding_dissertation.pdf
Bray, T. (2017). The JavaScript Object Notation (JSON) Data Interchange Format. RFC 8259. https://doi.org/10.17487/RFC8259
World Wide Web Consortium (W3C). Extensible Markup Language (XML) 1.0. https://www.w3.org/TR/xml/
Open Knowledge Foundation (2015). Open Data Handbook. https://opendatahandbook.org
Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(10), 1–23. https://doi.org/10.18637/jss.v059.i10
Rahm, E., Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), 3–13.
ISO/IEC 25012:2008. Data quality model. International Organization for Standardization.
CKAN Association. CKAN API Documentation. https://docs.ckan.org/en/latest/api/