Pipeline-підхід до автоматизованого збору та попередньої обробки відкритих даних
DOI:
https://doi.org/10.24144/2616-7700.2026.49(2).238-244Ключові слова:
вiдкритi данi, вебскрейпiнг, API, pipeline, якiсть даних, feedback loop, ISO 25012, CKANАнотація
У роботi запропоновано pipeline-пiдхiд до автоматизованого збору та попередньої обробки вiдкритих даних, що iнтегрує етапи збору, очищення, трансформацiї та оцiнювання якостi в єдиний iтеративний процес. Наукова новизна полягає у трьох складових: (1) формалiзована система методологiчних принципiв (вiдтворюванiсть, модульнiсть, розширюванiсть, вимiрюванiсть), адаптована до гетерогенних вiдкритих джерел; (2) iтеративний механiзм feedback loop, що забезпечує керування процесом обробки на основi кiлькiсної оцiнки якостi; (3) математична модель оцiнювання якостi даних \(Q(D)\) на основi стандарту ISO/IEC 25012 з теоретично обґрунтованими властивостями обмеженостi, монотонностi та коректностi граничних випадкiв. Пiдхiд апробовано на реальних даних порталу вiдкритих даних України (data.gov.ua): з використанням CKAN API зiбрано 95 наборiв метаданих та проведено їх обробку за основними етапами pipeline. Iнтегральний показник якостi зрiс з \(Q(D) = 0.7720\) до \(Q(D) = 0.8222\) (прирiст \(\Delta Q = +6.5\%\)). Найбiльший внесок у покращення якостi забезпечив етап очищення, тодi як показник актуальностi залишився низьким (\(Q_\textrm{tim} = 0.2886\)) через значний середнiй вiк даних (1031 день). Отриманi результати демонструють, що запропонований пiдхiд є практично ефективним iнструментом для пiдвищення якостi вiдкритих даних та виявлення системних проблем їх актуальностi, що обмежують можливостi подальшого аналiтичного використання.
Спонсор дослідження
- Дослiдження було проведено без фiнансової пiдтримки.
Посилання
- Dong, X. L., Halevy, A. (2014). Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion. Proceedings of the 20th ACM SIGKDD. https://doi.org/10.1145/2623330.2623623
- Mitchell, R. (2018). Web Scraping with Python: Collecting More Data from the Modern Web. O’Reilly Media.
- McKinney, W. (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. O’Reilly Media.
- Krotov, V., Johnson, L., Silva, L. (2020). Tutorial: Legality and Ethics of Web Scraping. Communications of the Association for Information Systems, 47. https://doi.org/10.17705/1CAIS.04724
- Fielding, R. T. (2000). Architectural Styles and the Design of Network-based Software Architectures. Doctoral dissertation, University of California, Irvine. https://roy.gbiv.com/pubs/dissertation/fielding_dissertation.pdf
- Bray, T. (2017). The JavaScript Object Notation (JSON) Data Interchange Format. RFC 8259. https://doi.org/10.17487/RFC8259
- World Wide Web Consortium (W3C). Extensible Markup Language (XML) 1.0. https://www.w3.org/TR/xml/
- Open Knowledge Foundation (2015). Open Data Handbook. https://opendatahandbook.org
- Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(10), 1–23. https://doi.org/10.18637/jss.v059.i10
- Rahm, E., Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), 3–13.
- ISO/IEC 25012:2008. Data quality model. International Organization for Standardization.
- CKAN Association. CKAN API Documentation. https://docs.ckan.org/en/latest/api/
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 В. I. Моренець

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
