На момент дослідження ДСА оприлюднила 3,2 млн протоколів, останній архів з якими був оприлюднений 06.11.2021, судячи з його назви.
Слід відзначити, що
кількість архівів з файлами JSON у розділі «Відкриті дані» вебпорталу «Судова влада» значно менша, ніж на Порталі ВД. Якщо на вебпорталі «Судова влада» оприлюднено
194 архіви із файлами JSON, то на Порталі ВД —
3 627.
Для аналізу було завантажено файли з порталу судової влади, які, з огляду на їх назви, містять дані про протоколи автоматизованого розподілу за 28.04-07.11.2021.
Розбіжність у кількості файлів пояснюється тим, що на Портал ВД файли з даними за один день завантажувалися більше одного разу.
Так, до прикладу, файл з даними протоколів авторозподілу за 20.10.2021 було завантажено на Портал ВД 397 разів, за 21.10.2021 — 341 раз, і так далі. Загалом більше одного файлу з однаковою назвою було завантажено на Портал ВД для 169 файлів зі 195 з однаковими назвами.
Вибірковий контроль показав повну ідентичність окремих файлів, що мають однакові назви. Так, файли 20211024000000_20211025000000.zip виявилися ідентичними, контрольна сума md5 кожного з них — ee183a76c7f64fcb067750585b74536d, а з 4 файлів 20210428000000_20210429000000.zip, що завантажені на Портал ВД, однаковими виявилися лише 3.
Перевірка показала, що різні файли відрізняються кількістю протоколів у них. Так, в одному файлі 20210428000000_20210429000000.json містилися дані про 9 342 протоколи, а в іншому — про 19 860; у двох файлах 20210708000000_20210709000000.json — про 11 755 та 23 955 протоколів.
Розрізнити ці файли можливо лише за ключем "hash" у відповіді API Порталу ВД який визначається для файлу не завжди.
Ситуації з дублікатами можна було би уникнути за умови дотримання правильної схеми розміщення файлів на Порталі ВД. Організація зберігання файлів у сховищі даних, яке по суті є каталогом (яким, зокрема, є і портал відкритих даних), має здійснюватися за принципом каталогізації, з логічним розділенням на набори даних та ресурси.
Зберігання даних на сучасних порталах відкритих даних дуже нагадує зберігання файлів у папці на Google Drive:
- набір даних є папкою
- файли у ній — ресурсами
- версії одного і того ж файлу — ревізіями ресурсу
З урахуванням цієї концепції, набір файлів за 365 днів складався б лише з 365 файлів, а для випадків, коли протягом доби оприлюднено кілька файлів з різною кількістю протоколів у них (як згаданий вище 20210708000000_20210709000000.json), всі такі файли за добу стали би ревізіями, що значно спростило би пошук та завантаження потрібних файлів і дозволило б уникнути плутанини.