Blog

Im dalej w las - tym więcej drzew, albo mrówczej pracy...

Im dalej w las - tym więcej drzew, albo mrówczej pracy...

Niedawno pisałem o mrówczej pracy - przy scalaniu skonwertowanych danych i porządkowaniu dat zawarcia umów. Potem o mozolnej pracy przy "obróbce" wartości umów.

Nadszedł czas na najgorszy etap - porządkowanie danych dotyczących okresu obowiązywania umowy... Poprzednie problemy w tym momencie stały się błahostką.

 

Jak pisałem przy mrówczej pracy o datach zawarcia umów - spodziewałem się gorszego etapu mojej pracy przy przy porządkowaniu okresów obowiązywania umów.

Tutaj miała mnie czekać "walka" podobna do informacji o datach zawarcia umów - różne sposoby zapisu dwóch dat: "OD" i "DO". 
Jednak nic podobnego - tutaj dopiero zderzyłem się ze swobodą zapisu okresu obowiązywania... Im dalej w las - tym więcej drzew...

Oczywiście część pozycji zawierała różnie zapisane dwie daty - OD i DO - i tutaj miałem już "rozpoznane" pole walki z konwersją tych dat na układ bazodanowy.

Problem powstał przy dość znacznej liczbie pozycji, gdzie:

  • nie podano daty "OD" (wówczas przyjmowałem jako datę początku obowiązywania - datę zawarcia umowy)
  • okres podawano w skróconej formie - bez roku, a czasami bez miesiąca (np. "1-15.12.2021")
  • okres podawano jako "od daty zlecenia do końca realizacji" (wówczas w polu uwagi wpisywałem oryginalną zawartość pola "okres obowiązywania")
  • okres podawano opisowo jako np. "po opłaceniu faktury", "zgodnie z harmonogramem", itp.
  • okres podawano w dniach/tygodniach/miesiącach
  • okres podawano jako kilka pojedynczych dni, albo kilka okresów
  • nie podawano w ogóle okresu lub opisywano realizację umowy jako "bezterminowo"

Generalnie problem znowu polega na złej jakości danych - wprowadzanych na przestrzeni lat, przez różne osoby, bez walidacji poprawności danych.

I oczywiście znowu - dane te dla człowieka są w większości czytelne i jasne, ale baza danych ich albo nie przyjmie, albo będzie znacznie mniej użyteczna, jeśli nie zostaną poprawione.

 

Gdzie jestem

Okres obowiązywania danych to jedno pole w plikach PDF. W obróbce rozbiłem je na 3 pola:

  • data OD
  • data DO
  • opis/uwagi, gdzie trafiają wyjaśnienia co do sposobu zapisu dat w bazie, jeśli w pliku PDF wyglądało to inaczej.

Oprócz tego jest uwzględnione wspomniane we wcześniejszym poście "zabezpieczenie" - czyli pole wyświetlające oryginalną wartość "okresu obowiązywania umowy", aby każdy mógł zweryfikować i sprawdzić, czy wszystko jest poprawnie po konwersji i obróbce.

W tej chwili stan realizacji tej części projektu wygląda następująco:

  • data OD - 100%
  • data DO - 65%
  • opis/uwagi - 80%

Mam nadzieję, że do końca wakacji uda się zamknąć ten etap.

 

Co dalej?

Dalej pozostanie zrobić dodatkową kontrolę dat OD i DO z okresu obowiązywania umów i w zasadzie ostatni, najprostszy etap - weryfikacja i uporządkowanie nazw komórek organizacyjnych Urzędu Gminy odpowiedzialnych za daną umowę.

I nastąpi potem efekt najprzyjemniejszy, bo pokazujący stopniowo efekt końcowy - czyli implementacja wyszukiwarki na stronie WWW.