Blog

Pierwszy newsletter i konwersja - gotowe. Teraz mrówcza praca...

Pierwszy newsletter i konwersja - gotowe. Teraz mrówcza praca...

Do odbiorców dotarł w ubiegłym tygodniu pierwszy newsletter - zachęcam do zapisywania się!

Udało się wdrożyć zabezpieczenie portalu i wykonać konwersję wszystkich plików - i to więcej niż założenia projektu!  Ale pojawiły się też spore, nieprzewidziane problemy...

 

Pierwszy newsletter "poleciał" do użytkowników w ubiegłym tygodniu. Zachęcam do zapisywania się - będziecie mogli otrzymywać na bieżąco informacje o postępach projektu Jawne Umowy i to bez zbędnego spamu - tylko wtedy, gdy coś się "zadzieje".

A ostatnio działo się sporo...

 

Zabezpieczenie portalu Jawne Umowy

To rzecz niewidoczna, dopóki nie wykryje zachowania nietypowego, podejrzanego. Komponent AdminTools dba o to, aby ewentualne próby hakerów były automatycznie blokowane według określonych reguł. Podejrzane zachowania raportuje, loguje.
Wraz z mechanizmem reCaptcha stanowi nieodzowne narzędzie, które pozwala poświęcić więcej czasu na projekt, niż "pilnowanie" portalu.

 

Konwersja plików źródłowych PDF - WYKONANA!

Co więcej - udało się skonwertować większy zakres danych niż założenia projektu - według założeń miało to być "5 lat wstecz". Tymczasem pojawił się rejestr umów już za I półrocze 2022 i tym sposobem konwersji poddano okres 7,5 roku - czyli o 50% więcej niż zakładano!

To było w miarę proste, dzięki narzędziu konwersji, które automatycznie przekształcało PDF w pliki MS Excel. Skonwertowane zostały łącznie 52 pliki PDF za okres 2015 - 2022 (I półrocze).

 

Nie ma róży bez kolców...

Niestety - analiza plików XLS po konwersja pokazała dużo "kolców"... Problemy, których nie dostrzegłem przy "próbkowaniu" pojedynczych plików PDF - teraz objawiły się i to w ilości znaczącej. Być może jest to niedoskonałość narzędzia automatycznej konwersji, ale też zapewne różne sposoby przygotowania danych do PDF.

Spowodowało to konieczność zmiany harmonogramu realizacji projektu - https://jawneumowy.pl/realizacja - pojawiły się 2 nowe punkty po konwersji:

  • Weryfikacja i porządkowanie wyników konwersji
  • Scalanie wyników konwersji i przygotowanie do importu

Optymistycznie założyłem, że konwersja da pliki wynikowe XLS, nad którymi praca będzie tylko "kosmetyką", ale okazuje się, że otrzymane dane wymagają mrówczej pracy :(  Staram się mimo nieprzewidzianych trudności, aby nie wpłynęło to istotnie na czas realizacji projektu.

Co się okazało w plikach wynikowych:

  1. Najczęściej wynik konwersji dawał dla jednej komórki tabeli z PDF - jedną komórkę arkusza XLS nawet, jeśli w komórce PDF było kilka wierszy. Niestety - w kilku/kilkunastu plikach albo część komórek XLS, albo cały arkusz XLS jest "rozdrobniony" (czasami w sposób mieszany) tak, że w jednej komórce XLS jest pojedynczy wiersz z wielowierszowej komórki PDFa, a nie cała wielowierszowa komórka z PDFa.
    To największy, najbardziej czasochłonny problem - baza danych wymaga, aby plik do importu miał jednorodną, ustrukturyzowaną formę i nie mogę takich danych użyć do zasilenia bazy.

  2. Istotny kolejny problem to pojawienie się dodatkowych danych (zwykle opisowych) w kolumnach do tego nieprzeznaczonych. Np. wartość umowy i dopisek: "za każdą efektywnie przepracowaną godzinę". To będzie wymagało dodatkowej pracy, aby wydzielić taki opis, a kolumnę "kwota" zostawić tylko z liczbą.

  3. Też niemały problem to data realizacji umowy. Pojawia się tu kilka wariantów, wymagających analizy i obróbki. Gdyby tylko były tutaj daty "od"-"do", to problem byłby niewielki. Ale pojawiają się np.: pojedyncza data (jednodniowa umowa), albo kilka pojedynczych dat (umowa na pracę jednodniową powtarzaną), albo opis w stylu: "do zakończenia robót". Takie sytuacje powodują, że trzeba będzie przyjąć jakąś konwencję zapisu, aby bazodanowo miało to sens.

Tak więc pracy zrobiło się nagle znacznie więcej. Wymaga to kilkukrotnego przerobienia wszystkich plików. Za pierwszym "przebiegiem" usuwam najgorszy problem - z punktu 1.  Potem, mając już strukturę technicznie jednolitą, komórkową - w kolejnym przebiegu będę usuwał problemy opisane w p. 2.

To zajmie trochę czasu...