Dostałeś z ministerstwa 10 milionów PDF-ów. Co teraz?

Dostałeś z ministerstwa 10 milionów PDF-ów. Co teraz? | Jesień Linuksowa 2024

Jesień Linuksowa

11 followers

6 mo ago

34 views

informacja publiczna informatyk zakładowy jesień linuksowa plug przetwarzanie pdf

Gdy Ministerstwo Sprawiedliwości przekaże ci 10 milionów plików PDF z raportami losowego przydziału spraw, wraz z satysfakcją pojawia się wątpliwość - jak wyciągnąć użyteczne dane z takiej masy dokumentów? Opowiem o wyzwaniach związanych z realizacją serwisu https://slps.pl, począwszy od procesu pozyskania dokumentów, przez ekstrakcję tekstu z plików PDF, konieczną rozbudowę domowego peceta, parsowanie tekstu i agregację wartości w bazie danych, aż po generowanie serwisu WWW i jego skrajnie oszczędny hosting. Bonusowo - przykłady błędów i niezgodności otrzymanych raportów ze specyfikacją Systemu Losowego Przydziału Spraw.

Prelegent: Tomasz Zieliński @InfZakladowy@infosec.exchange

Loading comments...

Featured Channels

Dostałeś z ministerstwa 10 milionów PDF-ów. Co teraz? | Jesień Linuksowa 2024