Dostałeś z ministerstwa 10 milionów PDF-ów. Co teraz? | Jesień Linuksowa 2024

time6 mo agoview34 views

Gdy Ministerstwo Sprawiedliwości przekaże ci 10 milionów plików PDF z raportami losowego przydziału spraw, wraz z satysfakcją pojawia się wątpliwość - jak wyciągnąć użyteczne dane z takiej masy dokumentów? Opowiem o wyzwaniach związanych z realizacją serwisu https://slps.pl, począwszy od procesu pozyskania dokumentów, przez ekstrakcję tekstu z plików PDF, konieczną rozbudowę domowego peceta, parsowanie tekstu i agregację wartości w bazie danych, aż po generowanie serwisu WWW i jego skrajnie oszczędny hosting. Bonusowo - przykłady błędów i niezgodności otrzymanych raportów ze specyfikacją Systemu Losowego Przydziału Spraw.

Prelegent: Tomasz Zieliński @InfZakladowy@infosec.exchange

Loading comments...