JusticeFusion – Tech Whitepaper
JusticeFusion je modularni AI pravni asistent baziran na Retrieval-Augmented Generation (RAG) arhitekturi i naprednoj upotrebi domaćih pravnih podataka...
1. Pregled sistema i arhitektura
JusticeFusion je modularni AI pravni asistent baziran na Retrieval-Augmented Generation (RAG) arhitekturi i naprednoj upotrebi domaćih pravnih podataka. Sistem je izgrađen od više specijaliziranih modula, razvijenih u Pythonu, koji međusobno komuniciraju kroz jasne API-je i zajedničku bazu podataka.
Može se koristiti kao SaaS (cloud), privatni cloud, ili potpuno lokalno (on-premise), zavisno od zahtjeva korisnika.
Glavne komponente:
- RAG jezgrovni modul (Retrieval + Generation): Povezuje obradu dokumenata i generisanje odgovora.
- Pravni embedding model (SentenceTransformer, cde-small-v2): Trenirano na zakonima i sudskim presudama sa prostora BiH, HR, SR.
- Hybrid retrieval engine: Kombinira vektorsko pretraživanje (FAISS), pretragu ključnih riječi (TF-IDF, BM25) i BM25-score weighting.
- Dokument procesor: Ekstrakcija i obrada teksta iz PDF, DOCX, slika (sa naprednim OCR-om).
- Agentic evaluator: Dvoslojna evaluacija odgovora (prvi model odgovara, drugi provjerava i daje “chain-of-thought” poboljšanja).
- Lokalna pravna baza: Zakoni, propisi, presude – može se proširivati vlastitim ili eksternim dokumentima.
- Web UI/administracija: Intuitivni Streamlit-based interfejs prilagođen advokatima i firmama.
2. Podrška za raznovrsne ulazne formate i napredna obrada teksta
- Podržani formati: PDF, DOCX, tekstualni fajlovi, slike (JPG, PNG, TIFF).
- Automatski OCR: EasyOCR + Tesseract, sa automatskom detekcijom jezika i pisma (ćirilica/latinica).
- Prepoznavanje praznih stranica, header/footer šuma, automatska lematizacija (Stanza + NLTK).
- Chunking dokumenta: Svaki dokument se automatski dijeli u logične cjeline (paragrafi/članci), što omogućava granularno pretraživanje i tačno vraćanje relevantnih odgovora.
3. Legalni embedding i vektorsko pretraživanje
- Embedding model (SentenceTransformer): Prilagođen za pravnu terminologiju i lokalne jezike. Omogućava efikasnu i preciznu semantičku sličnost između korisničkog pitanja i relevantnih dijelova dokumenata.
- FAISS indeksacija: Visokoperformantno vektorsko pretraživanje, spremno za baze sa hiljadama ili desetinama hiljada dokumenata.
- Caching mehanizmi: Embeddingi se keširaju za brze upite i minimiziranje računalnih troškova.
4. Hibridno pretraživanje (vector + keyword + BM25 scoring)
- Vektorska pretraga: Na osnovu semantičke sličnosti (najbliži embeddingi).
- Pretraga po ključnim riječima: TF-IDF i BM25 algoritmi za “traditional IR” kontekst.
- Kombinovano bodovanje: Sistem dinamički određuje težinu svakog izvora (vektor, ključne riječi, BM25), prilagođavajući se tipu upita i korisničkoj bazi.
- RAG pipeline: Najrelevantniji segmenti iz dokumenata automatski se šalju u LLM prompt za generisanje konačnog odgovora.
5. Agentic evaluacija odgovora (multi-step chain-of-thought)
Nakon što LLM generiše prvi odgovor, drugi agent (agentic LLM) automatski analizira:
- Da li su navedeni svi relevantni zakoni, članovi, presude i pravni entiteti?
- Da li je odgovor potpun, precizan i razumljiv?
Ako odgovor nije zadovoljavajući, agent generiše novo (poboljšano) pitanje i vraća ga u RAG pipeline — do tri iteracije po odgovoru (“iterativni chain-of-thought”).
Prednosti: Minimizacija “halucinacija”, povećana tačnost i pravna pouzdanost, manje potrebe za ljudskim “double-checking”.
6. Automatska detekcija pravnih obrazaca i DOCX generator
- Analiza strukture odgovora — model automatski prepoznaje da li se traži izrada formalnog dokumenta (žalba, ugovor, rješenje, dopis…).
- Automatski Word (DOCX) generator: Iz teksta se kreira dokument spreman za print ili dalje uređivanje, sa mogućnošću unosa vlastitih podataka.
7. Prava privatnost i deployment opcije
- On-premise ili cloud: JusticeFusion se može instalirati na lokalni server, u privatni cloud, ili koristiti kao SaaS uz “data residency” garanciju.
- Offline režim: Potpuno funkcionalan i bez internetske konekcije — nijedan podatak, dokument, upit ili odgovor ne napušta korisničku mrežu.
- Prava “private knowledge base” arhitektura: Možete izgraditi i koristiti AI koji poznaje isključivo vašu internu bazu dokumenata — izuzetno pogodno za osjetljive firme, institucije, pravne timove ili notare.
8. Ažuriranje i održavanje baze
- Dodavanje novih dokumenata: Jednostavan upload, automatsko procesiranje i indeksiranje — nema potrebe za ručnim unosom, ponovnim treniranjem ili naprednim IT znanjem.
- Praćenje izmjena zakona: Nova pravila i akti automatski postaju dio baze čim ih dodate.
- Podrška za “dataset versioning”: Svaka izmjena baze može biti verzionisana, omogućavajući povratak na starije verzije po potrebi.
9. Sigurnost i auditi
- Lokalna pohrana podataka: Svi dokumenti, embeddingi i historija upita su na vašim serverima, s mogućnošću šifriranja diska/baze.
- Audit logovi: Svi korisnički pristupi, promjene dokumenata i zahtjevi mogu biti auditirani.
- GDPR i lokalna pravila privatnosti: JusticeFusion može biti konfigurisan da u potpunosti poštuje propise zemlje korisnika.
10. Korisnički interfejs, administracija i integracije
- Web UI (Streamlit based): Intuitivan chat interfejs za svakog pravnika; podržava rad s više razgovora, povijest, izvoz, administraciju korisnika i napredne pretrage.
- Višejezičnost: Bosanski, hrvatski i srpski – automatsko prepoznavanje i prikaz odgovora na željenom jeziku.
- Role-based access control (RBAC): Administratorske i korisničke uloge, mogućnost definiranja različitih nivoa pristupa.
- REST API i webhook integracije: Mogućnost integracije s postojećim DMS, ERP ili CRM rješenjima.
11. Ekosistem i proširivost
- Plug-and-play ekstenzije: Lako dodavanje novih funkcionalnosti, parsera, dodatnih pravnih baza ili novih jezičkih modela.
- Custom workflow: Moguće je napraviti vlastite tokove rada (npr. priprema sudske strategije, automatizacija tipskih obrazaca…).
- Eksterni izvori: Integracija s drugim izvorima prava (open data, sudske baze, internacionalni propisi).
12. Tehnologije i biblioteke
- Backend: Python 3.x, Streamlit, FAISS, PyTorch, SentenceTransformers, Stanza, NLTK, EasyOCR, Docx, PDFMiner, OpenCV, SQLite/LMDB za keširanje.
- Frontend: Streamlit-based responsive UI + custom CSS/JS injekcije za mobile i desktop.
- API: RESTful za administraciju i integraciju, mogućnost webhookova.
13. Roadmap i podrška
- Aktivno se razvija i podržava.
- Mogućnost prilagodbe na specifične procese klijenta.
- Brza podrška, custom onboarding, training za krajnje korisnike i IT osoblje.