Skanoteka - indeksowanie zespołów sądowych przez AI

Tematy - indeksacja i digitalizacja metryk, projekty PTG

Moderatorzy: elgra, maria.j.nie

Jaki zespół w pierwszej kolejności dać do obróbki (10 jednostek z II połowy XVIII w.)?

Czas głosowania minie czw 26 lut 2026, 15:02

księgi grodzkie bobrownickie
0
Brak głosów
księgi grodzkie bydgoskie
1
2%
księgi grodzkie ciechanowskie
6
12%
księgi ławnicze kowalewskie
1
2%
księgi grodzkie nurskie
8
15%
księgi grodzkie płockie
5
10%
księgi grodzkie sieradzkie
10
19%
księgi grodzkie wileńskie
6
12%
księgi grodzkie zakroczymskie
5
10%
zbiór szczątków zespołów sądowych (miejskich) z woj. małopolskiego (AN Kraków, zespół nr 121)
10
19%
 
Liczba głosów: 52
Awatar użytkownika
Michał_Zieliński

Zarząd PTG
Legenda
Posty: 1156
Rejestracja: wt 22 lut 2011, 13:00
Lokalizacja: Warszawa
Otrzymał podziękowania: 37 times

Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Michał_Zieliński »

Miło mi ogłosić, że wprowadziliśmy w Skanotece tagowanie (indeksowanie) akt sądowych przez sztuczną inteligencję - AI, a do tego udostępniamy robioną przy okazji przez AI pełną transliterację i tłumaczenie wpisów. :D

Jednostki już dostępne
W ramach testów zostało obrobionych całościowo 5 jednostek:
- księga grodzka płocka: https://skanoteka.genealodzy.pl/id1669-sy141-se1
- księga grodzka nurska:https://skanoteka.genealodzy.pl/id4652-sy29-se4
- księga grodzka ciechanowska: https://skanoteka.genealodzy.pl/id1671-sy163-se1
- księga wójtowsko-ławnicza gminy Krowodrza: https://skanoteka.genealodzy.pl/id3428-sy4-se
- księga wójtowsko-ławnicza jurydyki Grabary: https://skanoteka.genealodzy.pl/id3059-sy46-se31

Jak korzystać
Przy tagach zrobionych przez AI pojawia się ikonka AI. Dla przypomnienia: tagi obejmują osoby (imię i nazwisko) i miejscowości i są przeszukiwalne z poziomu zespołu, z poziomu typu dokumentów (sądowe) oraz z poziomu całej Skanoteki.

W przypadku skanów obrobionych przez AI w prawym dolnym rogu pojawia się ikona „Pokaż tłumaczenie”. Po jej naciśnięciu podświetlają się zaznaczenia wpisów. Po kliknięciu na dany wpis wyświetli się jego transliteracja i tłumaczenie.

Co trzeba mieć na uwadze korzystając z tagów i tłumaczeń?
Mogą zawierać błędy, czasem istotne – jest to nieuniknione na tym etapie rozwoju AI. Jednocześnie jesteśmy realistami i wiemy, że weryfikacja tagów przed ich publikacją, na masową skalę (a na taką skalę chcemy obrabiać księgi), nie mówiąc o weryfikacji transliteracji i tłumaczeń, jest nie do osiągnięcia: nie ma do tego wystarczająco dużo chętnych, z odpowiednią wiedzą (tłumaczenia). Dlatego wolimy już teraz udostępnić coś, co w dużej części jest prawidłowe, choć może zawierać błędy, niż czekać na ideał, którego osiągnięcie w praktyce będzie albo niemożliwe, albo będzie trwało latami.

Tagi można weryfikować: po zauważeniu błędu każdy zalogowany użytkownik może wprowadzić tag z prawidłowymi danymi („błędny” tag AI zostanie, użytkownicy nie mogą ich usuwać). Tagi AI jak i transliteracje i tłumaczenia mogą być w przyszłości przetworzone ponownie. Nowe tagi AI zastąpią wyłącznie tagi AI (tagi użytkowników nie będą usuwane ani nadpisywane).

Jak będziemy działać dalej, co będzie obrabiane?
Na początek bardzo istotna uwaga: OBRÓBKA AI NIE DOTYCZY AKT METRYKALNYCH. Z nimi AI sobie nie radzi (brak kontekstu) – pewien poziom błędów akceptowalny przy księgach sądowych, jest zupełnie nie do zaakceptowania przy metrykach - będą indeksowane jak dotychczas do Geneteki, nic się tu nie zmienia.
Na teraz obróbka dotyczy wyłącznie ksiąg sądowych (grodzkie, ziemskie, ławnicze, wiejskie, gruntowe, ewentualnie inne).

Jak wygląda obróbka?
Aby AI mogło zacząć swoją pracę, trzeba najpierw zaznaczyć ręcznie każdy tekst, który stanowi całość [to te kolorowe prostokąty, widoczne po wciśnięciu przycisku "Pokaż tłumaczenie" - możecie sprawdzić np. tu: https://skanoteka.genealodzy.pl/index.p ... ik=137.jpg ]. AI sobie z tym nie radzi, musimy to zrobić my. Jest to niezwykle proste, choć żmudne i czasochłonne (ze względu na ilość) zajęcie. Naszym celem jest przetłumaczenie wszystkich zespołów sądowych, jakie są (lub będą) w Skanotece. Nie chcemy więc robić pojedynczych ksiąg z różnych zespołów, tylko obrabiać je „blokami”, aby dostarczać efektywny wynik. Potrzebujemy więc Waszej pomocy – ochotników, którzy, będą oznaczali skany tymi „prostokątami”, co umożliwi ich obróbkę przez AI. Dodatkowo do każdego zespolu trzeba stworzyć listę nazwisk i miejscowości, które najczęściej występują w danym rejonie/zespole (to zmniejsza liczbę błędów).
Będziemy ogłaszać „nabory” na wybrane części zespołów ksiąg sądowych: tutaj, na profilu FB Skanoteki, w Grupie Skanoteka – obróbka AI na FB.
Oczywiście wszystko wytłumaczymy, choć podkreślam – samo zajęcie jest banalnie proste i wymaga tylko dostępu do Internetu.
Zapraszamy Was do wyboru pierwszej większej grupy ksiąg (10 jednostek), którą poddamy obróbce: ankieta jest dostępna powyżej, trwa 5 dni! Oczywiście pamiętajcie, że oprócz zagłosowania, potrzebujemy ochotników, którzy księgi oznaczą;-).

Koszt
Obróbka skanów przez AI (odczytywanie tekstu, transliteracja, tłumaczenie, tagi) jest płatną usługą (korzystamy z Gemini). Ten koszt ponosi PTG. Biorąc pod uwagę zamierzoną skalę obróbki – koszt będzie bardzo wysoki. Na początek, m.in. dzięki hojnemu wsparciu w postaci darowizn i przede wszystkim 1,5% przekazanemu w zeszłym roku – stać nas na to. Nie wiemy czy tak będzie mogło być cały czas – nie wykluczamy przeprowadzania np. zbiórek celowych na obróbkę konkretnych partii. To zależy od tego, jakie będą koszty przy obróbce na większą skalę. Tak więc proszę pamiętajcie o nas przy rozliczeniu PITa rocznego w tym roku i kolejnym latach, bo to na pewno pozwoli nam finansować w większym zakresie obróbkę AI.
Finalny produkt, jak zawsze u nas, będzie dostępny dla wszystkich, za darmo w Skanotece.

Zapraszamy do udziału w ankiecie, korzystania, włączajcie się w obróbkę skanów, weryfikację i poprawianie tagów, no i wesprzyjcie nas swoim 1,5% w tym roku!
Pozdrawiam,
Michał
Awatar użytkownika
Kołakowski_Jerzy

Sympatyk
Posty: 32
Rejestracja: pn 24 sie 2015, 09:50
Lokalizacja: ELBLĄG

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Kołakowski_Jerzy »

Czy tylko księgi umieszczone w SKANOTECE będą indeksowane?

Jerzy Kołakowski
Pawłowska_Ledke_Elżbieta

Sympatyk
Nowicjusz
Posty: 341
Rejestracja: ndz 11 kwie 2010, 09:53
Podziękował: 5 times

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Pawłowska_Ledke_Elżbieta »

Michale!

Genialne. Bardzo dziękujemy.

Elżbieta
Poszukuję akt śl. z Mazowsza:
Jan Krajewski i Wiktoria Skalińska przed 1813, Roman Morawski/Murawski i Salomea p.1804, z Podkarpacia, Galicji: Paweł Pawłowski i Marianna p. 1813, rodzice Aleksandra ur. 1813 Sieniawa
Awatar użytkownika
Michał_Zieliński

Zarząd PTG
Legenda
Posty: 1156
Rejestracja: wt 22 lut 2011, 13:00
Lokalizacja: Warszawa
Otrzymał podziękowania: 37 times

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Michał_Zieliński »

Kołakowski_Jerzy pisze: ndz 22 lut 2026, 17:11 Czy tylko księgi umieszczone w SKANOTECE będą indeksowane?

Jerzy Kołakowski
Tak - tagowanie dotyczy tylko ksiąg ze Skanoteki.
Pozdrawiam,
Michał
sirdaniel

Sympatyk
Posty: 323
Rejestracja: ndz 25 mar 2012, 19:54

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: sirdaniel »

Coś pięknego, brawo.

Czy na pewno obróbka akt metrykalnych jest tak słaba? Może zostawić Ai dekodowanie samych imion i nazwisk, wydaje mi się to działa, zarówno a aktach tabelarycznych jak i opisowych. Ale może szkoda uruchamiać Ai tylko do częściowej obróbki?
Jego Najjaśniejsza Mość Wielmożny Wielce Szanowny Mocium Pan Magister Daniel

Obrazek
ODPOWIEDZ

Wróć do „Indeksacja metryk - projekty PTG”