Skanoteka - indeksowanie zespołów sądowych przez AI

Tematy - indeksacja i digitalizacja metryk, projekty PTG

Moderatorzy: elgra, maria.j.nie

Jaki zespół w pierwszej kolejności dać do obróbki (10 jednostek z II połowy XVIII w.)?

Czas głosowania minie czw 26 lut 2026, 15:02

księgi grodzkie bobrownickie
1
2%
księgi grodzkie bydgoskie
1
2%
księgi grodzkie ciechanowskie
7
11%
księgi ławnicze kowalewskie
1
2%
księgi grodzkie nurskie
10
15%
księgi grodzkie płockie
5
8%
księgi grodzkie sieradzkie
12
18%
księgi grodzkie wileńskie
8
12%
księgi grodzkie zakroczymskie
5
8%
zbiór szczątków zespołów sądowych (miejskich) z woj. małopolskiego (AN Kraków, zespół nr 121)
16
24%
 
Liczba głosów: 66
Awatar użytkownika
Michał_Zieliński

Zarząd PTG
Legenda
Posty: 1158
Rejestracja: wt 22 lut 2011, 13:00
Lokalizacja: Warszawa
Podziękował: 1 time
Otrzymał podziękowania: 42 times

Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Michał_Zieliński »

Miło mi ogłosić, że wprowadziliśmy w Skanotece tagowanie (indeksowanie) akt sądowych przez sztuczną inteligencję - AI, a do tego udostępniamy robioną przy okazji przez AI pełną transliterację i tłumaczenie wpisów. :D

Jednostki już dostępne
W ramach testów zostało obrobionych całościowo 5 jednostek:
- księga grodzka płocka: https://skanoteka.genealodzy.pl/id1669-sy141-se1
- księga grodzka nurska:https://skanoteka.genealodzy.pl/id4652-sy29-se4
- księga grodzka ciechanowska: https://skanoteka.genealodzy.pl/id1671-sy163-se1
- księga wójtowsko-ławnicza gminy Krowodrza: https://skanoteka.genealodzy.pl/id3428-sy4-se
- księga wójtowsko-ławnicza jurydyki Grabary: https://skanoteka.genealodzy.pl/id3059-sy46-se31

Jak korzystać
Przy tagach zrobionych przez AI pojawia się ikonka AI. Dla przypomnienia: tagi obejmują osoby (imię i nazwisko) i miejscowości i są przeszukiwalne z poziomu zespołu, z poziomu typu dokumentów (sądowe) oraz z poziomu całej Skanoteki.

W przypadku skanów obrobionych przez AI w prawym dolnym rogu pojawia się ikona „Pokaż tłumaczenie”. Po jej naciśnięciu podświetlają się zaznaczenia wpisów. Po kliknięciu na dany wpis wyświetli się jego transliteracja i tłumaczenie.

Co trzeba mieć na uwadze korzystając z tagów i tłumaczeń?
Mogą zawierać błędy, czasem istotne – jest to nieuniknione na tym etapie rozwoju AI. Jednocześnie jesteśmy realistami i wiemy, że weryfikacja tagów przed ich publikacją, na masową skalę (a na taką skalę chcemy obrabiać księgi), nie mówiąc o weryfikacji transliteracji i tłumaczeń, jest nie do osiągnięcia: nie ma do tego wystarczająco dużo chętnych, z odpowiednią wiedzą (tłumaczenia). Dlatego wolimy już teraz udostępnić coś, co w dużej części jest prawidłowe, choć może zawierać błędy, niż czekać na ideał, którego osiągnięcie w praktyce będzie albo niemożliwe, albo będzie trwało latami.

Tagi można weryfikować: po zauważeniu błędu każdy zalogowany użytkownik może wprowadzić tag z prawidłowymi danymi („błędny” tag AI zostanie, użytkownicy nie mogą ich usuwać). Tagi AI jak i transliteracje i tłumaczenia mogą być w przyszłości przetworzone ponownie. Nowe tagi AI zastąpią wyłącznie tagi AI (tagi użytkowników nie będą usuwane ani nadpisywane).

Jak będziemy działać dalej, co będzie obrabiane?
Na początek bardzo istotna uwaga: OBRÓBKA AI NIE DOTYCZY AKT METRYKALNYCH. Z nimi AI sobie nie radzi (brak kontekstu) – pewien poziom błędów akceptowalny przy księgach sądowych, jest zupełnie nie do zaakceptowania przy metrykach - będą indeksowane jak dotychczas do Geneteki, nic się tu nie zmienia.
Na teraz obróbka dotyczy wyłącznie ksiąg sądowych (grodzkie, ziemskie, ławnicze, wiejskie, gruntowe, ewentualnie inne).

Jak wygląda obróbka?
Aby AI mogło zacząć swoją pracę, trzeba najpierw zaznaczyć ręcznie każdy tekst, który stanowi całość [to te kolorowe prostokąty, widoczne po wciśnięciu przycisku "Pokaż tłumaczenie" - możecie sprawdzić np. tu: https://skanoteka.genealodzy.pl/index.p ... ik=137.jpg ]. AI sobie z tym nie radzi, musimy to zrobić my. Jest to niezwykle proste, choć żmudne i czasochłonne (ze względu na ilość) zajęcie. Naszym celem jest przetłumaczenie wszystkich zespołów sądowych, jakie są (lub będą) w Skanotece. Nie chcemy więc robić pojedynczych ksiąg z różnych zespołów, tylko obrabiać je „blokami”, aby dostarczać efektywny wynik. Potrzebujemy więc Waszej pomocy – ochotników, którzy, będą oznaczali skany tymi „prostokątami”, co umożliwi ich obróbkę przez AI. Dodatkowo do każdego zespolu trzeba stworzyć listę nazwisk i miejscowości, które najczęściej występują w danym rejonie/zespole (to zmniejsza liczbę błędów).
Będziemy ogłaszać „nabory” na wybrane części zespołów ksiąg sądowych: tutaj, na profilu FB Skanoteki, w Grupie Skanoteka – obróbka AI na FB.
Oczywiście wszystko wytłumaczymy, choć podkreślam – samo zajęcie jest banalnie proste i wymaga tylko dostępu do Internetu.
Zapraszamy Was do wyboru pierwszej większej grupy ksiąg (10 jednostek), którą poddamy obróbce: ankieta jest dostępna powyżej, trwa 5 dni! Oczywiście pamiętajcie, że oprócz zagłosowania, potrzebujemy ochotników, którzy księgi oznaczą;-).

Koszt
Obróbka skanów przez AI (odczytywanie tekstu, transliteracja, tłumaczenie, tagi) jest płatną usługą (korzystamy z Gemini). Ten koszt ponosi PTG. Biorąc pod uwagę zamierzoną skalę obróbki – koszt będzie bardzo wysoki. Na początek, m.in. dzięki hojnemu wsparciu w postaci darowizn i przede wszystkim 1,5% przekazanemu w zeszłym roku – stać nas na to. Nie wiemy czy tak będzie mogło być cały czas – nie wykluczamy przeprowadzania np. zbiórek celowych na obróbkę konkretnych partii. To zależy od tego, jakie będą koszty przy obróbce na większą skalę. Tak więc proszę pamiętajcie o nas przy rozliczeniu PITa rocznego w tym roku i kolejnym latach, bo to na pewno pozwoli nam finansować w większym zakresie obróbkę AI.
Finalny produkt, jak zawsze u nas, będzie dostępny dla wszystkich, za darmo w Skanotece.

Zapraszamy do udziału w ankiecie, korzystania, włączajcie się w obróbkę skanów, weryfikację i poprawianie tagów, no i wesprzyjcie nas swoim 1,5% w tym roku!
Pozdrawiam,
Michał
Awatar użytkownika
Kołakowski_Jerzy

Sympatyk
Posty: 32
Rejestracja: pn 24 sie 2015, 09:50
Lokalizacja: ELBLĄG

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Kołakowski_Jerzy »

Czy tylko księgi umieszczone w SKANOTECE będą indeksowane?

Jerzy Kołakowski
Pawłowska_Ledke_Elżbieta

Sympatyk
Nowicjusz
Posty: 341
Rejestracja: ndz 11 kwie 2010, 09:53
Podziękował: 5 times

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Pawłowska_Ledke_Elżbieta »

Michale!

Genialne. Bardzo dziękujemy.

Elżbieta
Poszukuję akt śl. z Mazowsza:
Jan Krajewski i Wiktoria Skalińska przed 1813, Roman Morawski/Murawski i Salomea p.1804, z Podkarpacia, Galicji: Paweł Pawłowski i Marianna p. 1813, rodzice Aleksandra ur. 1813 Sieniawa
Awatar użytkownika
Michał_Zieliński

Zarząd PTG
Legenda
Posty: 1158
Rejestracja: wt 22 lut 2011, 13:00
Lokalizacja: Warszawa
Podziękował: 1 time
Otrzymał podziękowania: 42 times

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Michał_Zieliński »

Kołakowski_Jerzy pisze: ndz 22 lut 2026, 17:11 Czy tylko księgi umieszczone w SKANOTECE będą indeksowane?

Jerzy Kołakowski
Tak - tagowanie dotyczy tylko ksiąg ze Skanoteki.
Pozdrawiam,
Michał
sirdaniel

Sympatyk
Posty: 323
Rejestracja: ndz 25 mar 2012, 19:54

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: sirdaniel »

Coś pięknego, brawo.

Czy na pewno obróbka akt metrykalnych jest tak słaba? Może zostawić Ai dekodowanie samych imion i nazwisk, wydaje mi się to działa, zarówno a aktach tabelarycznych jak i opisowych. Ale może szkoda uruchamiać Ai tylko do częściowej obróbki?
Jego Najjaśniejsza Mość Wielmożny Wielce Szanowny Mocium Pan Magister Daniel

Obrazek
Rokdar

Sympatyk
Posty: 364
Rejestracja: ndz 12 maja 2024, 12:55
Podziękował: 6 times
Otrzymał podziękowania: 2 times

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Rokdar »

Niesamowite! :D
Pozdrawiam
Marcin


Nazwiska: Brauer, Cywiński, Dobrzański, Öhm(e), Nadolski, Rokicki, Rzączyński, Torriani, Visconti, etc.
Poszukuję wszelkich informacji o rodzinie Fergen i o mieszczaństwu krakowskim w XVIII wieku.
rafal_rr

Sympatyk
Nowicjusz
Posty: 113
Rejestracja: pt 06 sty 2023, 22:44
Podziękował: 2 times

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: rafal_rr »

sirdaniel pisze: ndz 22 lut 2026, 21:56 Coś pięknego, brawo.

Czy na pewno obróbka akt metrykalnych jest tak słaba? Może zostawić Ai dekodowanie samych imion i nazwisk, wydaje mi się to działa, zarówno a aktach tabelarycznych jak i opisowych. Ale może szkoda uruchamiać Ai tylko do częściowej obróbki?
Ja kiedyś próbowałem kilka aktów roczytać za pomocą gemini. Lata 30 XX wieku, pismo czytelne. AI sobie radził dosłownie z niemal każdym słowem poza imieniem, nazwiskiem, wiekiem i nazwą miejscowości :D
Ale postęp w tej materii następuje z dnia na dzień, mam nadzieję, że już niedługo jakość będzie o wiele lepsza
Pozdrawiam,
Rafał
semux

Sympatyk
Adept
Posty: 17
Rejestracja: czw 20 kwie 2023, 15:56
Lokalizacja: Nowe Grabie koło Gąbina
Otrzymał podziękowania: 2 times

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: semux »

Testuję różne modele AI do odczytywania pisma odręcznego i Gemini nie ma tu konkurencji, robi to najlepiej, choć nie idealnie, ale postęp jest z wersji na wersję.

Oto test najnowszego modelu Gemini 3.1 Pro z ustawieniem media resolution ma high.
Poniżej 3 akty urodzeń z Piotrkowa Trybunalskiego z roku 1857, każdy wycięty (bo tak AI najlepiej rozpoznaje).
Dla każdego tekst rozpoznany przez AI i uwagi AI.

Akt 1.
Nazwisko chrzestnego odczytał jako Rotesgruben, a pewnie powinno być Rotengruber.

Akt 2.
Nieprawidłowo rozpoznane nazwisko matki zamiast Hentz lub Hintz rozpoznał Flasz.
Nazwisko świadka rozpoznał jako Wotka - podejrzewam, że powinno być Wołka, ale i mi to trudno odczytać.

Akt 3.
Tu nazwisko matki odczytał jako Ciecyk, a powinno być Piecyk, ale to P jest pisane jakoś dziwnie.

Przy okazji rozpoznawania tekstu AI dostał zadanie przygotowania do indeksu (i nawet więcej) i po przejrzeniu Na 20 aktów, zawsze dobrze rozpoznał daty, wiek i imiona.

Pomyłki dotyczą nazwisk (po prawej prawidłowe nazwisko) oto pomyłki w nazwiskach rodziców, świadków i chrzestnych w aktach od 4 do 20:
Grzybysz -> Przybysz
Wawrzyniak -> Woszczyniak
Musiński -> Muszyński
Bartyniak -> Bartysiak
Skoryciński -> Koryciński
Laska -> Lasota
Banaszak -> Banaszczak
Łyszkowski -> Łyczkowski
Łęcka -> Łącka (ale sam nie wiem czy na pewno)
Walerińska -> Walesińska
Gąsior -> Gajos
Jex -> Jeż
Tkacz -> Kautz lub Kantz

Nawet jak źle odczyta nazwisko to często jest ono zbliżone do prawidłowego.

Odczytanie treści z 313 aktów kosztowało mnie ok.17zł co jest dość sporym kosztem, ale gdyby zrobił to bezbłędnie - to akceptowalnym.

Wg mnie modele AI, to jest przyszłość dla masowej indeksacji dokumentów genealogicznych, jeszcze nie dziś, ale za rok-dwa.

Tu skany i rozpoznane treści:
Skan aktu nr 1
Obrazek
https://zapodaj.net/plik-JXmL6EMEKi


Treść rozpoznana przez AI do aktu 1:
[NA MARGINESIE: Piotrków 1]
Akta Urodzonych na 1857 roku
Działo się w Mieście Piotrkowie dnia pierwszego Stycznia tysiąc
ośmset pięćdziesiąt siódmego roku, o godzinie trzeciej po południu. Sta-
wił się Franciszek Dąbrowski, siodlarz w Piotrkowie zamieszka-
ły, lat dwadzieścia cztery liczący, w obecności Andrzeja Do-
browolskiego lat siedmdziesiąt cztery, i Józefa Śliwińskiego lat
czterdzieści pięć liczących sług Kościelnych w Piotrkowie zamiesz-
kałych, i okazał nam dziecię płci męzkiej urodzone w Piotrko-
wie dnia dwudziestego dziewiątego Grudnia roku zeszłego,
o godzinie czwartej rano, z jego małżonki Anny z Majewskich
lat dwadzieścia liczącej. Dziecięciu temu na Chrzcie świętym
w dniu dzisiejszym odbytym, nadane zostało imię Karol, a
Rodzicami jego Chrzestnemi byli Jan Rotesgruben i Anna
Piotrowska. Akt ten stawającemu i świadkom przeczytany
przez nich nie podpisany, gdyż pisać nie umieją. -
Ks. Jakubowski [?]
Uwagi AI:
Data urodzenia to 29 grudnia 'roku zeszłego', co w kontekście daty aktu (1 stycznia 1857) oznacza rok 1856. Nazwisko ojca chrzestnego odczytano jako 'Rotesgruben', choć końcówka jest lekko zamazana. Zachowano oryginalną pisownię słów takich jak 'męzkiej' czy 'siedmdziesiąt'.

Skan aktu nr 2
Obrazek
https://zapodaj.net/plik-KFD2BzPOcU


Treść rozpoznana przez AI do aktu 2:
[NA MARGINESIE: Piotrków
2.]
Działo się w Mieście Piotrkowie dnia pierwszego Stycznia
tysiąc ośmset pięćdziesiąt siódmego roku. o godzinie czwartej
popołudniu. Stawiła się Małgorzata Błach wyrobnica
z Piotrkowa lat dwadzieścia ośm mająca, w obecności Ada-
ma Magiery lat dwadzieścia dwa i Benedykta Wotka
lat trzydzieści liczących, obudwu w Piotrkowie zamiesz-
kałych.. i okazała nam dziecię płci żeńskiej urodzone
w Piotrkowie dnia dwudziestego szóstego Grudnia roku
zeszłego, o godzinie jedenastej w nocy z Maryanny Flasz
służącej, wolnej lat trzydzieści mającej. Dziecięciu temu
na Chrzcie świętym w dniu dzisiejszym odbytym nada-
ne zostało imię Małgorzata - a Rodzicami jego Chrzest-
nemi byli Adam Magiera i Małgorzata Błach. Akt
ten stawiającej i świadkom przeczytany, przez nich nie
podpisany, gdyż pisać nie umieją. - Ks. Jakubowski
Uwagi AI:
Dziecko nieślubne (matka określona jako 'wolna'), zgłoszone przez wyrobnicę Małgorzatę Błach. Nazwisko matki odczytano jako 'Flasz', jednak zapis może być interpretowany również jako 'Flesz'. Brak danych ojca, dlatego sekcja 'ojciec' została pominięta.
Skan aktu nr 3
Obrazek
https://zapodaj.net/plik-hoc46sBsyV


Treść rozpoznana przez AI do aktu 3:
[NA MARGINESIE: Piotrków
3.]
Działo się w Mieście Piotrkowie dnia pierwszego
Stycznia tysiąc ośmset pięćdziesiąt siódmego roku, o go-
dzinie czwartej po południu. Stawiła się Rozalia Wróblew-
ska wyrobnica wdowa z Piotrkowa lat sześćdziesiąt
mająca, w obecności Szymona Mankiewicza lat trzydzieści
pięć, i Wincentego Wróbla lat dwadzieścia siedm liczą-
cych wyrobników w Piotrkowie zamieszkałych, i okaza-
ła nam dziecię płci męzkiej urodzone w Piotrkowie
dnia dwudziestego dziewiątego Grudnia roku zeszłe-
go, o godzinie siódmej rano z Jadwigi Ciecyk od lat
kilku wdowy lat czterdzieści mającej. Dziecięciu
temu na Chrzcie świętym w dniu dzisiejszym odby-
tym nadane zostało imie Baltazar, a Rodzi-
cami jego chrzestnemi byli Szymon Man-
kiewicz i Magdalena Rogala. Akt ten sta-
wającej i świadkom przeczytany, a że pisać
nie umieją, przez nas tylko podpisany zo-
stał. -
Ks. Jakóbowski[?]
Uwagi AI:
Dziecko urodzone z matki wdowy (Jadwigi Ciecyk), ojciec nieznany. Akt zgłosiła osoba trzecia - Rozalia Wróblewska (wyrobnica, wdowa). Nazwisko dziecka w strukturze JSON przyjęto po matce. Podpis księdza na końcu aktu jest trudny do jednoznacznego odczytania, prawdopodobnie 'Ks. Jakóbowski' lub 'Jakubowski'.
Pozdrawiam
Sergiusz
Jan.Pacek

Sympatyk
Posty: 252
Rejestracja: pn 13 sty 2025, 15:00
Podziękował: 1 time
Otrzymał podziękowania: 20 times

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: Jan.Pacek »

semux pisze: pn 23 lut 2026, 18:42 ... zawsze dobrze rozpoznał daty, wiek i imiona.
Pomyłki dotyczą nazwisk
Nawet jak źle odczyta nazwisko to często jest ono zbliżone do prawidłowego.
Sergiusz
Czyli rozpoznał dobrze cyfry i liczby, a najważniejsze - czyli nazwisko - nie potrafi.
Laska -> Lasota
Gąsior -> Gajos
Tkacz -> Kautz lub Kantz
Przecież to jest takie samo dno jak wyszukiwanie polskich nazwisk w metrykach na familysearch zindeksowanych przez amerykanów.
Znajdę tam Laska i Lasota jak wpiszę w wyszukiwarce las*
Znajdę Gąsior i Gajos jak wpiszę ga*
Znajdę Tkacz i Kautz jak wpiszę *ka*
* - czyli gwiazdka w wyszukiwarce fs jest podstawowym znakiem przy szukaniu nazwisk i imion.
I to samo przy pomocy AI?
I jeszcze mam za to płacić? Na fs jest za darmo...
Dziękuję, postoję...
skapska_honorata

Sympatyk
Mistrz
Posty: 78
Rejestracja: pn 28 sty 2008, 19:02

Re: Skanoteka - indeksowanie zespołów sądowych przez AI

Post autor: skapska_honorata »

To jest cudo. Pozdrawiam Honorata
ODPOWIEDZ

Wróć do „Indeksacja metryk - projekty PTG”