Automatyczne rozpoznawanie tekstu w zasobach AKM

Informacje genealogiczne dostępne w Internecie – linki do zasobów, których nie ma w Bibliotece cyfrowej w Katalog linków lub w wątkach tematycznych na tym podforum. Przed wysłaniem zapytania o nazwisko lub parafię, proszę sprawdzić wątki na podforum tematycznym: Poszukuję osób, rodzin oraz Poszukuję parafii, miejscowości

Moderatorzy: elgra, Galinski_Wojciech, maria.j.nie, adamgen

Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Automatyczne rozpoznawanie tekstu w zasobach AKM

Post autor: Kamil_Reszczyk »

Cześć wszystkim!

Miałem wczoraj wolny wieczór i postanowiłem połączyć swoją pasję genealogii z technologią.

Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie. Następnie, za pomocą usług Google Cloud, automatycznie wykrywa tekst pisany odręcznie i przekształca go na tekst maszynowy. Efekty mojej pracy można zobaczyć pod poniższym linkiem:

Na pierwszy rzut użyłem: https://caak.upjp2.edu.pl/j/5ec4fe512cc ... bf15/s/0/f

efekt:

http://genealogia.reszczyk.pl/AKM/ACTA% ... Aadm24.txt

Chciałbym poznać waszą opinię na ten temat. Ktoś może próbował czegoś podobnego?

Czekam na wasze opinie i komentarze.
Awatar użytkownika
piotr_nojszewski

Sympatyk
Nowicjusz
Posty: 1667
Rejestracja: ndz 21 kwie 2013, 01:17
Lokalizacja: Warszawa
Kontakt:

Post autor: piotr_nojszewski »

Super. Generalnie to przyszłość. I tak trzeba.
Mormoni tak już od pewnie 2 lat indeksują metryki. Podobnie zapewne indeksowano spis mieszkańców USA z 1950.

Rozpoznaje się tekst metryki a potem AI rozpoznaje imiona i nazwiska.
W zasadzie w tak odczytanym tekście nawet ChatGPT odszuka nazwiska.
Potem interfejs białkowy to weryfikuje.

Warto to kontynuować.
pozdrawiam
Piotr
Lena8806
Posty: 1
Rejestracja: czw 02 lis 2023, 12:19

Post autor: Lena8806 »

Brawo. Podziwiam. czy istnieje jakaś technologiczna możliwość własnie przekształcenie pisma odręcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe? Mam bardzo dużo aktów własnie pisanych cyrylicą, i nie jestem w stanie nawet tego odczytac.
mzielinski.pl

Sympatyk
Posty: 23
Rejestracja: pt 08 kwie 2022, 06:20
Lokalizacja: Bangkok

Post autor: mzielinski.pl »

Lena8806 pisze:czy istnieje jakaś technologiczna możliwość własnie przekształcenie pisma odręcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe?
Tak, technologia nazywa się OCR. nawet można spróbować na różnych modelach, które rozpoznają pismo ręczne. Działa to czasem dobrze, czasem niekoniecznie. Można zobaczyć np. tutaj przykładowe modele: https://readcoop.eu/model/russian-civil ... -xix-cent/ Można również samemu spróbować takie modele wytrenować, jednak dosyć sporo czasu by zajęło kolekcjonowanie danych i ich oczyszczanie.
Pozdrawiam
Pozdrawiam
Michał
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Będę dodawał więcej pod adresem:

http://genealogia.reszczyk.pl/AKM/
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

W czasie ostatnich kilku dni przetworzyła się:

(całość)
ACTA EPISCOPALIA
http://genealogia.reszczyk.pl/AKM/ACTA%20EPISCOPALIA/

i

(do Aadm15)
ACTA ADMINISTRATORIALIAM
http://genealogia.reszczyk.pl/AKM/ACTA% ... ATORIALIA/

W niedługim czasie dodam jeszcze opcje wyszukiwania na stronie, tak aby można było wyszukiwać konkretnych nazwisk jeszcze wygodniej.
Lewandowicz_Adam
Mistrz
Posty: 4
Rejestracja: sob 14 lip 2018, 08:55

Post autor: Lewandowicz_Adam »

To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
Lakiluk

Sympatyk
Posty: 1198
Rejestracja: ndz 11 lip 2021, 21:31

Re: Automatyczne rozpoznawanie tekstu w zasobach AKM

Post autor: Lakiluk »

Kamil_Reszczyk pisze:Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie.
Pomijając już, że CAAK to kapiszon za publiczne pieniądze, to czy zostanie udostępnione narzędzie do pobierania ksiąg?
Łukasz
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
marekzaborski

Sympatyk
Nowicjusz
Posty: 399
Rejestracja: pt 27 sie 2010, 09:16

Post autor: marekzaborski »

Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!

Dzień dobry,

można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt

Pozdrawiam
Marek
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Na podstawie tego:
https://postimg.cc/jCsCZQhL

To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło. :)

[edit]

Ok, już widzę że w AG15 mam AEP107. Poprawiam.

Dzięki za wyłapanie tego :)
marekzaborski pisze:
Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!

Dzień dobry,

można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt

Pozdrawiam
Marek
Awatar użytkownika
igoriosso

Administrator Geneteki
Legenda
Posty: 417
Rejestracja: wt 25 gru 2007, 22:43

Post autor: igoriosso »

Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD.
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

igoriosso pisze:Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD.
Na pewno warto, ta usługa od google radzi sobie całkiem dobrze z rozpoznawaniem tekstu. Wrzucam ten na szybko napisany kawałek kodu, który użyłem do tego:

https://github.com/k4Mr3/AKMCrawler

AKMCrawler.py - służy do ściągania ksiąg z AKM
GoogleOCR.py wysyła wszystkie pliki o nazwach od 1.jpg do n.jpg do googla i zapisuje jako tekst. Trzeba mieć skonfigurowany google cloud do tego.

Jakiś minimum znajomości programowania w python potrzeba aby z tego skorzystać.

Sam zamierzam się zając księgami ziemskimi krakowskimi.

https://www.szukajwarchiwach.gov.pl/en/ ... a/13464491

[edit]

Tak wyszło:
http://genealogia.reszczyk.pl/Ksiegi%20 ... ie/468.txt
Ostatnio zmieniony pn 06 lis 2023, 01:44 przez Kamil_Reszczyk, łącznie zmieniany 1 raz.
sirdaniel

Sympatyk
Posty: 322
Rejestracja: ndz 25 mar 2012, 19:54

Post autor: sirdaniel »

To jest naprawdę sprawa o wielkim znaczeniu. W internecie jest i przybędzie mnóstwo ksiąg sądowych, czy innych, metryk itp. Których rozczytywanie trwa długo, a czasem jest niemozliwe. Taka usługa to skarb dla społeczności. Myslę, że można to ustawic na jakiejśc stronie i robić dekrypcje czy indeksy na wzór geneteki, itp. Najlepiej jakby ktos sie tym zajmował na stałe :)
Jego Najjaśniejsza Mość Wielmożny Wielce Szanowny Mocium Pan Magister Daniel

Obrazek
marekzaborski

Sympatyk
Nowicjusz
Posty: 399
Rejestracja: pt 27 sie 2010, 09:16

Post autor: marekzaborski »

Kamil_Reszczyk pisze:Na podstawie tego:
https://postimg.cc/jCsCZQhL

To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło. :)
[edit]
Ok, już widzę że w AG15 mam AEP107. Poprawiam.
Dzięki za wyłapanie tego :)
marekzaborski pisze:
Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Dzień dobry,
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek
Dzięki za sprawdzenie.

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek
ODPOWIEDZ

Wróć do „Zasoby internetowe”