Strona 1 z 2

Automatyczne rozpoznawanie tekstu w zasobach AKM

: czw 02 lis 2023, 00:48
autor: Kamil_Reszczyk
Cześć wszystkim!

Miałem wczoraj wolny wieczór i postanowiłem połączyć swoją pasję genealogii z technologią.

Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie. Następnie, za pomocą usług Google Cloud, automatycznie wykrywa tekst pisany odręcznie i przekształca go na tekst maszynowy. Efekty mojej pracy można zobaczyć pod poniższym linkiem:

Na pierwszy rzut użyłem: https://caak.upjp2.edu.pl/j/5ec4fe512cc ... bf15/s/0/f

efekt:

http://genealogia.reszczyk.pl/AKM/ACTA% ... Aadm24.txt

Chciałbym poznać waszą opinię na ten temat. Ktoś może próbował czegoś podobnego?

Czekam na wasze opinie i komentarze.

: czw 02 lis 2023, 01:15
autor: piotr_nojszewski
Super. Generalnie to przyszłość. I tak trzeba.
Mormoni tak już od pewnie 2 lat indeksują metryki. Podobnie zapewne indeksowano spis mieszkańców USA z 1950.

Rozpoznaje się tekst metryki a potem AI rozpoznaje imiona i nazwiska.
W zasadzie w tak odczytanym tekście nawet ChatGPT odszuka nazwiska.
Potem interfejs białkowy to weryfikuje.

Warto to kontynuować.

: czw 02 lis 2023, 12:25
autor: Lena8806
Brawo. Podziwiam. czy istnieje jakaś technologiczna możliwość własnie przekształcenie pisma odręcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe? Mam bardzo dużo aktów własnie pisanych cyrylicą, i nie jestem w stanie nawet tego odczytac.

: czw 02 lis 2023, 12:39
autor: mzielinski.pl
Lena8806 pisze:czy istnieje jakaś technologiczna możliwość własnie przekształcenie pisma odręcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe?
Tak, technologia nazywa się OCR. nawet można spróbować na różnych modelach, które rozpoznają pismo ręczne. Działa to czasem dobrze, czasem niekoniecznie. Można zobaczyć np. tutaj przykładowe modele: https://readcoop.eu/model/russian-civil ... -xix-cent/ Można również samemu spróbować takie modele wytrenować, jednak dosyć sporo czasu by zajęło kolekcjonowanie danych i ich oczyszczanie.
Pozdrawiam

: czw 02 lis 2023, 12:47
autor: Kamil_Reszczyk
Będę dodawał więcej pod adresem:

http://genealogia.reszczyk.pl/AKM/

: ndz 05 lis 2023, 13:23
autor: Kamil_Reszczyk
W czasie ostatnich kilku dni przetworzyła się:

(całość)
ACTA EPISCOPALIA
http://genealogia.reszczyk.pl/AKM/ACTA%20EPISCOPALIA/

i

(do Aadm15)
ACTA ADMINISTRATORIALIAM
http://genealogia.reszczyk.pl/AKM/ACTA% ... ATORIALIA/

W niedługim czasie dodam jeszcze opcje wyszukiwania na stronie, tak aby można było wyszukiwać konkretnych nazwisk jeszcze wygodniej.

: ndz 05 lis 2023, 14:30
autor: Lewandowicz_Adam
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!

Re: Automatyczne rozpoznawanie tekstu w zasobach AKM

: ndz 05 lis 2023, 14:35
autor: Lakiluk
Kamil_Reszczyk pisze:Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie.
Pomijając już, że CAAK to kapiszon za publiczne pieniądze, to czy zostanie udostępnione narzędzie do pobierania ksiąg?

: ndz 05 lis 2023, 15:27
autor: Kamil_Reszczyk
Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!

: ndz 05 lis 2023, 20:34
autor: marekzaborski
Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!

Dzień dobry,

można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt

Pozdrawiam
Marek

: ndz 05 lis 2023, 20:51
autor: Kamil_Reszczyk
Na podstawie tego:
https://postimg.cc/jCsCZQhL

To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło. :)

[edit]

Ok, już widzę że w AG15 mam AEP107. Poprawiam.

Dzięki za wyłapanie tego :)
marekzaborski pisze:
Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!

Dzień dobry,

można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt

Pozdrawiam
Marek

: ndz 05 lis 2023, 22:24
autor: igoriosso
Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD.

: ndz 05 lis 2023, 23:00
autor: Kamil_Reszczyk
igoriosso pisze:Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD.
Na pewno warto, ta usługa od google radzi sobie całkiem dobrze z rozpoznawaniem tekstu. Wrzucam ten na szybko napisany kawałek kodu, który użyłem do tego:

https://github.com/k4Mr3/AKMCrawler

AKMCrawler.py - służy do ściągania ksiąg z AKM
GoogleOCR.py wysyła wszystkie pliki o nazwach od 1.jpg do n.jpg do googla i zapisuje jako tekst. Trzeba mieć skonfigurowany google cloud do tego.

Jakiś minimum znajomości programowania w python potrzeba aby z tego skorzystać.

Sam zamierzam się zając księgami ziemskimi krakowskimi.

https://www.szukajwarchiwach.gov.pl/en/ ... a/13464491

[edit]

Tak wyszło:
http://genealogia.reszczyk.pl/Ksiegi%20 ... ie/468.txt

: pn 06 lis 2023, 01:31
autor: sirdaniel
To jest naprawdę sprawa o wielkim znaczeniu. W internecie jest i przybędzie mnóstwo ksiąg sądowych, czy innych, metryk itp. Których rozczytywanie trwa długo, a czasem jest niemozliwe. Taka usługa to skarb dla społeczności. Myslę, że można to ustawic na jakiejśc stronie i robić dekrypcje czy indeksy na wzór geneteki, itp. Najlepiej jakby ktos sie tym zajmował na stałe :)

: pn 06 lis 2023, 09:07
autor: marekzaborski
Kamil_Reszczyk pisze:Na podstawie tego:
https://postimg.cc/jCsCZQhL

To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło. :)
[edit]
Ok, już widzę że w AG15 mam AEP107. Poprawiam.
Dzięki za wyłapanie tego :)
marekzaborski pisze:
Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Dzień dobry,
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek
Dzięki za sprawdzenie.

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek