Automatyczne rozpoznawanie tekstu w zasobach AKM
Moderatorzy: elgra, Galinski_Wojciech, maria.j.nie, adamgen
-
Kamil_Reszczyk

- Posty: 33
- Rejestracja: sob 29 kwie 2023, 20:02
Automatyczne rozpoznawanie tekstu w zasobach AKM
Cześć wszystkim!
Miałem wczoraj wolny wieczór i postanowiłem połączyć swoją pasję genealogii z technologią.
Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie. Następnie, za pomocą usług Google Cloud, automatycznie wykrywa tekst pisany odręcznie i przekształca go na tekst maszynowy. Efekty mojej pracy można zobaczyć pod poniższym linkiem:
Na pierwszy rzut użyłem: https://caak.upjp2.edu.pl/j/5ec4fe512cc ... bf15/s/0/f
efekt:
http://genealogia.reszczyk.pl/AKM/ACTA% ... Aadm24.txt
Chciałbym poznać waszą opinię na ten temat. Ktoś może próbował czegoś podobnego?
Czekam na wasze opinie i komentarze.
Miałem wczoraj wolny wieczór i postanowiłem połączyć swoją pasję genealogii z technologią.
Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie. Następnie, za pomocą usług Google Cloud, automatycznie wykrywa tekst pisany odręcznie i przekształca go na tekst maszynowy. Efekty mojej pracy można zobaczyć pod poniższym linkiem:
Na pierwszy rzut użyłem: https://caak.upjp2.edu.pl/j/5ec4fe512cc ... bf15/s/0/f
efekt:
http://genealogia.reszczyk.pl/AKM/ACTA% ... Aadm24.txt
Chciałbym poznać waszą opinię na ten temat. Ktoś może próbował czegoś podobnego?
Czekam na wasze opinie i komentarze.
- piotr_nojszewski

- Posty: 1667
- Rejestracja: ndz 21 kwie 2013, 01:17
- Lokalizacja: Warszawa
- Kontakt:
Super. Generalnie to przyszłość. I tak trzeba.
Mormoni tak już od pewnie 2 lat indeksują metryki. Podobnie zapewne indeksowano spis mieszkańców USA z 1950.
Rozpoznaje się tekst metryki a potem AI rozpoznaje imiona i nazwiska.
W zasadzie w tak odczytanym tekście nawet ChatGPT odszuka nazwiska.
Potem interfejs białkowy to weryfikuje.
Warto to kontynuować.
Mormoni tak już od pewnie 2 lat indeksują metryki. Podobnie zapewne indeksowano spis mieszkańców USA z 1950.
Rozpoznaje się tekst metryki a potem AI rozpoznaje imiona i nazwiska.
W zasadzie w tak odczytanym tekście nawet ChatGPT odszuka nazwiska.
Potem interfejs białkowy to weryfikuje.
Warto to kontynuować.
pozdrawiam
Piotr
Piotr
-
mzielinski.pl

- Posty: 23
- Rejestracja: pt 08 kwie 2022, 06:20
- Lokalizacja: Bangkok
Tak, technologia nazywa się OCR. nawet można spróbować na różnych modelach, które rozpoznają pismo ręczne. Działa to czasem dobrze, czasem niekoniecznie. Można zobaczyć np. tutaj przykładowe modele: https://readcoop.eu/model/russian-civil ... -xix-cent/ Można również samemu spróbować takie modele wytrenować, jednak dosyć sporo czasu by zajęło kolekcjonowanie danych i ich oczyszczanie.Lena8806 pisze:czy istnieje jakaĹ technologiczna moĹźliwoĹÄ wĹasnie przeksztaĹcenie pisma odrÄcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe?
Pozdrawiam
Pozdrawiam
Michał
Michał
-
Kamil_Reszczyk

- Posty: 33
- Rejestracja: sob 29 kwie 2023, 20:02
-
Kamil_Reszczyk

- Posty: 33
- Rejestracja: sob 29 kwie 2023, 20:02
W czasie ostatnich kilku dni przetworzyła się:
(całość)
ACTA EPISCOPALIA
http://genealogia.reszczyk.pl/AKM/ACTA%20EPISCOPALIA/
i
(do Aadm15)
ACTA ADMINISTRATORIALIAM
http://genealogia.reszczyk.pl/AKM/ACTA% ... ATORIALIA/
W niedługim czasie dodam jeszcze opcje wyszukiwania na stronie, tak aby można było wyszukiwać konkretnych nazwisk jeszcze wygodniej.
(całość)
ACTA EPISCOPALIA
http://genealogia.reszczyk.pl/AKM/ACTA%20EPISCOPALIA/
i
(do Aadm15)
ACTA ADMINISTRATORIALIAM
http://genealogia.reszczyk.pl/AKM/ACTA% ... ATORIALIA/
W niedługim czasie dodam jeszcze opcje wyszukiwania na stronie, tak aby można było wyszukiwać konkretnych nazwisk jeszcze wygodniej.
-
Lewandowicz_Adam
- Posty: 4
- Rejestracja: sob 14 lip 2018, 08:55
Re: Automatyczne rozpoznawanie tekstu w zasobach AKM
Pomijając już, że CAAK to kapiszon za publiczne pieniądze, to czy zostanie udostępnione narzędzie do pobierania ksiąg?Kamil_Reszczyk pisze:Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie.
Łukasz
-
Kamil_Reszczyk

- Posty: 33
- Rejestracja: sob 29 kwie 2023, 20:02
Kod który używam prawie nie różni się od tego opisanego poniżej:
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
-
marekzaborski

- Posty: 399
- Rejestracja: pt 27 sie 2010, 09:16
Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
Dzień dobry,
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek
-
Kamil_Reszczyk

- Posty: 33
- Rejestracja: sob 29 kwie 2023, 20:02
Na podstawie tego:
https://postimg.cc/jCsCZQhL
To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło.
[edit]
Ok, już widzę że w AG15 mam AEP107. Poprawiam.
Dzięki za wyłapanie tego
https://postimg.cc/jCsCZQhL
To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło.
[edit]
Ok, już widzę że w AG15 mam AEP107. Poprawiam.
Dzięki za wyłapanie tego
marekzaborski pisze:Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam pisze:To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
Dzień dobry,
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek
-
Kamil_Reszczyk

- Posty: 33
- Rejestracja: sob 29 kwie 2023, 20:02
Na pewno warto, ta usługa od google radzi sobie całkiem dobrze z rozpoznawaniem tekstu. Wrzucam ten na szybko napisany kawałek kodu, który użyłem do tego:igoriosso pisze:Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD.
https://github.com/k4Mr3/AKMCrawler
AKMCrawler.py - służy do ściągania ksiąg z AKM
GoogleOCR.py wysyła wszystkie pliki o nazwach od 1.jpg do n.jpg do googla i zapisuje jako tekst. Trzeba mieć skonfigurowany google cloud do tego.
Jakiś minimum znajomości programowania w python potrzeba aby z tego skorzystać.
Sam zamierzam się zając księgami ziemskimi krakowskimi.
https://www.szukajwarchiwach.gov.pl/en/ ... a/13464491
[edit]
Tak wyszło:
http://genealogia.reszczyk.pl/Ksiegi%20 ... ie/468.txt
Ostatnio zmieniony pn 06 lis 2023, 01:44 przez Kamil_Reszczyk, łącznie zmieniany 1 raz.
To jest naprawdę sprawa o wielkim znaczeniu. W internecie jest i przybędzie mnóstwo ksiąg sądowych, czy innych, metryk itp. Których rozczytywanie trwa długo, a czasem jest niemozliwe. Taka usługa to skarb dla społeczności. Myslę, że można to ustawic na jakiejśc stronie i robić dekrypcje czy indeksy na wzór geneteki, itp. Najlepiej jakby ktos sie tym zajmował na stałe 
-
marekzaborski

- Posty: 399
- Rejestracja: pt 27 sie 2010, 09:16
Dzięki za sprawdzenie.Kamil_Reszczyk pisze:Na podstawie tego:
https://postimg.cc/jCsCZQhL
To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło.
[edit]
Ok, już widzę że w AG15 mam AEP107. Poprawiam.
Dzięki za wyłapanie tego
marekzaborski pisze:Dzień dobry,Kamil_Reszczyk pisze:Kod który używam prawie nie różni się od tego opisanego poniżej:
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek
Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?
Pozdrawiam
Marek

