Ułatwienie odczytywania metryk po rosyjsku -AI

Tłumaczenia dokumentów pisanych po rosyjsku, proszę sprawdzić Jak napisać prośbę o tłumaczenie metryki

Moderatorzy: maria.j.nie, elgra, Galinski_Wojciech

petrusmarcus
Posty: 6
Rejestracja: pt 26 lut 2021, 20:36

Ułatwienie odczytywania metryk po rosyjsku -AI

Post autor: petrusmarcus »

Pojawiło się oparte na sztucznej inteligencji narzędzie, które pomaga uporać się z problemem metryk pisanych po rosyjsku.
Transkribus czyta dokumenty z poziomem błędów około 6%. Jeśli mamy jakieś skany metryk po rosyjsku ściągnięte np. z Geneteki lub serwisu szukajwarchiwach, możemy spróbować.

Oto instrukcja:
1. Rozpoznajemy. Otwieramy
https://readcoop.eu/model/russian-civil ... -xix-cent/
2. Kombinacją klawiszy SymbolWindows+ e otwieramy managera plików, wyszukujemy plik ze skanem metryki. Przesuwamy myszą wybraną metrykę zapisaną na naszym komputerze w pliku z rozszerzeniem jpg na pole Drag an image here (w dole okienka)
lub
wybieramy położenie pliku ze skanem metryki na komputerze klikając Select a file
3. Magia działa. Sztuczna inteligencja się poci. Czekamy :)
4. Otwieramy rezultat, klikając Doc w dole okienka Transkribusa po prawej stronie, otwiera się plik Worda, który edytujemy, usuwając wszystkie podziały wyrazów na końcu wiersza (i towarzyszące im znaki przeniesienia -). Po zakończeniu edycji zapisujemy kombinacją klawiszy ctrl+s. Usuwanie podziałów wyrazów jest bardzo ważne, bez tego otrzymamy bardzo zły wynik tłumaczenia.
5. Kopiujemy rezultat, klikając w Wordzie w dowolnym miejscu na rozpoznany tekst, zaznaczamy całość kombinacją klawiszy ctrl+a i i kopiujemy nasz rezultat kombinacją klawiszy ctrl+c
6. Tłumaczymy: otwieramy
https://translate.google.com/?sl=ru&tl=pl&op=translate
7. klikamy w lewe okienko i wklejamy nasz rezultat kombinacją klawiszy ctrl+v
8. klikamy w prawe okienko i kopiujemy nasz rezultat kombinacją klawiszy ctrl+c
9. wracamy do naszego Worda (czy innego edytora) i wklejamy na dole nasz rezultat kombinacją klawiszy ctrl+v
10. zapisujemy plik Worda kombinacją klawiszy ctrl+s

Teraz możemy się zastanawiać, co sztuczna inteligencja miała na myśli w przypadku wątpliwych lub niezrozumiałych fragmentów. Najłatwiej wrócić do okienka Transkribusa, znaleźć wątpliwe fragmenty w odczytanym tekście, wtedy możemy zaznaczyć je w pliku Worda i zapisać plik do późniejszej analizy.

Oczywiście, możemy także rozpoznawać metryki polskie, w kroku 1 otwierając https://readcoop.eu/model/polish-general-model/
i powtarzając wszystko do kroku 4 włącznie.

Jestem bardzo ciekaw Państwa wrażeń, jak poszło, jakie pojawiały się trudności; chętnie poczytam w tym wątku. Starałem się napisać instrukcję jak najprościej.
Przy okazji, będę szukał osób o kompetencjach informatycznych i archiwistycznych do podobnych zabaw, ale o tym wkrótce w innym wątku.

Petrus
Awatar użytkownika
Krystyna.waw

Sympatyk
Nowicjusz
Posty: 5531
Rejestracja: czw 28 kwie 2016, 17:09
Podziękował: 6 times

Post autor: Krystyna.waw »

Dla j. rosyjskiego świetne.
Daty, wiek - super
Nazwy miejscowości, nazwiska - trzeba się domyślić
Tyszowce - Ташовце
Wronowice - Вроковице
w Łabuniach - в Лабеяхъ

Nie był to wyraźny akt 15/1886
https://photos.szukajwarchiwach.gov.pl/ ... 8ef956_max

Tłumaczenie na polski słabo google idzie
Leokadia Krzyżanowska, córka Henryka i Marianny z domy Żabickiej:
Lekadiya Krzhikhanovsky / Mokadlya Keulapog, szesnastoletnia dziewczyna, córka zmarłego Getrika i Martyapny, która jest w rodzinie z domu Tabitskaya
Krystyna
*** Szarlip, Zakępscy, Kowszewicz, Broczkowscy - tych nazwisk szukam.
Awatar użytkownika
Kamiński_Janusz

Sympatyk
Adept
Posty: 3474
Rejestracja: czw 26 mar 2015, 20:17
Lokalizacja: Tomaszów Mazowiecki
Kontakt:

Post autor: Kamiński_Janusz »

moja naturalna inteligencja "załatwia" taki akt w niecałe 5 minut ... i bez kombinacji klawiszy
Janusz

Szukam informacji o polskiej szkole i sierocińcu, zorganizowanych przez Związek Patriotów Polskich w mieście Atbasar w Kazachstanie w latach 1943-1946, oraz o powrocie sierot do Gostynina i Kwidzyna
petrusmarcus
Posty: 6
Rejestracja: pt 26 lut 2021, 20:36

Post autor: petrusmarcus »

Krystyna.waw pisze: Nazwy miejscowości, nazwiska - trzeba się domyślić

Tłumaczenie na polski słabo google idzie
Dziękuję za opinię. Tak, nazwy własne to jeszcze słaby punkt, model nie był uczony na nazwiskach i nazwach geograficznych. Gdyby dostępny był model wytrenowany konkretnie na metrykach, nazwach i nazwiskach dokładność byłaby większa. Można taki model wytrenować, ale potrzebne byłyby metryki po rosyjsku i ich dokładne tłumaczenia na polski, tak ze 100 na początek.
Petrus
Sroczyński_Włodzimierz

Sympatyk
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa
Otrzymał podziękowania: 1 time

Post autor: Sroczyński_Włodzimierz »

Model OCR? Toż ten konkretny (autorstwa Jana M. Grońskiego) był właśnie na ASCkach trenowany. I to nie na stu:) z tego co mi wiadomo, a właściwie czego się domyślam.
Czy model googlotłumacza? To raczej poza naszymi możliwościami. Ale istnieją inne narzędzia niż google.
Rozpoznanie pisma - działa. Może nawet znacznie lepiej niż uniwersalny OCR, ale to "które 6%" to błędy jest istotne. Standardowa formuła ASC-ka to znaczna część tekstu "metryki". Informacje to w tych zmiennych paru procentach tekstu.
Błąd tkwi w próbie powiązania na sztywno, sugestii że komplet to
https://readcoop.eu/model/russian-civil ... -xix-cent/
i translate.google

do OCR warto zadbać o dobre przygotowanie materiału -uploadować wstępnie obrobiony (np przycięty, niezawierający zbędnych elementów), w przyzwoitej jakości obraz
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
petrusmarcus
Posty: 6
Rejestracja: pt 26 lut 2021, 20:36

Post autor: petrusmarcus »

Sroczyński_Włodzimierz pisze:Model OCR? Toż ten konkretny (autorstwa Jana M. Grońskiego) był właśnie na ASCkach trenowany. I to nie na stu:)
Błąd tkwi w próbie powiązania na sztywno, sugestii że komplet to
https://readcoop.eu/model/russian-civil ... -xix-cent/
i translate.google
(...)

do OCR warto zadbać o dobre przygotowanie materiału
Oczywiście chodziło mi o model OCR, w tłumacza Google nie wnikam.
Myślałem że charakter instrukcji pozwala zorientować się, że jest przeznaczona dla niezaawansowanych genealogicznie i komputerowo użytkowników. Oni najbardziej potrzebują pomocy, zwłaszcza że znajomość rosyjskiego w Polsce się kurczy. Sądzę, że na początek Transcribus i Google Translate może być pomocny.

Model Grońskiego porównuję właśnie z Russian Generic Handwriting 1 Achima Rabusa i okazuje się, że ten drugi czytając te same metryki radzi sobie nieco lepiej, choć nie był trenowany na aktach stanu cywilnego.

Faktem jest że największy problem to nazwy i nazwiska.
Dlatego myślę, że optymalne narzędzie to model OCR uzupełniony o dodatkowe elementy:

moduł nazw miejscowości z fleksją ("urodzony w Sierpcu" model musi rozumieć jako "urodzony" w miejscowości "Sierpc"
http://nlp.actaforte.pl:8080/Nomina/Mie ... zwa=sierpc
(pamiętajmy, że bazy danych terytorialnych, jak GUSowski TERYT, spowodują, że sztuczna inteligencja zgłupiałaby, próbując odczytać nazwę wsi Jazdów w parafii Warszewa - nie ma ich w rejestrze. Sprawdziłem).

moduł nazwisk. Model powinien wiedzieć, że nazwisko Nowak będzie bardziej prawdopodobne w parafiach położonych w powiecie poznańskim
http://nlp.actaforte.pl:8080/Nomina/Ndi ... isko=Nowak
Nowik w w powiecie białostockim
http://nlp.actaforte.pl:8080/Nomina/Ndi ... isko=Nowik
a Nowek w kieleckim
http://nlp.actaforte.pl:8080/Nomina/Ndi ... isko=Nowek
(tu podobnie, dane z PESELu mogą być zawodne w przypadku rozkładu nazwisk w Polsce w XIX w. i wcześniej).

Dopiero połączenie tych elementów dałoby pożądaną jakość OCR.
Może uda mi się zebrać kilka osób zainteresowanych tymi pomysłami, wtedy można by do tego poważnie podejść. Do testów koncepcji i sto metryk by wystarczyło.

dobre przygotowanie materiału - święte słowa, ale pewnie w miarę rozwoju technologii ten aspekt straci na znaczeniu.

Petrus
Sroczyński_Włodzimierz

Sympatyk
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa
Otrzymał podziękowania: 1 time

Post autor: Sroczyński_Włodzimierz »

OCR nie jest zły, może pewnie być parę % lepszy, ale na nazwy z epoki etc ..trudno wytrenować

Problem raczej nie w zaawansowaniu użytkowników, a w ich chęci. Ci dla których przydatnym byłoby narzędzie, zwiększenie umiejętności etc często nawet nie widzą potrzeby napisania w prośbie o tłumaczenie co wiedzą, porządne podlinkowanie etc
"Za długo, za duży wysiłek, za dużo zabawy, oburzające, że ktoś coś wymaga, po co? skoro i tak dostanę pomoc," nie mówiąc o prostym "dowiem się co to metryka , co to ASC, co zawiera, jakie zasady".
Najpoważniejszy minus to nie brak dokładności, a to, że coś trzeba samemu zrobić:( Choćby podstawy poznać.
I dotyczy to nie tylko cyrylicy, także odczytu polskojęzycznych (niepisanie co się odczytało) czy szerzej wkładu własnej pracy, chęci nabycia umiejętności.
Oczywiście dla kilkunastu linijek - nie ma sensu ..ale prosić o przysługę setnego tłumaczenia? Obawiam się, że OCR z 99.9% poprawnością na to nie pomoże:(

A wracając do kwestii technicznych z socjologicznych:
to co bywa w rosyjskojęzycznych ASCkach to często nie ryski język, a pomysł miejscowego pisarczyka na określenia zawodów, stanu etc poważnie czysto rosyjski "Russian Generic Handwriting " radzi sobie lepiej z istotnymi informacjami niż OCR trenowany na ASKach z Królestwa? Zaskakujące:)
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
petrusmarcus
Posty: 6
Rejestracja: pt 26 lut 2021, 20:36

Post autor: petrusmarcus »

Sroczyński_Włodzimierz pisze: Problem raczej nie w zaawansowaniu użytkowników, a w ich chęci.
(....)
poważnie czysto rosyjski "Russian Generic Handwriting " radzi sobie lepiej z istotnymi informacjami niż OCR trenowany na ASKach z Królestwa? Zaskakujące:)
Tak, ale ja to rozumiem, bo brakiem chęci przedstawienia detali zgrzeszyłem i ja na tym forum. Ale teraz każdy może spróbować sam rozwiązać problem z odczytaniem.

Co do porównania jakości modeli, to raczej subiektywna opinia (bo nie liczyłem błędów) i na mikroskopijnej próbie. Ale chyba mam wytłumaczenie: model trenowany na aktach stanu cywilnego rozpoznaje perfekcyjnie standardowe formułki, bo je świetnie zna, tymczasem wykłada się na tym, czego w aktach jest mało: nazwy i nazwiska. Tymczasem model przyzwyczajony do bardziej zróżnicowanych tekstów częściej przekręci coś w standardowych formułkach, ale lepiej kombinuje z nazwiskami z powodu bogatszego doświadczenia. Ale to tylko przypuszczenie.
Petrus
Sroczyński_Włodzimierz

Sympatyk
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa
Otrzymał podziękowania: 1 time

Post autor: Sroczyński_Włodzimierz »

Może to ja złe wagi przykładam , tj przy podejściu, że cały ten wypełniacz "stawił się etc" to to piana, styropian w przesyłce- wręcz omijam wzrokiem, tzn nie ma dla mnie znaczenia jak zostanie przetłumaczone, odczytane. W zasadzie pomijam przy dobrze/źle:)

pozdrawiam!
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
Pietruszka

Sympatyk
Posty: 75
Rejestracja: śr 01 cze 2022, 18:01
Lokalizacja: Olsztyn, Warmia

Post autor: Pietruszka »

Cześć
Bardzo zainteresował mnie ten temat. W "moich" księgach parafialnych większość tekstu jest pisana niestety niewyraźnie i niechlujnie. Nic na to nie poradzimy materiał do badań mamy taki jaki jest. Mój rosyjski jest obecnie dość nieporadny a czasy szkolne i studenckie z lektoratem rosyjskiego bezpowrotnie minęły :). Bukwy znam, wiele słów i zwrotów jest zrozumiałych z pamięci choć ten język i zapis ewoluował na przestrzeni tych 100-200 lat i to trzeba brać pod uwagę. Poza tym te księgi wypełniali polscy księża i zdarzają się polskie słowa pisane cyrylicą czego nie kumają translatory. Np.: "kościół" to po rosyjsku "церковь" a w księdze jest "костелъ".
Po pierwszej próbie odczytania skanu metryk za pomocą powyższego narzędzia mam pozytywne odczucia. Program rozpoznał kilka słów, których dotąd nie byłem w stanie rozgryźć. Także bardzo dziękuję za te linki i opis, przydały się. Jednak na dłuższą metę np. do indeksacji ksiąg ta metoda jest jednak zbyt pracochłonna i mało efektywna. Ale skoro ten model rozpoznawania tekstu jest oparty na AI to przecież powinien uczyć się rozpoznawania tekstu. I robić to coraz bardziej efektywnie i bezbłędnie. Ponieważ z samej definicji sztuczna inteligencja powinna się uczyć na podstawie wcześniejszych danych. I rzeczywiście na tej podstronie:
https://readcoop.eu/transkribus/howto/h ... anskribus/
czytamy:

"Platforma Transkribus umożliwia użytkownikom trenowanie modelu rozpoznawania tekstu odręcznego (HTR) w celu automatycznego przetwarzania zbioru dokumentów. Model musi zostać przeszkolony w rozpoznawaniu określonego stylu pisania, pokazując obrazy dokumentów i ich dokładne transkrypcje.
Do szkolenia modelu potrzeba od 5 000 do 15 000 słów (około 25-75 stron) transkrybowanego materiału. Jeśli pracujesz z tekstem drukowanym, a nie pisanym odręcznie, zwykle wymagana jest mniejsza ilość danych treningowych."

Dopiero dzisiaj przejrzałem powyższą stronę, nie wszystko jest dla mnie zrozumiałe. Bardzo proszę zainteresowanych oraz posiadających wiedzę forumowiczów o pomoc w zrozumieniu zagadnienia uczenia AI odczytywania metryk pisanych odręcznie.

To jest niesamowita technologia i mam nadzieję, że doczekamy w niedługim czasie tego, że same archiwa będą stosowały AI do odczytywania i publikowania pisma odręcznego z dokumentów.

O tym co już potrafi AI odsyłam zainteresowanych do artykułu:
https://truestory.pl/numbers-to-names-a ... olokaustu/
Myślę, że idą wspaniałe czasy dla genealogii

Pozdrawiam serdecznie Piotr
Sroczyński_Włodzimierz

Sympatyk
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa
Otrzymał podziękowania: 1 time

Post autor: Sroczyński_Włodzimierz »

Spróbuj rozważyć na innym zakresie, redukując zagadnienia, spojrzeć z punktu widzenia np tylko anglojęzycznego użytkownika tj
OCR nie na poziomie tłumaczenia rosyjskich, a identyfikacji polskojęzycznych tekstów ASCków. Tak dla przejścia krok po kroku, potem dołożysz element różnych języków.

OCR/(niech będzie marketingowo AI) To jest odczytanie zapisu, nie jego tłumaczenie , tym bardziej zrozumienie /interpretacja
Zdolność dopasowania do wpisanych wzorców to jedno, drugie i trzecie interpretacja. Tych "niepiśmiennych" nauczycieli "wuj nowozaślubionej" etc to nie jest kwestia przejścia z "pisanego na drukowane" a interpretacji obrazu, uwzględnienia regionalizmów, występowania na danym terenie w danym okresie zawodów, zjawisk czy znajomości regulacji prawnych.

Baza i stu tysięcy zróżnicowanych charakterem pisma przepisanych metryk jako materiał do wytrenowania nie powie nic rozumieniu zapisów jeśli nie będzie zawierała wytłumaczenia kontekstu
A nie będzie zawierała. Nie z powodu technologii, a potrzebnego wysiłku do jej stworzenia. Jeszcze przez długi czas, a może - z uwagi alternatywne pola (np DNA) skierowana wysiłków, budżetu - baaardzo długi czas.
Moim zdaniem:)

Identyfikacja twarzy czy też zasugerowanie obrazów, gdzie znajdują się "podobne" to inna rzecz. Można mieć nadzieję na coś więcej- przy wykorzystaniu np zdjęć do dokumentów tożsamości, tj dobrej jakości skanów tych zdjęć. Kwestia taka, że mało ich:(
"Postarzanie/odmładzanie postaci" - automatyczne chyba możliwe. Typowanie pokrewieństwa na podstawa podobieństwa..może, przynajmniej jako etap przesiewania

Z samych "metryk" niesamowitym sukcesem (a to uważam za możliwe do osiągnięcia) byłoby wyłowienie dokumentów na których widnieją podpisy zbliżone. Z szerszej niż metrykalnej bazy (tj notariat, hipotekę przesiać) wybrać OCR-em/AI to co można pogrupować w "być może ten sam się podpisał w skanach sk1, sk2, skX.
To uważam za osiągalne najszybciej i mogłoby wnieść najwięcej. Dziwię się, że nie znamy prób tego typu;) Czyżby nie istniały?:) Trudno mi w to uwierzyć.
Nie będzie to dotyczyło wielu przodków, ale to jest realne. Moim zdaniem. I relatywnie proste. Relatywnie w porównaniu z tłumaczeniem tekstu (nawet w obrębie jednego języka tłumaczeniem), ale takim tłumaczeniem z sensem - objaśnieniem zawartości, co faktycznie zapis oznacza.
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
Czupryna01

Sympatyk
Posty: 276
Rejestracja: śr 03 lip 2019, 00:23
Podziękował: 1 time

Post autor: Czupryna01 »

Minęło już pół roku od ostatniego wpisu a AI szybko się rozwija, także ta wspomagająca OCR.
Mam dużo stron w jez. rosyjskim z akt notarialnych lata 1870-1913 do odczytania. Z metrykami często sobie poradzę choć i tu nie zawsze. Chodzi mi głównie o OCR z pisma ręcznego w jęz. ros na drukowane a nie o dalsze tłumaczenie.
PROŚBA: czy ktoś odkrył, zna jakieś nowe możliwości niż te już opisane wyżej tj. programy:
1. Russian Generic Handwriting 1 Achima Rabusa z linku:
https://readcoop.eu/model/russian-generic-handwriting/
2. https://readcoop.eu/model/russian-civil ... -xix-cent/
Ten pierwszy wydaje mi się jest lepszy.
Z góry dziękuję za każdą podpowiedź, Romuald
Pietruszka

Sympatyk
Posty: 75
Rejestracja: śr 01 cze 2022, 18:01
Lokalizacja: Olsztyn, Warmia

Post autor: Pietruszka »

Cześć,
przeczytaj ten wątek:
https://genealodzy.pl/PNphpBB2-viewtopi ... nowe.phtml

Jak widać to nie jest proste ani łatwe. Również jestem ogromnie zainteresowany tą technologią. Na marginesie dodam, że od 2-3 lat hobbistycznie uczę się python'a.

Myślę, że wcześniej czy później doczekamy się bardziej przyjaznych narzędzi do wspomagania odczytu ręcznego pisma. Na świecie powstają coraz to nowe świetne projekty z tym związane. Np.:

https://www.salon24.pl/newsroom/1308685 ... -to-chwile

Wiem, że nie ma co porównywać pisma klinowego z XIX wieczną odręczną cyrylicą. Ale takie info bardzo cieszy i ekscytuje.

Pozdrawiam Piotr
Czupryna01

Sympatyk
Posty: 276
Rejestracja: śr 03 lip 2019, 00:23
Podziękował: 1 time

Post autor: Czupryna01 »

Pietruszka pisze:Cześć,
przeczytaj ten wątek:
https://genealodzy.pl/PNphpBB2-viewtopi ... nowe.phtml
(...)
https://www.salon24.pl/newsroom/1308685 ... -to-chwile

Wiem, że nie ma co porównywać pisma klinowego z XIX wieczną odręczną cyrylicą. Ale takie info bardzo cieszy i ekscytuje.

Pozdrawiam Piotr
Dziękuję, właśnie wcześniej trafiłem na informacje o AI odczytującą pismo klinowe, wiec miałem nadzieję, że też w ręcznie pisanym rosyjskim z XIX wieku zrobiła postęp. Chyba trzeba poczekać aż AI znajdzie się w starszych klasach. Na razie używam Russian
https://readcoop.eu/model/russian-generic-handwriting/
jest jednak dużo poprawek i niekiedy ???
W sumie czasochłonne
PYTANIE:
Może ktoś wie, jak na Windows 11 uruchomić klawiaturę rosyjską tę na ekranie wystukiwana np. myszą, ale tak, by zewnętrzna klawiatura pozostała polska lub angielska. Może jest taka strona w Internecie?
Pozdrowienia, Romuald
Pietruszka

Sympatyk
Posty: 75
Rejestracja: śr 01 cze 2022, 18:01
Lokalizacja: Olsztyn, Warmia

Post autor: Pietruszka »

Na genealodzy.pl jest wyszukiwarka:
po wpisaniu "klawiatura", możesz odnaleźć wątek:
https://genealodzy.pl/PNphpBB2-viewtopi ... tura.phtml
tam znajdziesz linki do różnych klawiatur i narzędzi.
Pozdrawiam Piotr
ODPOWIEDZ

Wróć do „Tłumaczenia - rosyjski”