Narzędzie do rozpoznawania cyrylicy

Tłumaczenia dokumentów pisanych po rosyjsku, proszę sprawdzić Jak napisać prośbę o tłumaczenie metryki

Moderatorzy: elgra, Galinski_Wojciech, maria.j.nie

Tomek_Kielpinski

Sympatyk
Posty: 29
Rejestracja: wt 30 cze 2020, 16:53

Narzędzie do rozpoznawania cyrylicy

Post autor: Tomek_Kielpinski »

Sam bardzo długo szukałem takiego narzędzia, bo znajomość rosyjskiego jest u mnie na szczątkowym poziomie (jak się kiedyś śmialiśmy z kolegą, rozpoznaję Żuczka i Fortepian ;-)), z odręczną cyrylicą nie radzę sobie prawie wcale a staram się szanować czas tłumaczy i z prośbą o pomoc zwracać się jak najrzadziej.

I znalazłem :-)

https://readcoop.eu/model/russian-gener ... writing-1/

Model na tyle przyzwoicie rozpoznaje pismo (które potem można oczywiście wrzucić do translatora google, który robi również transkrypcję na alfabet łaciński), że część poszukiwaczy będzie w stanie zapoznać się z większością informacji w dokumencie samodzielnie, bez angażowania tłumaczy. A jeśli nawet pomoc będzie potrzebna, to w mniejszym zakresie.

Pozdrawiam,
Tomek
Majcher
Adept
Posty: 4
Rejestracja: wt 09 cze 2015, 22:58

Narzędzie do rozpoznawania cyrylicy

Post autor: Majcher »

Jesteś wielkim optymistą! Wypróbowałem program na nabazgranej metryce i wyszło na to, że lepiej rozpoznaję takie kulfony po rosyjsku. Program jest tylko tekstów pisanych prawie kaligraficznie.
Krzysztof Majcher
Awatar użytkownika
palyst

Sympatyk
Posty: 51
Rejestracja: pn 04 sie 2008, 12:33

Re: Narzędzie do rozpoznawania cyrylicy

Post autor: palyst »

Tomek_Kielpinski pisze:Sam bardzo długo szukałem takiego narzędzia, bo znajomość rosyjskiego jest u mnie na szczątkowym poziomie (jak się kiedyś śmialiśmy z kolegą, rozpoznaję Żuczka i Fortepian ;-)), z odręczną cyrylicą nie radzę sobie prawie wcale a staram się szanować czas tłumaczy i z prośbą o pomoc zwracać się jak najrzadziej.

I znalazłem :-)

https://readcoop.eu/model/russian-gener ... writing-1/

Model na tyle przyzwoicie rozpoznaje pismo (które potem można oczywiście wrzucić do translatora google, który robi również transkrypcję na alfabet łaciński), że część poszukiwaczy będzie w stanie zapoznać się z większością informacji w dokumencie samodzielnie, bez angażowania tłumaczy. A jeśli nawet pomoc będzie potrzebna, to w mniejszym zakresie.

Pozdrawiam,
Tomek
A ja dziękuję za twój post ["Tomek_Kielpinski"]
Nie jest to narzędzie idelane, ale bardzo pomocne.
Jestem z pokolenia, które jeszcze miało język rosyjski w szkole podstawowej. Więc łącząc moją wiedzę i to narzędzie udało mi się częściowo rozszyfrować/przetłumaczyć akt urodzenia :)
Awatar użytkownika
Quit

Sympatyk
Nowicjusz
Posty: 188
Rejestracja: śr 20 lip 2011, 19:54

Re: Narzędzie do rozpoznawania cyrylicy

Post autor: Quit »

Fajne narzedzie. Ma sporo bledow, ale jal Palyst napisal, to narzedzie + rosyjski z podstawowki, daje nowe mozliwosci.
Ja jestem fanka :)
----------------------
/Iwona
Bagins

Sympatyk
Posty: 212
Rejestracja: śr 11 lut 2009, 13:47

Post autor: Bagins »

Świetna sprawa, że są OCRy do odręcznej cyrylicy. Z tego skrótu do Transkribusa znalazłem jeszcze dwa inne projekty w tym samym duchu. Chciałem je porównać, więc sprawdziłem je ichnim przykładowym obrazkiem, zamieszczonym na tym pierwszym OCRze podanym przez Tomka czyli RGH 2 . Dwie linijki (trudna nr8 i łatwa nr9) z tego obrazka i to co zostało odczytane przez każdą wersję, a na końcu moje odczytanie:

Obrazek

Russian Generic Handwriting 2
https://readcoop.eu/model/russian-generic-handwriting/
Иня въ избу. Иемный беръ.
Но скоро мны увидим травку.

Russian Civil Records late XIX cent.
https://readcoop.eu/model/russian-civil ... -xix-cent/
Голя въ горду Ипельный беръ.
По скерами двадил превлу-

Russian Handwriting early 20th century
https://readcoop.eu/model/russian-handw ... h-century/
Чонъ въ избу гкоѣемный барь...
Но скоро сни двидлатъ травая

A ja widzę to tak:
Гоня въ избу. И въ темный баръ,...
Но скаро мы увидимъ тровку.

Gdy się przeglądnie cały tekst na obrazku to wyraźnie widać rozróżnienie na a i o. Jednak ze względu na odwrócenie użycia niektórych a i o wygląda jakby ktoś pisał ze słuchu, bo powinno być: бор, скоро, травку. Widać, że te algorytmy mają trudności gdy litery są skomasowane ale za to poprawiają błędy, uwspółcześniają pisownię, ponieważ likwidują znak twardy i nie używają ówczesnych czcionek „przed rewolucyjnych" jak np: Jać. Wydaje mi się, że dopasowują litery z częściowo odczytanego słowa i porównują ją z bazą słownikową. Dopiero gdy nic nie mogą znaleźć to zostawiają je tak jak jest, nawet jeśli takie słowo nie istnieje.

Niesamowita w Transkribusie jest sama ilość otwartych projektów czytania odręcznego pisma: 140 rodzajów pisma od XV wieku w przeróżnych językach i krojach pisma. https://readcoop.eu/transkribus/public-models/
Może kiedyś księgi parafialne będą czytane bez konieczności ręcznej indeksacji?

Przy okazji znalazłem również oprogramowanie do zainstalowania i używania offline - tam gdzie dane są bardziej prywatne lub dotyczą współcześnie żyjących osób: https://github.com/AmalAkh/russian-hand ... ecognition
Jednak nie jest to tak proste jak wklejenie obrazka online, bo do samego oprogramowania trzeba doinstalować silnik Tensorflow i mieć Pythona (w wersji min. 3.9), więc na razie tego nie przetestowałem. Ale obrazek z przykładami jest obiecujący, bo nie skupia się na jednej formie i charakterze pisma jak w przypadku Transkribusa. Jednak trzeba przetestować, aby móc coś więcej powiedzieć i ocenić skuteczność.

Pozdrawiam
Artur
Ola.K80

Sympatyk
Posty: 24
Rejestracja: ndz 05 lut 2023, 20:17

Re: Narzędzie do rozpoznawania cyrylicy

Post autor: Ola.K80 »

Tomek_Kielpinski pisze:Sam bardzo długo szukałem takiego narzędzia, bo znajomość rosyjskiego jest u mnie na szczątkowym poziomie (jak się kiedyś śmialiśmy z kolegą, rozpoznaję Żuczka i Fortepian ;-)), z odręczną cyrylicą nie radzę sobie prawie wcale a staram się szanować czas tłumaczy i z prośbą o pomoc zwracać się jak najrzadziej.

I znalazłem :-)

https://readcoop.eu/model/russian-gener ... writing-1/

Model na tyle przyzwoicie rozpoznaje pismo (które potem można oczywiście wrzucić do translatora google, który robi również transkrypcję na alfabet łaciński), że część poszukiwaczy będzie w stanie zapoznać się z większością informacji w dokumencie samodzielnie, bez angażowania tłumaczy. A jeśli nawet pomoc będzie potrzebna, to w mniejszym zakresie.

Pozdrawiam,
Tomek
Witam serdecznie,
Chciałam skorzystać ze strony do tłumaczenia rosyjskiego odręcznego pisma, ale wychodzą mi krzaczki lub liczby, które nic nie znaczą. Na jakiej innej stronie mogłabym spróbować przetłumaczyć dokument?
Pozdrawiam,
Ola.K80
ODPOWIEDZ

Wróć do „Tłumaczenia - rosyjski”