Świetna sprawa, że są OCRy do odręcznej cyrylicy. Z tego skrótu do Transkribusa znalazłem jeszcze dwa inne projekty w tym samym duchu. Chciałem je porównać, więc sprawdziłem je ichnim przykładowym obrazkiem, zamieszczonym na tym pierwszym OCRze podanym przez Tomka czyli RGH 2 . Dwie linijki (trudna nr8 i łatwa nr9) z tego obrazka i to co zostało odczytane przez każdą wersję, a na końcu moje odczytanie:
Russian Generic Handwriting 2
https://readcoop.eu/model/russian-generic-handwriting/
Иня въ избу. Иемный беръ.
Но скоро мны увидим травку.
Russian Civil Records late XIX cent.
https://readcoop.eu/model/russian-civil ... -xix-cent/
Голя въ горду Ипельный беръ.
По скерами двадил превлу-
Russian Handwriting early 20th century
https://readcoop.eu/model/russian-handw ... h-century/
Чонъ въ избу гкоѣемный барь...
Но скоро сни двидлатъ травая
A ja widzę to tak:
Гоня въ избу. И въ темный баръ,...
Но скаро мы увидимъ тровку.
Gdy się przeglądnie cały tekst na obrazku to wyraźnie widać rozróżnienie na a i o. Jednak ze względu na odwrócenie użycia niektórych a i o wygląda jakby ktoś pisał ze słuchu, bo powinno być: бор, скоро, травку. Widać, że te algorytmy mają trudności gdy litery są skomasowane ale za to poprawiają błędy, uwspółcześniają pisownię, ponieważ likwidują znak twardy i nie używają ówczesnych czcionek „przed rewolucyjnych" jak np: Jać. Wydaje mi się, że dopasowują litery z częściowo odczytanego słowa i porównują ją z bazą słownikową. Dopiero gdy nic nie mogą znaleźć to zostawiają je tak jak jest, nawet jeśli takie słowo nie istnieje.
Niesamowita w Transkribusie jest sama ilość otwartych projektów czytania odręcznego pisma: 140 rodzajów pisma od XV wieku w przeróżnych językach i krojach pisma.
https://readcoop.eu/transkribus/public-models/
Może kiedyś księgi parafialne będą czytane bez konieczności ręcznej indeksacji?
Przy okazji znalazłem również oprogramowanie do zainstalowania i używania offline - tam gdzie dane są bardziej prywatne lub dotyczą współcześnie żyjących osób:
https://github.com/AmalAkh/russian-hand ... ecognition
Jednak nie jest to tak proste jak wklejenie obrazka online, bo do samego oprogramowania trzeba doinstalować silnik Tensorflow i mieć Pythona (w wersji min. 3.9), więc na razie tego nie przetestowałem. Ale obrazek z przykładami jest obiecujący, bo nie skupia się na jednej formie i charakterze pisma jak w przypadku Transkribusa. Jednak trzeba przetestować, aby móc coś więcej powiedzieć i ocenić skuteczność.
Pozdrawiam
Artur