Klawiatura online wielojęzykowa (ukraiński, rosyjski i inne)

Tłumaczenia dokumentów pisanych po ukraińsku

Moderatorzy: elgra, maria.j.nie

Awatar użytkownika
Aftanas_Jerzy

Sympatyk
Posty: 3287
Rejestracja: śr 15 kwie 2009, 15:52

Post autor: Aftanas_Jerzy »

Sroczyński_Włodzimierz pisze:pomimo opinii, że zapotrzebowanie równe zeru i niszowości problemu podtrzymuję zainteresowanie:
jeśli ktoś stworzy coś co w trybie wsadowym lokalnie, nie w chmurze będzie sprawnie "przerzucać" plik źródłowy cyrylicy (różnie kodowany) na "nasz" - zastosowanie się znajdzie
Włodku,
o jaki "nasz" Ci chodzi? Czy chodzi o zapisanie znaków cyrylicy rosyjskiej w systemie znaków języka polskiego (czyli czy np znak 'ш' ma być zapisany jako 'sz', a może 'sh' lub 'sch'? ). Nie ożywam tu terminów transkrypcja i transliteracja, bo ich znaczenia są często mylone.
Serdeczne pozdrowienia
Jerzy Aftanas
Sroczyński_Włodzimierz

Sympatyk
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa
Otrzymał podziękowania: 1 time

Post autor: Sroczyński_Włodzimierz »

a jak "nasz użytkownik" szuka?
Tschernienko czy Czernionko wpisze szukając Черненко?

Schmitd musi się liczyć (i na ogół się liczy) z zapisem Szmitdt Szmit
Szymański szukać po Tschimanski raczej nie będzie
zresztą, nie ma powodu eliminować żadnego wynikowego, mogą być wersje do wyboru, to nie jest problem istotny ta alternatywa
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
Awatar użytkownika
Andrzejowski_Ryszard

Sympatyk
Posty: 95
Rejestracja: ndz 22 maja 2011, 15:24
Lokalizacja: Tarnowskie Góry

Post autor: Andrzejowski_Ryszard »

Sroczyński_Włodzimierz pisze:pomimo opinii, że zapotrzebowanie równe zeru i niszowości problemu podtrzymuję zainteresowanie:
jeśli ktoś stworzy coś co w trybie wsadowym lokalnie, nie w chmurze będzie sprawnie "przerzucać" plik źródłowy cyrylicy (różnie kodowany) na "nasz" - zastosowanie się znajdzie
Co prawda nie lokalnie i wsadowo, ale o podobny efekt chodzi? http://soundex.andrzejowski.tgory.pl/in ... n&start=on
Uwaga! Strona może się dość wolno ładować, ale w końcu załadować się powinna. :)
Pozdrawiam
Rysiu Andrzejowski
Awatar użytkownika
Aftanas_Jerzy

Sympatyk
Posty: 3287
Rejestracja: śr 15 kwie 2009, 15:52

Post autor: Aftanas_Jerzy »

Sroczyński_Włodzimierz pisze:a jak "nasz użytkownik" szuka?
Tschernienko czy Czernionko wpisze szukając Черненко?

Schmitd musi się liczyć (i na ogół się liczy) z zapisem Szmitdt Szmit
Szymański szukać po Tschimanski raczej nie będzie
zresztą, nie ma powodu eliminować żadnego wynikowego, mogą być wersje do wyboru, to nie jest problem istotny ta alternatywa
Znane mi systemy transliterują cyrylicę (niektóre wg 8 standardów), ale nie transkrybują na polskie zapisy odpowiedników znaków.
Np. najnowszy system dla ukraińskiej cyrylicy >>> http://translit.kh.ua/#latynka U dołu można przewijać i wybierać standardy (naukowy, angielski, niemiecki, internetowy). Coś podobnego jest dla rosyjskiej cyrylicy.
Serdeczne pozdrowienia
Jerzy Aftanas
Sroczyński_Włodzimierz

Sympatyk
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa
Otrzymał podziękowania: 1 time

Post autor: Sroczyński_Włodzimierz »

Ryszardzie: podobny, tyle że bardziej elastycznie zarówno co do
formy wprowadzania (z plików o różnym formacie, kodowaniu etc..niekoniecznie musi być automatyczne rozpoznawanie)
efektów (czyli nie czarna skrzynka, ale z możliwością wprowadzania modyfikacji - gdy w trakcie prac okazałoby się, soundex należy zmodyfikować to żeby było można...zewnętrznym plikiem 'tablica kodowa/wymian'?
produktu (do pliku o określonym formacie i co do kodowania i formy bazodanowej/układ pól a nawet typu/rozszerzenia

ot moduł modyfikowalny dla osób, które mogłyby spisać z bukw pisanych (cyrylicy i obecnej i przed reformą) na 'cyrylicę obecną/poprzednią' pozostawiając zamianę danych spisanych w cyrylicy na formę najbardziej użyteczną dla użytkowników baz procesowi quasiautomatycznemu

Jerzy: toteż nie poszukuję odpowiedzi na "gdzie mogę znaleźć" a na pytanie "kto napisze"
nie tylko do wypełniania tabelek metrykalnych by się przydało, coraz więcej tekstów OCRerowanych bukwiastych z nazwiskami w sieci jest, "klientów" i na wtyczkę do przeglądarki byłoby..niepomijalnie dużo:)
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
Awatar użytkownika
Andrzejowski_Ryszard

Sympatyk
Posty: 95
Rejestracja: ndz 22 maja 2011, 15:24
Lokalizacja: Tarnowskie Góry

Post autor: Andrzejowski_Ryszard »

To co zaprezentowałem, to test i połączenie dwóch algorytmów, nie wiem jaka jest ich fachowa nazwa, ja je nazywam "pseudofonetycznymi", by je zaimplementować w pewnej bazie. Wiem, że nie jest to do końca to, o co Ci chodziło.
Zresztą wyszukiwanie nazwisk poprzez wpisywanie ich cyrylicą nie było w sobie. To możliwości algorytmu Beider-Morse Phonetic Matching (BMPM): http://stevemorse.org/phoneticinfo.htm
W obecnej jego wersji obsługuje następujące "niełacińskie" alfabety: obecna cyrylica, grecki, hebrajski. Z alfabetów opartych na alfabecie łacińskim mamy: czeski, duński, angielski, francuski, niemiecki, grecki "latin", węgierski, włoski, polski, portugalski, rumuński, rosyjski "latin", hiszpański i turecki. Modyfikacja i rozszerzenie algorytmu jest możliwe ale dość karkołomne. To ze względu na to, że jest on bardzo rozbudowany i dość skomplikowany. Sam parę modyfikacji w moich testach wprowadziłem (np. by Mickievicius był Mickiewiczem), udało się, choć logiki algorytmu wciąż nie umiem do końca ogarnąć. :)
Drugi algorytm, SoundexPL_2 jest zmodyfikowaną przeze mnie wersją algorytmu znalezionej w sieci pracy magisterskiej: http://hektor.umcs.lublin.pl/~mikosmul/ ... matyka.pdf
Wracając do Twojego pomysłu, Włodzimierzu, sprawa ciekawa, warta przemyślenia, ale dopiero za jakiś czas, jaki nie potrafię się w tej chwili określić. Muszę najpierw pozamykać parę rozpoczętych rzeczy. Ale programować umiem i lubię, a zagadnienie ciekawe więc będę je miał w pamięci. :)

Drobna uwaga, jakby ktoś chciał się bawić stronką, którą wcześniej zaprezentowałem. W bazie mam nazwiska od A do V, nic więc dziwnego jeśli nie znajdzie np. pana Zakrzewskiego. :)
Pozdrawiam
Rysiu Andrzejowski
Sroczyński_Włodzimierz

Sympatyk
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa
Otrzymał podziękowania: 1 time

Post autor: Sroczyński_Włodzimierz »

SOUNDEX był modyfikowany we WZIerniku (o którego reaktywacji Sebastian Gąsiorek wspomniał naście minut temu w "problematycznym wątku metrykalnym)
a modyfikowany na podstawie dość unikalnej tj zestawienia różnych form zapisu nazwisk tych samych osób z bazy zawierającej kilkaset tysięcy rekordów, ASC rzymskokatolickie głównie warszawskie, droga połowa XIX i początek XX w.)
materiału porównywalnego chyba wcześniej nie było (jak i chętnych do zbadania "soundexowej" tego dość wąskiego zakresu)
od tego czasu trochę mojżeszowych, ewangelickich i prawosławnych materiałów przybyło, więc byłoby czym uzupełnić
to nie jest bardzo palące, ale może z Sebastianem przysiądziecie kiedyś...bo dość unikalna sprawa - jest materiał, który daje podstawy do mówienia o tym, że modyfikacja SOUNdexa (do tych zastosowań) będzie solidnie umocowana w rzezcywistości, w realiach, oparta na dużym materiale porównawczym
czyli nie tylko "zastąpmy/wymieńmy bo zdaje się, że tak mogli robić" ale "jest X przykładów że to1 było zastępowane na to2"
a czy kwestia że było tak, bo powinno być..,nieistotne chyba:)
jeśli nawet były to błędnie stosowane "zasady" albo i błędy pisarskie - to i tak dobrze byłoby mechanizm identyfikowania "par" (czasem "piątek" szóstek") zbitek literowych wymienianych na inne zidentyfikować

ja nawet zastanawiałem się czy nie byłoby ciekawie pokusić się nie o rozpoznanie procesów szy-schi-shi-szchy-shy etc a pozostawić to sieciom, bez wnikania "dlaczego?":) jak działa (wysoka korelacja) to działa i już..niech samo się uczy;)
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
Awatar użytkownika
Andrzejowski_Ryszard

Sympatyk
Posty: 95
Rejestracja: ndz 22 maja 2011, 15:24
Lokalizacja: Tarnowskie Góry

Post autor: Andrzejowski_Ryszard »

Do takich modyfikacji jakie opisujesz, dającym więcej swobody w modyfikacji, zdaje się być podejście tego algorytmu BMPM. W wielkim skrócie, jak to działa.

Dla każdego generowany jest pewien zestaw kodów, np.
Andrzejowski => anziiofski anziiufski onziiofski onziiufski andriiofski andriiufski ondriiofski ondriiufski andrziiofski andrziiufski ondrziiofski ondrziiufski
Później porównując te kody z kodami, w moim przypadku w bazie, otrzymujemy wyniki, jeśli inne nazwisko ma jeden lub więcej kodów pasujących.

Dokonując mądrych (w odpowiedni sposób) zmian w algorytmie możemy rozszerzać listę generowanych kodów. Oczywiście by wszystko działało jak należy trzeba też powtórnie wygenerować kody w bazie, co przy wielu rekordach zajmuje trochę czasu. :( Ale to akurat moje podejście do problemu, niekoniecznie optymalne.
Pozdrawiam
Rysiu Andrzejowski
Awatar użytkownika
Aftanas_Jerzy

Sympatyk
Posty: 3287
Rejestracja: śr 15 kwie 2009, 15:52

Post autor: Aftanas_Jerzy »

Włodku i Rysiu,
w taki to sposób dyskusja przeszła na wyższy teoretycznie i praktycznie poziom w stosunku do tematu , który zainicjowałem jako zwykły komunikat o jednym z prostych w użyciu narzędzi jakimi są gotowe klawiatury wirtualne. Proponuję więc zamknąć ten temat, a ponieważ sprawa przez Włodka przedstawiona i podjęta kompetentnie przez Ryszarda jest ważna i potrzebna, otwórzcie razem lub pojedynczo nowy temat, pod nową nazwą i ze wstępem precyzującym przedmiot, z problemami do dyskusji na forum i z ewent. wnioskami organizacyjnymi.
Serdeczne pozdrowienia
Jerzy Aftanas
ODPOWIEDZ

Wróć do „Tłumaczenia - ukraiński”