Klawiatura online wielojęzykowa (ukraiński, rosyjski i inne)

Aftanas_Jerzy · Post autor: **Aftanas_Jerzy** » wt 10 lip 2012, 19:09

Sroczyński_Włodzimierz pisze:pomimo opinii, że zapotrzebowanie równe zeru i niszowości problemu podtrzymuję zainteresowanie:
jeśli ktoś stworzy coś co w trybie wsadowym lokalnie, nie w chmurze będzie sprawnie "przerzucać" plik źródłowy cyrylicy (różnie kodowany) na "nasz" - zastosowanie się znajdzie

Włodku,
o jaki "nasz" Ci chodzi? Czy chodzi o zapisanie znaków cyrylicy rosyjskiej w systemie znaków języka polskiego (czyli czy np znak 'ш' ma być zapisany jako 'sz', a może 'sh' lub 'sch'? ). Nie ożywam tu terminów transkrypcja i transliteracja, bo ich znaczenia są często mylone.

Sroczyński_Włodzimierz

a jak "nasz użytkownik" szuka?
Tschernienko czy Czernionko wpisze szukając Черненко?

Schmitd musi się liczyć (i na ogół się liczy) z zapisem Szmitdt Szmit
Szymański szukać po Tschimanski raczej nie będzie
zresztą, nie ma powodu eliminować żadnego wynikowego, mogą być wersje do wyboru, to nie jest problem istotny ta alternatywa

Andrzejowski_Ryszard

Sroczyński_Włodzimierz pisze:pomimo opinii, że zapotrzebowanie równe zeru i niszowości problemu podtrzymuję zainteresowanie:
jeśli ktoś stworzy coś co w trybie wsadowym lokalnie, nie w chmurze będzie sprawnie "przerzucać" plik źródłowy cyrylicy (różnie kodowany) na "nasz" - zastosowanie się znajdzie

Co prawda nie lokalnie i wsadowo, ale o podobny efekt chodzi? http://soundex.andrzejowski.tgory.pl/in ... n&start=on
Uwaga! Strona może się dość wolno ładować, ale w końcu załadować się powinna.

Aftanas_Jerzy · Post autor: **Aftanas_Jerzy** » wt 10 lip 2012, 20:08

Sroczyński_Włodzimierz pisze:a jak "nasz użytkownik" szuka?
Tschernienko czy Czernionko wpisze szukając Черненко?

Schmitd musi się liczyć (i na ogół się liczy) z zapisem Szmitdt Szmit
Szymański szukać po Tschimanski raczej nie będzie
zresztą, nie ma powodu eliminować żadnego wynikowego, mogą być wersje do wyboru, to nie jest problem istotny ta alternatywa

Znane mi systemy transliterują cyrylicę (niektóre wg 8 standardów), ale nie transkrybują na polskie zapisy odpowiedników znaków.
Np. najnowszy system dla ukraińskiej cyrylicy >>> http://translit.kh.ua/#latynka U dołu można przewijać i wybierać standardy (naukowy, angielski, niemiecki, internetowy). Coś podobnego jest dla rosyjskiej cyrylicy.

Sroczyński_Włodzimierz

Ryszardzie: podobny, tyle że bardziej elastycznie zarówno co do
formy wprowadzania (z plików o różnym formacie, kodowaniu etc..niekoniecznie musi być automatyczne rozpoznawanie)
efektów (czyli nie czarna skrzynka, ale z możliwością wprowadzania modyfikacji - gdy w trakcie prac okazałoby się, soundex należy zmodyfikować to żeby było można...zewnętrznym plikiem 'tablica kodowa/wymian'?
produktu (do pliku o określonym formacie i co do kodowania i formy bazodanowej/układ pól a nawet typu/rozszerzenia

ot moduł modyfikowalny dla osób, które mogłyby spisać z bukw pisanych (cyrylicy i obecnej i przed reformą) na 'cyrylicę obecną/poprzednią' pozostawiając zamianę danych spisanych w cyrylicy na formę najbardziej użyteczną dla użytkowników baz procesowi quasiautomatycznemu

Jerzy: toteż nie poszukuję odpowiedzi na "gdzie mogę znaleźć" a na pytanie "kto napisze"
nie tylko do wypełniania tabelek metrykalnych by się przydało, coraz więcej tekstów OCRerowanych bukwiastych z nazwiskami w sieci jest, "klientów" i na wtyczkę do przeglądarki byłoby..niepomijalnie dużo:)

Andrzejowski_Ryszard

To co zaprezentowałem, to test i połączenie dwóch algorytmów, nie wiem jaka jest ich fachowa nazwa, ja je nazywam "pseudofonetycznymi", by je zaimplementować w pewnej bazie. Wiem, że nie jest to do końca to, o co Ci chodziło.
Zresztą wyszukiwanie nazwisk poprzez wpisywanie ich cyrylicą nie było w sobie. To możliwości algorytmu Beider-Morse Phonetic Matching (BMPM): http://stevemorse.org/phoneticinfo.htm
W obecnej jego wersji obsługuje następujące "niełacińskie" alfabety: obecna cyrylica, grecki, hebrajski. Z alfabetów opartych na alfabecie łacińskim mamy: czeski, duński, angielski, francuski, niemiecki, grecki "latin", węgierski, włoski, polski, portugalski, rumuński, rosyjski "latin", hiszpański i turecki. Modyfikacja i rozszerzenie algorytmu jest możliwe ale dość karkołomne. To ze względu na to, że jest on bardzo rozbudowany i dość skomplikowany. Sam parę modyfikacji w moich testach wprowadziłem (np. by Mickievicius był Mickiewiczem), udało się, choć logiki algorytmu wciąż nie umiem do końca ogarnąć.

Drugi algorytm, SoundexPL_2 jest zmodyfikowaną przeze mnie wersją algorytmu znalezionej w sieci pracy magisterskiej: http://hektor.umcs.lublin.pl/~mikosmul/ ... matyka.pdf
Wracając do Twojego pomysłu, Włodzimierzu, sprawa ciekawa, warta przemyślenia, ale dopiero za jakiś czas, jaki nie potrafię się w tej chwili określić. Muszę najpierw pozamykać parę rozpoczętych rzeczy. Ale programować umiem i lubię, a zagadnienie ciekawe więc będę je miał w pamięci.

Drobna uwaga, jakby ktoś chciał się bawić stronką, którą wcześniej zaprezentowałem. W bazie mam nazwiska od A do V, nic więc dziwnego jeśli nie znajdzie np. pana Zakrzewskiego.

Sroczyński_Włodzimierz

SOUNDEX był modyfikowany we WZIerniku (o którego reaktywacji Sebastian Gąsiorek wspomniał naście minut temu w "problematycznym wątku metrykalnym)
a modyfikowany na podstawie dość unikalnej tj zestawienia różnych form zapisu nazwisk tych samych osób z bazy zawierającej kilkaset tysięcy rekordów, ASC rzymskokatolickie głównie warszawskie, droga połowa XIX i początek XX w.)
materiału porównywalnego chyba wcześniej nie było (jak i chętnych do zbadania "soundexowej" tego dość wąskiego zakresu)
od tego czasu trochę mojżeszowych, ewangelickich i prawosławnych materiałów przybyło, więc byłoby czym uzupełnić
to nie jest bardzo palące, ale może z Sebastianem przysiądziecie kiedyś...bo dość unikalna sprawa - jest materiał, który daje podstawy do mówienia o tym, że modyfikacja SOUNdexa (do tych zastosowań) będzie solidnie umocowana w rzezcywistości, w realiach, oparta na dużym materiale porównawczym
czyli nie tylko "zastąpmy/wymieńmy bo zdaje się, że tak mogli robić" ale "jest X przykładów że to1 było zastępowane na to2"
a czy kwestia że było tak, bo powinno być..,nieistotne chyba:)
jeśli nawet były to błędnie stosowane "zasady" albo i błędy pisarskie - to i tak dobrze byłoby mechanizm identyfikowania "par" (czasem "piątek" szóstek") zbitek literowych wymienianych na inne zidentyfikować

ja nawet zastanawiałem się czy nie byłoby ciekawie pokusić się nie o rozpoznanie procesów szy-schi-shi-szchy-shy etc a pozostawić to sieciom, bez wnikania "dlaczego?":) jak działa (wysoka korelacja) to działa i już..niech samo się uczy;)

Andrzejowski_Ryszard

Do takich modyfikacji jakie opisujesz, dającym więcej swobody w modyfikacji, zdaje się być podejście tego algorytmu BMPM. W wielkim skrócie, jak to działa.

Dla każdego generowany jest pewien zestaw kodów, np.
Andrzejowski => anziiofski anziiufski onziiofski onziiufski andriiofski andriiufski ondriiofski ondriiufski andrziiofski andrziiufski ondrziiofski ondrziiufski
Później porównując te kody z kodami, w moim przypadku w bazie, otrzymujemy wyniki, jeśli inne nazwisko ma jeden lub więcej kodów pasujących.

Dokonując mądrych (w odpowiedni sposób) zmian w algorytmie możemy rozszerzać listę generowanych kodów. Oczywiście by wszystko działało jak należy trzeba też powtórnie wygenerować kody w bazie, co przy wielu rekordach zajmuje trochę czasu.

Ale to akurat moje podejście do problemu, niekoniecznie optymalne.

Aftanas_Jerzy · Post autor: **Aftanas_Jerzy** » śr 11 lip 2012, 00:54

Włodku i Rysiu,
w taki to sposób dyskusja przeszła na wyższy teoretycznie i praktycznie poziom w stosunku do tematu , który zainicjowałem jako zwykły komunikat o jednym z prostych w użyciu narzędzi jakimi są gotowe klawiatury wirtualne. Proponuję więc zamknąć ten temat, a ponieważ sprawa przez Włodka przedstawiona i podjęta kompetentnie przez Ryszarda jest ważna i potrzebna, otwórzcie razem lub pojedynczo nowy temat, pod nową nazwą i ze wstępem precyzującym przedmiot, z problemami do dyskusji na forum i z ewent. wnioskami organizacyjnymi.