Geneteka - Genealogiczna Kartoteka (wyszukiwanie)

Tematy - indeksacja i digitalizacja metryk, projekty PTG

Moderatorzy: elgra, Galinski_Wojciech, maria.j.nie

niedomnie

Sympatyk
Posty: 190
Rejestracja: pn 05 sty 2015, 16:56

Post autor: niedomnie »

Czemu wyszukiwanie w genetyce jest tak ubogie?
Nie mozna podać chocby imienia. Nie wspominajac o rodzicach, nazwisku panienskim itp.

Nie mozna tego dodac? Wydaje sie to proste.
Jestem informatykiem moze moglbym pomoc?
Sroczyński_Włodzimierz

Członek PTG
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa

Post autor: Sroczyński_Włodzimierz »

po imieniu - z uwagi na obciązenie sprzętu
panieńskie matek oraz vlee, które są wprowadzone poprawnie - wyszukuje

może chodzi Ci o sortowanie w raporcie? ale chyba nie, wszkaże jetes informatykiem więc te pojęcia rozróżniasz:)

Zajęcie dla informatyka na pewno się znajdzie (niezaleznie czy bazofanowca czy biegle poruszjacego się w skryptach róznorakich). Kilka rzeczy zaisło z powodu braku mocy, więc zapraszam.
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
niedomnie

Sympatyk
Posty: 190
Rejestracja: pn 05 sty 2015, 16:56

Post autor: niedomnie »

Jeszcze 1 mi przyszlo na mysl od noscie 24mln zapytan / dobe. Jesli 1 uzytkownik wykonuje 1 raz na minute zapytanie, przez 8h, to daje ok 0.5k / dobe. By wypelnic 24mln potrzeba 50k uzytkownikow. "Sredni" uzytkownik pewnie nie osiaga nawet 1% tych zapytan (codziennie co minute). Co zwieksza liczbe aktywnych uzytkownikow - musialabybyc ok 5M. Albo dzialaja jeszcze tam jakies automaty. Po cos? Albo ktos sie pomylil przy podawaniu tej liczby.
sebastian_gasiorek

Zarząd PTG
Adept
Posty: 548
Rejestracja: ndz 18 lis 2007, 14:32
Kontakt:

Post autor: sebastian_gasiorek »

Witam,

Nikt się nie pomylił. Baza danych obsługuje wszystkie nasze serwisy internetowe i to jest sumaryczna wartość. Dziękujemy za chęć pomocy jednak ze względu bezpieczeństwa bezpośredni dostęp do bazy danych ma tylko Prezes i ja. Z kwestiami optymalizacji sobie jak widać świetnie radzimy. Wystarczy porównać wydajność innych serwisów.
Problemem jest raczej dostęp do osób z wiedzą o programowaniu stron internetowych które mają jednocześnie pojęcie o optymalizacji.
Pozdrawiam,
Sebastian Gąsiorek

http://genrod.eu - największe opracowanie Kwiatkowskich (6 tys. osób)
niedomnie

Sympatyk
Posty: 190
Rejestracja: pn 05 sty 2015, 16:56

Post autor: niedomnie »

Pytalem, bo widzialem m.in. od Pana wiadomosc, ze wstawienie wyszukiwania imienia jest problemem wydajnosciowym. Sam tego nie podejrzewalem (bo widzialem, ze jest response'wyne). Niemniej odnioslem wrazenie, ze skoro taka zmiana jest ryzykowna (a wielu osobom potrzebna sadzac z paru watkow na ktorych to widzialem) to byc moze jest jakis problem, ktory nalezy rozwiazac.

PS. nie ma znaczenia w jaki sposob uzytkownicy Ci osiagaja dane z geneteki (no chyba ze baza obsluguje zarowno forum, czy inne serwisy, jak i sama geneteke - co byloby nienajszczesliwszym pomyslem). Tak czy siak nawet j. tych serwisow interenetowych jest sporo wiecej to i tak uzytkownikow musza byc setki tysiecy, by z tych serwisow skorzystac (i zapyania generowac). Stad moja watpliwosc. Skoro Pan potwierdza, zanczy tylko tyle, ze za malo wiem o tym serwisie (-ach). Ale przyzna Pan, ze liczba jest strasznie duza jak na tak mala liczbe uzytkownikow.

PS2. bezposreni dostep - oczywiscie - myslalem o kopi za'hash'owanej (z drugiej strony same dane pewnie mozna bylo by sciagnac w pare godzin, moze pare dni - jakby ktos sie uparl, np. przez generowanie 2 i 3 pierwszych liter na wojewodztwo i typ aktu).
Nie wiem w jakim trybie ktos u Panstwa wprowadza zmiany do serwisu - np. to wyszukiwanie po imieniu. By to sprawdzic przy takiej wydajnosci trzeba przeprowadzic testy performance'owe. Do tego trzeba miec srodowisko (jakie programy, konfiguracje, testy) i jakies dane w podobnej skali.
To oferuje.
niedomnie

Sympatyk
Posty: 190
Rejestracja: pn 05 sty 2015, 16:56

Post autor: niedomnie »

do Pana Włodka.

Tak nowe pelne wdrozenie to zupelnie inna sprawa. Znacznie znacznie wiecej pracy. Np. nowy projekt pewnie zaczalbym zupelnie innymi technologiami (np. php nie znam za dobrze). Analiza wymagan. Jakaś specyfikacja, przypadki uzycia. Analiza wielkosci danych (w koncu sa tam zdjecia a to duzo danych - z drugiej strony moze wystarczy to trzymac na dysku), czestosci i charakteru dostepu. Kompresja zdjec, weryfikacja tego. Jakies transformatory z innych formatow, byc moze baz. Bulkowe imporotwanie. Wybor technologi, okreslenie niezawodnosci serwisu, sprawa hostingu, bo w zaleznosci od technologi byc moze bedzie potrzebny wlasny server, itd.
Oczywiscie zawsze mozna postawic mysql'a, prosta strone php pozwalajaca tylko na wyszukiwanie (a reszte roboty zrobia admini wkladajac dane do bazy) i czekac na to, az wybuchnie liczac na to ze dodajac sprzet jakos to bedzie. To praca na miesiace, by to zrobic dobrze i by wykorzystywalo sprzet w 100%, by bylo niezawodne, zabezpieczone przed atakami itd.
Poza tym mnie interesuje geneteka - i istony brak w niej.

Zmiana wyszukiwania imienia - czyli 1 strony i kilku zapytan to godziny pracy. Sprawdzenie tego wydajnościowo, w zaleznosci w jakim stanie jest projekt, czy sa testy, automaty do stawiania srodowiska, czy chocby opisy jak to zrobic to pare/nascie dni. I na cos takiego mam czas. A zmiany przeprowadzilbym nie na Waszej bazie a na swojej kopi, i jakbym udowodnil, ze dziala podobnie dobrze jak orginal wtedy te zmiany byly by przez kogos wrzucone do Waszego projektu.

do kereta
100 rekordow to nie sa zadne dane. W szczegolnosci nie dla testow performance'owych, czy takie by rozwijac wdrozona aplikacje. Takie moge sobie wygenerowac. By zaczac rozwijac taka aplikacje trzeba wiedziec jakie zwiazki sa miedzy danymi, obecne struktury, indeksacja, ile danych jest/bedzie, jak czesto sie beda zmieniac, jakie jest obecne obiazenie najczestszymi pytaniami (np. log z jakiegos czasu wszystkich zapytan bylby pomocy). Znajac aplikacje dopiero cos mozna rozwijac, by nie zepsuc tego co jest.
Moj pomysl ograniczal sie do dodawania do bazy opisow dot. 1 rekordu przez zarejestrowanych uzytkownikow. Akcja administratora ograniczala by sie tylko do zapisania tych komentarzy w gl. rekordzie tylko wtedy, gdy wiele osob zgodzilo by sie, ze zmiana. Nawet automatem na podstawie odpowiedniej ilosci punktow przypisanych do autorow. Najwaznejsze, ze inni dla danego interesujacego rekordu widzieli by zmiany wszystkich, ktorzy dokonywali zmiany rekordu.

By cokowliek w tym projekcie zmienic, potrzebuje specyfikacji projektu, spisu uzytych technologi, konfiguracji tych komponentow (albo srodowiska ktore ja automatycznie zestawia czesci projektu). Projektu bazy, przykladowych danych z faktycznymi relacjami, ilosci danych w poszczegolnych tabelach. Majac to dopiero moge podjac sie takich zmian.
Inaczej to cokolwiek zrobie pojdzie do kosza, bo nie da sie do tego projektu "wcisnac".

Nie wiem czemu tego typu informacje nie sa dostepne totalnie dla wszystkich. Oczywiscie jest pewne ryzyko zwiazne z bezpieczenstwem i lukami na stronie (ale wieksze jest takie ze luki sa i ktos je wykorzysta kiedys). Ale tylko wtedy gdy ten projekt bedzie open source'owy mozna liczyc na bezplatne udzielanie sie programistow w nim. Jeśli to projekt komercyjny, nikt nie przylozy do tego palca bezplatnie by zarobil ktos inny.
Jedna osoba mogla by np. zautomatyzowac stawianie srodowiska by inni chetni mieli latwiej w wprowadzaniu zmian, inna wprowadzic zmiane funkcjonalna np. wyszukiwanie po imieniu, inna przeprowadzic na tym kodzie testy wydajnosciowe.
Alternatywa do tego jest admin, ktory robi to na zywym organizmie (czyli np na tym samym serwerze i kopi bazy), testuje i jak wydaje mu sie organoleptycznie, ze jest ok, wdraza. Wtedy wolno ida zmiany. Jest to bledogenne. I jak ta osoba(y) odchodza z projektu jest on trudno rozwijalny.

Podsumowujac nowy projekt wydaje sie za duzo pracy, no chyba, ze gdzies ktos juz przemyslal to jest jakas specyfikacja co ten projekt ma robic. I nie ma robic wiele. Wtedy mozna pomyslec - ale tez nie w 1 osobe.
Zmiana w dot. imienia wydaje sie prosta, i j. bylaby chec wspolpracy - realizowalna w ciagu miesiaca.

PS. gdzie jest lepszy watek do tego typu rozmow?
Sroczyński_Włodzimierz

Członek PTG
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa

Post autor: Sroczyński_Włodzimierz »

Proponuję to, co uważam za najsensowniejsze, ale uznaję argument "nie jestem tym zainteresowany" i nie będę wiercił dziury w brzuchu. Temat mozliwości zajęcia się tematam innych baz serwisu genealodzy.pl jest otwarty dla innych zainteresowanych możliwością tworzenia od podstaw:)
pozdrawiam
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
Awatar użytkownika
Markowski_Maciej

Członek PTG
Adept
Posty: 948
Rejestracja: ndz 09 maja 2010, 22:22
Lokalizacja: Warszawa
Kontakt:

Wyszukiwanie w Genetece

Post autor: Markowski_Maciej »

Dostałem od Sebastiana informację jakie są właściwości wyszukiwarki w Gnetece. Na tej podstawie opracowałem tekst, który przekazałem z powrotem Sebastianowi do weryfikacji i ewentualnego zamieszczenia na stronach Geneteki. Niestety, Sebastian jest w tym momencie bardzo obciążony i musi się zajmować czymś innym (pamiętajmy, że jest jedynym Informatykiem to wszystko obsługującym). Teraz na swoim blogu napisałem o swoich doświadczeniach z wyszukiwaniem w Genetece - nie jest to zweryfikowane przez Sebastiana, ale mam nadzieję, że wielu osobom może pomóc i rozwiać pewne wątpliwości http://www.kimonibyli.pl/wyszukiwanie-w-genetece/
Pozdrawiam
Maciej

http://KimOnibyli.pl
elżbieta

Sympatyk
Ekspert
Posty: 232
Rejestracja: czw 10 maja 2007, 13:08
Lokalizacja: Szczecin

Wyszukiwanie w Genetece

Post autor: elżbieta »

Ja z kolei nie jestem wstanie zrozumieć dlaczego rozdzielono wyszukiwanie nazwisk Orlik i Orlikowski za jednym podejściem (jak kiedyś było). Teraz trzeba wyszukiwać osobno (moi pra... używali obydwu ). Chociaż przy Orliku wykazuje Orlickich i Orlińskich, a przy Orlikowskim Orłowskich. Używam wszelkich możliwości wyszukiwarki. Ten drobiazg wywołuje u mnie irytację
Pozdrawiam
Elżbieta
Worwąg_Sławomir

Nieaktywny
Nowicjusz
Posty: 999
Rejestracja: pn 15 lis 2010, 20:10

Re: Wyszukiwanie w Genetece

Post autor: Worwąg_Sławomir »

elżbieta pisze:Ja z kolei nie jestem wstanie zrozumieć dlaczego rozdzielono wyszukiwanie nazwisk Orlik i Orlikowski za jednym podejściem (jak kiedyś było). Teraz trzeba wyszukiwać osobno (moi pra... używali obydwu ). Chociaż przy Orliku wykazuje Orlickich i Orlińskich, a przy Orlikowskim Orłowskich. Używam wszelkich możliwości wyszukiwarki. Ten drobiazg wywołuje u mnie irytację
Pozdrawiam
Elżbieta
Dodaj gwiazdkę po Orliku, to znajdzie Orlików i Orlikowskich, czyli:
Orlik*
Pozdrawiam
Sławek Worwąg
elżbieta

Sympatyk
Ekspert
Posty: 232
Rejestracja: czw 10 maja 2007, 13:08
Lokalizacja: Szczecin

Re: Wyszukiwanie w Genetece

Post autor: elżbieta »

Worwąg_Sławomir pisze:
Dodaj gwiazdkę po Orliku, to znajdzie Orlików i Orlikowskich, czyli:
Orlik*
Sławku, czy sprawdziłeś działanie "*" ? Orlikowskich nie znajduje!!!!
Pozdrawiam
Elżbieta
Awatar użytkownika
Markowski_Maciej

Członek PTG
Adept
Posty: 948
Rejestracja: ndz 09 maja 2010, 22:22
Lokalizacja: Warszawa
Kontakt:

Re: Wyszukiwanie w Genetece

Post autor: Markowski_Maciej »

Trzeba "zaptaszkować" opcje wyszukiwanie dokładne. Wtedy znajdzie i Orlikowskich. Sprawdziłem na wszelki wypadek.
Pozdrawiam
Maciej

http://KimOnibyli.pl
janden

Członek Honorowy
Mistrz
Posty: 393
Rejestracja: śr 23 paź 2013, 09:15
Lokalizacja: Łódź

Post autor: janden »

Pojęcia "zdublowany indeks" czy "indeks z innego źródła" to pewne uproszczenia/skróty myślowe.

W Genetece w jednej "księdze", którą można przeszukiwać (i otrzymywać bardziej szczegółowe wyniki) jest zwykle wiele indeksów osobowych dotyczących danej parafii. Najbardziej prozaiczne przypadki to księgi z jednych lat przechowywane w jednym archiwum, a z innych lat w drugim. Nie powinno się już zdarzać, żeby bieżące indeksy były wstawiane bez podania "źródła" (literka "Z" w wynikach wyszukiwania), a i starym indeksom są powoli przypisywane.

Jeżeli w bazie są dla danej parafii dwa rekordy różniące się tylko tym, co wyświetla się pod literką "Z", powstaje wrażenie "dublowania", choć fizycznie są to różne księgi.

W bazie są inne zaszłości z czasów, gdy nie było jeszcze pola "vel" - podwojone, a nawet potrojone wpisy wdów.

Uzupełnianie indeksu o dane z innych ksiąg niż indeksowana, ma z mojego punktu widzenia dwie wady:

1. Na pierwszy rzut oka (i na drugi też) trudno ocenić, czy ktoś zajmował się innym źródłem całościowo.

2. Przy wykryciu "nadmiarowych" aktów (Bogdan miał takie przypadki) pozostaje wstawianie do bazy takich pojedynczych wpisów z przypisanym innym źródłem.
Czy za np. 5 lat ktoś administrujący bazą właściwie zinterpretuje o co chodzi - nie wiem.
pozdrawiam
Tomek Turniak
Płowik_Hubert

Sympatyk
Nowicjusz
Posty: 367
Rejestracja: pn 13 wrz 2010, 16:17
Lokalizacja: Błonie

Usprawnienie geneteki

Post autor: Płowik_Hubert »

Witam,

W związku z poszukiwaniami osoby o bardzo rzadkim imieniu, tj. Pudencjanna, chciałbym skierować pytanie do administracji geneteki, czy w ogóle możliwe jest dodanie wyszukiwarki wg imion? Również pomogłoby to w przypadkach zgonów kobiet, których nazwisk panieńskich w akcie nie podano.
Pozdrawiam
Hubert
Awatar użytkownika
Kaczmarek_Aneta

Sympatyk
Legenda
Posty: 6298
Rejestracja: pt 09 lut 2007, 13:00
Lokalizacja: Warszawa/Piaseczno

Usprawnienie geneteki

Post autor: Kaczmarek_Aneta »

Jestem jak najbardziej ZA, o czym nie raz pisałam (i nie tylko ja) na forum.
Niestety, póki co, Administracja nie podejmie się tego zadania (patrz odpowiedź Sebastiana) - przynajmniej takie było stanowisko z listopada ubiegłego roku:
http://genealodzy.pl/PNphpBB2-viewtopic ... 1665.phtml

Pozdrawiam,
Aneta
ODPOWIEDZ

Wróć do „Indeksacja metryk - projekty PTG”