Geneteka - nasze wspólne dzieło

Tematy - indeksacja i digitalizacja metryk, projekty PTG

Moderatorzy: elgra, Galinski_Wojciech, maria.j.nie

janden

Członek Honorowy
Mistrz
Posty: 393
Rejestracja: śr 23 paź 2013, 09:15
Lokalizacja: Łódź

Re: źródła indeksów

Post autor: janden »

megagrzechu pisze: powszechnie wiadomo że ineksujący korzystają z różnych źródeł oryginalnych ksiąg lub duplikatów
i tworzą indeksy z pełnych aktów lub z skorwidzy/rejestrów.
Proszę o info czy i wjaki sposób można te infomacje ddotyczące sposobu indeksowania odczytać.
Niestety, wiele rekordów jest jeszcze nieuporządkowanych, ale przypisanie źródła także do starych indeksów jest jednym z naszych priorytetów.

Jak powinno być:
- zaglądając pod literkę "Z" można sprawdzić z zasobu jakiego archiwum pochodzą dane do indeksu (można też trafić na "parafia"),
- zaglądając pod literkę "i" można sprawdzić zawartość pól uwagi, data, miejscowość, vel; indeksy inne niż z aktów powinny być opisane, np. "dane ze skorowidza", "sumariusz" itp.
pozdrawiam
Tomek Turniak
alus

Sympatyk
Mistrz
Posty: 127
Rejestracja: śr 26 mar 2008, 12:45

Re: źródła indeksów

Post autor: alus »

Wracając do dość istotnej dyskusji toczonej w tym wątku (podstrony 93-95) - (http://genealodzy.pl/PNphpBB2-viewtopic ... 1410.phtml) i konkluzji (decyzji?), że na metrykach mają być JEDYNIE indeksy zweryfikowane - zwracam się z prośbą o usunięcie WSZYSTKICH przesłanych przeze mnie kilkudziesięciu lat metryk z Nieborowa z projektu metryki.genealodzy.pl. (http://metryki.genealodzy.pl/ar11-zs0311d, http://metryki.genealodzy.pl/ar3-zs1597d). Szkoda mojej pracy - przynajmniej teraz już wiem, że na projekt metryki nie ma najmniejszego sensu przesyłać informacji bo i tak trafią one do czarnej dziury.

Nie bardzo wiem na czym miałaby polegać taka "weryfikacja" i kto miałby to robić (i na podstawie jakich przesłanek oraz wiedzy, że "coś" oczekuje na weryfikację). Wobec czego przypuszczam, że oprócz udostępniania/publikacji samych zdjęć z metryk projekt nie będzie pełnić innych istotnych funkcji - bo po pierwsze indeksy i tak nie doczekają się wrzucenia tam, a po drugie - jest to tylko powielanie roboty z geneteki. Genetekę bardzo łatwo wyposażyć w mechanizm pozwalający innym użytkownikom na formalną weryfikację (wikipedia funkcjonuje tak od wielu lat i jakoś nie ma problemu - status rekordu i jego historia). Wobec czego coraz mniejszy jest sens jest trzymania oddzielnie indeksów w dwóch różnych projektach obecnie nie różniących się praktycznie niczym z punktu widzenia opisu materiału.
===========
Arek
Sroczyński_Włodzimierz

Członek PTG
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa

Post autor: Sroczyński_Włodzimierz »

alez nigdy nie było większego sensu trzymać tych samych rekordów w dwóch bazach
tzn niezweryfikoanych w metryki
i zweryfikowanych w genetece

Dlaczego nie różniących się niczym z pubnktu widzenia opisu materiału - to tego fragmentu nie zrozumiałem w ogóle. Może to nie jest najlepsze miejsce,żeby wyjąsnić ale chyba warto:)
a na czym ma polegac weryfikacja to od początku wiadomo:)
przede wszystkim przejrzenie materiału przez drugą parę oczu. Plus ew bardziej zaawansowane techniki ("crossowo z innymi rocznikami, typami aktów, drugimi egzemplarami aby uzupełnić vele etc)

"Konkluzja/decyzja" o weryfikacja leży u podstaw, tzn jest jednym z założeń projektu (o ile mi wiadomo;)
Na projket metryki niezweryfikowanych materiałów nigdy specjalnie ni ebyło sensu przesyłać, chyba że było uzgodnione, że to admin metryki ma przesłac do weryfikacji:)

pozdrawiam

Ps dziwię się, że indeksy do metryki zostały wstawione..trochę to użytkowników w bład wprowadzić mogło, a skoro były indeksy w genetece to żadnego pkusa w tym nie ma
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
alus

Sympatyk
Mistrz
Posty: 127
Rejestracja: śr 26 mar 2008, 12:45

Post autor: alus »

Dużo osób o tym wciąż nie wie, że "ktoś" powinien weryfikować. Nie mówiąc o tym, że niekoniecznie ma świadomość na czym miałaby polegać weryfikacja. Więc tu polemizowałbym.

W grę wchodzą:
Pełna formalna weryfikacja - czyli de fakto wykonanie tej samej pracy co indeksujący przez kogoś innego (kogo?). Jak rozumiem w tym przypadku pod terminem "weryfikacja" rozumiane jest przejrzenie każdego aktu 1:1 i stwierdzenia, że jest ok.

"Druga para oczu" - czyli co? ktoś spojrzy od góry do dołu (5 minut) i zobaczy czy "mniej więcej" jest wszystko ok?

Techniki statystyczne - z mojego doświadczenia wynika, że wszystkie techniki statystyczne aby miały sens muszą być wspierane automatami (człowiek nie jest w stanie tego zrobić na dużej próbce danych), więc pominę to rozumienie "weryfikacji". Bo tego nie powinien robić człowiek ale metody bayesowskie lub też na bazie słownikowej.

Jest jeszcze metoda, ktorą można nazwać "weryfikacja punktowa" (wykorzystywana np. w normie ISO - gdzie sprawdza się wyrywkowo kilka indeksów i jak są ok to jest przyjęte przez domniemanie, że reszta jest ok.

Dlatego wciąż nie mam pomysłu na to co jest rozumiane pod pojęciem "weryfikacji" - temat nie jest nigdzie zdefiniowany (a naprawdę nie chwaląc się trochę wiem o temacie analizy, tworzenia i projektowania dużych systemów pod kątem przetwarzania ogromnych ilości danych).

Stąd moja wątpliwość. Inna sprawa, że dalej nie wiadomo także, kto nadaje się na weryfikatora, skąd miałby on uzyskać informacje, że "coś jest do zweryfikowania", kiedy miałby to zrobić (zależnie od przyjętej metody).

Temat utrzymywania dwóch powielających się zakresem merytorycznym projektów można łatwo rozwiązać rezygnując z jednego (poza publikacją i ustrukturyzowaniem zdjęć) a w drugim dodając statusy + dodatkowe deskryptory opisujące rekordy.

Acha - we wcześniejszych dyskusjach przewijał się wątek "jakości" indeksów. Co przez to rozumiemy? Są gdzieś spisane współczynniki tej jakości?
===========
Arek
Sroczyński_Włodzimierz

Członek PTG
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa

Post autor: Sroczyński_Włodzimierz »

ALeż ne ma dwócg projektó pokrywających się zakresem merytorycznym, co zostało wyjaśnione wyżej:)
I nikt z żadnegoporjketu nie zrezygnuje, nie m atakiego problemu "jak zrezygnować":)
Jeden i drugi jest potrzebny i wspiera się nawzajem

Jeśli jesteś zainteresowany weryfikowaniem wproadzonych danych - daj znać. To nie jestr wątek odpowieni dla tego tematu. Hasłowo: minimum 99,5% pewności, że nie ma fałszywie negaywnych wyników ma być na wyjściu (w przypadku fałszywie pozywtywnych, z uwagi na rzyzerwoy koszt sprawdzenia w dostępnej kopii - dużo niższy poziom ufności jest oczekiwany)
i na bazie słownikowej (od autokorekty "excela" poczynając, prze znajomość typowych błędów etc) i poprzez porównanie z innym rekordami (U z M etc). "Oko korektora" to nawet w przypadku książek czy "normalnych" tekjstów dość specyficzna umiejętność.
pozdrawiam

PS usunięte
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
alus

Sympatyk
Mistrz
Posty: 127
Rejestracja: śr 26 mar 2008, 12:45

Post autor: alus »

Ja się na weryfikatora nie nadaję, zresztą nie bardzo mnie bawi poprawianie tego co ktoś już zrobił - wolę wprowadzać nowe rzeczy (większość indeksów jest robionych naprawdę dobrze - jeśli zdarzają się pomyłki to jest to bardzo niski procent).

Autokorekta excela nie działa na nazwiskach (być może sprawdza się jedynie w niewielkich parafiach gdzie jest ich niedużo). Tym bardziej, że jest oczekiwanie co do wprowadzania w dwóch wersjach - oryginalnej oraz wspłczesnej. W takim Łowiczu Kolegiacie - każde nazwisko jest praktycznie inne i to nie ma prawa zadziałać.

Słowniki TERYT choćby, które mogłyby być używane do walidacji miejscowości też się obecnie nie nadają, bo wiele miejscowości już dzisiaj nie istnieje.

Ja nadal nie do końca rozumiem po co są trzymane indeksy w dwóch miejscach - raz w genetece, raz w metrykach. Że niby jedne są "bardziej" zaufane od drugich? Ale jak już pisałem wystarczy wprowadzić pole statusowe - określające poziom ufności (ze spisów/pełny zapis/zweryfikowane) i będzie miało to takie samo znaczenie. Ktoś chce bardziej zaufane to można wyfiltrować na podstawie tego kryterium.

Jeśli miałoby to naprawdę porządnie być zbudowane należałoby umożliwić ludziom bezpośrednią modyfikację rekordów przez interfejs przeglądarkowy (tak jak choćby w projekcie Launchpad czy Wikipedia) i do czasu zatwierdzenia przez kogoś kompetentnego rekord taki wisi jako niezatwierdzony. Tym sposobem można rozwiązać kwestie "zgłoszeń nieprawidłowości w indeksach - po co angażować w to ludzi, prowadzić wątek osobny skoro można samemu zmienić już na źródle? I także kto chce - może weryfikować to co go interesuje. Póki co to nawet nie wiadomo co wymaga weryfikacji a co nie. Przynajmniej nigdzie na serwerze takiej informacji nie ma. Trzymanie indeksów w metrykach nie miałoby przy tych założeniach żadnej wartości dodanej. A pozwoliłoby zwolnić zasoby sprzętowe dla potrzeb geneteki.
===========
Arek
Sroczyński_Włodzimierz

Członek PTG
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa

Post autor: Sroczyński_Włodzimierz »

"nie bardzo mnie bawi poprawianie tego co ktoś już zrobił - wolę wprowadzać nowe rzeczy (większość indeksów jest robionych naprawdę dobrze - jeśli zdarzają się pomyłki to jest to bardzo niski procent)"
i to jest najlepsze podsumowanie:)
Bez ironii - zdaje sobię sprawę, że z jednej strony
jest to mniej "zabawne"
i z drugiej - ilość użytkowników, którzy są zainteresowanui infromacją "nie znaleziono bo nie ma (na prawie 100%) w przeszukanym zakresie" tez jest relatywnie niska ( w prównaniu do zaintersowanych "gdzie Kowlaski w Polsce na przestrzeni 300 lat)
choć ciut mnie to dziwi

co do reszty: nie martw się:) "zasoby sprzetowe" potrzebne dla geneteki zajmowane "niepotrzebnie" przez metryki..nie są problemem:)
na pewno mniejszym niż "połączenie indeksów" i problemy z tym związane

istnieje pogląd (który także nie będzie uwzględniony), że indeksowanie w ogóle jest zbędne:) szczególnie małych parafii - do kwerendy wystarczą kopie
oczywiście, gdy ktos szuka z głową (czyli ok 10 lat i ma teren)

ważne, że bezkonflikotowo (poza postami raz na jakiś czas) wszystkie te poglądy i chętki do pracy mogą współistnieć i dawać satysfakcję zarówno wykonawnom jak i kwerendzistom o róznych potrzebach

pozdrawiam
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
niedomnie

Sympatyk
Posty: 190
Rejestracja: pn 05 sty 2015, 16:56

Re: Mogę indeksować Częstochowę

Post autor: niedomnie »

kto mnie oswieci - czym rozni sie genetyka od metryk - bo jak na to patrze to metryki sa nieprzetworzonym zbiorem zdjec a genetyka przeparsowanym indeksem samych aktow urodzenia/malzenstw i zgonow?

moje rozumienie tego jest prawdopodobnie bledne - bo niektorzy chca wykonywac indeksacje metryk albo genetyki, wiec co w obu przypadkach chca robic?
Sroczyński_Włodzimierz

Członek PTG
Nowicjusz
Posty: 35480
Rejestracja: czw 09 paź 2008, 09:17
Lokalizacja: Warszawa

Re: Mogę indeksować Częstochowę

Post autor: Sroczyński_Włodzimierz »

projekt metryki zawiera kopie ksiąg oraz indeksy zweryfikowane wykonane na ich podstawie
patrz: http://metryki.genealodzy.pl/rejestry.php
geneteka - indeksy zrobione z róźnych źródeł - także z kopii niedostępnych on-line
http://geneteka.genealodzy.pl/rejestry.php?lang=pol
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
Awatar użytkownika
ofski

Sympatyk
Nowicjusz
Posty: 651
Rejestracja: wt 15 lut 2011, 23:48

Re: Mogę indeksować Częstochowę

Post autor: ofski »

troszkę źle parsujesz :mrgreen:, gdyż błędem jest używanie nazwy jednej z nauk jaką jest - genetyka, mówiąc o projekcie indeksacji z ksiąg metrykalnych oraz z innych źródeł, którym jest - geneteka

a poza tym, witam na forum
Krzysztof
niedomnie

Sympatyk
Posty: 190
Rejestracja: pn 05 sty 2015, 16:56

Re: Mogę indeksować Częstochowę

Post autor: niedomnie »

witam,
fakt geneteka - nigdy nie twierdzilem, ze jestem eksperem w czytaniu ;) i Twoje przypuszczenie, ze to nie wynik pomylki pisania, a parsowania jest prawidlowe (uzywanie parsowania to zboczenie zawodowe - indeksacja jest tylko szczegolnym wyjatkiem parsowania ;) ) - gratuluje ofski

hmm, wlasnie brakowalo mi linka do tych rejestrow (nie wiadomo gdzie kliknac) - o ile w genetece mozna wybrac z select'a (wiec niej jest to potrzebne), o tyle do metryk nie znalazlem tego nigdzie

jednak ciagle mam pytanie: P. Wlodzimierzu mowi pan metryki zawieraja zdjecia - sa - klinke na mape i moge wybrac, ale gdzie sa te indeksy, bo w w przytoczonym liku jest lista miejsc (sa zrodla podane - w sensie z jakiego zbioru - to chyba Pan mial na mysli piszac zweryfikowane), ktora co prawda da sie kliknac, ale po klinkieciu pojawia sie tylko statystyka aktow, czy zatem j. ktos zindeksuje te metryki to one pojawiaja sie wlasnie w genetece? czy jednak ten indeks jest jakos osiagalny w ramach metryk? albo po prostu tam cos nie dziala, bo niby wybiera sie inny adres strony (dla konkretnej parafi), a tresc jest ciagle ta sama.
ciagle nierozumiem - bo uzytkownicy forum pisza tu, ze beda cos robic albo w metrykach, albo w genetece - zatem to zadania rozlaczne.


Wysłany: 24-01-2015 - 19:34*

tak oczywiscie chodzi o wyszkukiwanie a nie raport (szukajac osoby o popularnym nazwisku, nie znajac dat - dostajemy wiele wynikow, a przy wyszukiwaniu po wojewodztwie nie ma stronicowania, obejsc to mozna np. wyszukujac po 1 roku - robilem tak - co prowokuje takie pomysly i pewnie powoduje wieksze obciazenie na DB),

obciazenie sprzetu? czemuz to? - nawet j. to kwestia jakies indeksacji na bazie i tego ze z jakis wzgledow dodatkowy indeks by byl zbyt "drogi" w utrzymaniu (w co watpie - bo tam macie max miliony rekordow, wiec ani wielkosc bazy, ani czas wstawiania - ktory jest bardzo rzadki nie wydaje sie problemem, macie przewage odczytywania wiec warto indeksowac co sie da), to nadal to mozna zrobic na kliencie (czyli po odebraniu z bazy danych, a przed pokazaniem na stronie ),
mozna tez dodac do strony wyszukiwanie w ramach raportu (ale to juz wieksze skompikowanie - i wielu moze wprowadzic w blad)

no i nie widac dopiskow/dodaktow czy jak to zwiecie - trzeba patrzec na zrodlo strony i wtedy mozna przeczytac ze ktos tam umiescil imiona,

jeszcze 1 wiekszy pomysl:
tez jak sa bledy to mozna by dodac jakies notatki dostepne dla uzytkownikow forum, rozumiem oczywiscie, ze ktos moze to poprawic, ale czasem blad jest w zrodlach i tego zmieniac nie chce sie (bo trzeba by sprawdzic czy to na 100% blad),
a j. jakis genealog juz to wykryl dodawal by notke - powiedzmy max 1 do kazdego rekordu, i nie wiecej niz 1 na dzien, wtedy kazdy inny uzytkownik by to mogl zobaczyc, tylko ten wpis (ale to juz jest zmiana funkcjonalnosci, oczywiscie wpisy te moglyby byc zupelnie w innej bazie trzymane, a wyszukiwanie byloby po 1 rekordzie),
a moze juz macie jakis sposob na rozwiazywanie tego problemu - ustalenia genealoga by wspoldzielic i wiazac z konkretnym rekordem (pewnie po prostu przez opisywanie na forum)

a propo skryptow/bazy - mam doswiadczenie w wielu bazach, skrytpach na bazie jaki i dotyczacych obrabiania tekstu, m.in. python, awk, rozne jvm, bash, sql'e, optymalizacja zapytan, indeksacja kolekcji w bazach, rozne formaty, linux/windows

jestem zainteresowany wszystkim co nie wymaga GUI, tworzenia stron, itp. - chyba, ze proste jak z imieniem (wg mnie)

wiec slucham - moj mail najpewniejszy - niedomnie at gmail dot com,
przynajmniej info, ze jest cos gdzies dla mnie na forum

doczytalem oto cos takiego
sebastian_gasiorek
"Obecnie nasza baza danych obsługuje 24mln zapytań na dobę co daje średnio 1mln na godzinę. Większość z tych 24mln przypada na godziny dzienne i wieczorne. Przy takiej ilości jedna zdawałoby się prosta zmiana potrafi zabić wszystkie portale"
tu autor myli moim zdaniem przyczyne ze skutkiem, bardziej waski indeks to mniej wyszukiwania, mniejsze zwroty, i wcale nie wolniejsze wyszukiwanie (czy nawet bardziej procozerne), na tym co juz i tak trzeba zlaczyc, wyfiltrowac uruchamiany jest jeszcze 1 filtr, chyba, ze to spowoduje uzycie innego indeksu wlasnie z imienia - ale to blad zapytania,
nie wyobrazam sobie zauwazalnego negatywnego wplywu na obciazenia ze wzgledu na wprowadzenie imienia,
natomiast mam dowod po sobie, ze wykonywalem setki zapytan do geneteki, by obejsc ograniczenia serwisu dot. wyszukiwania (czyli imie, brak page'owania dla calych wojewodztw, utrudnione api, brak imienia, i co z tego wynika wiele stron i wiele zapytan by te dane z wielu stron osiagnac, ilu jest takich jak ja? i ile ruchu oni generuja?

moge wykonac takie testy wydajnosciowe zapytan do geneteki na calej bazie - o ile ja dostane, moze byc za'hash'owana (byle by madrze), w najgorzym razie strukture, nazwe/wersje bazy (rozumiem ze relacyjna) i postaram sie przeprowadzic jakies symulacje, wielu zapytan na raz z i bez wyszukiwana po nazwie (mysle ze sprzet bedzie w tym nie tak istotny),

wogole chetnie zobaczylbym strukture bazy, i najczestsze zapytania, moze nie wszystko jest idealnie - i moglbym pomoc?


* (moderacja - scalenie wypowiedzi wysyłanych, co kilka minut na Forum)
CzuczuStanisław

Sympatyk
Posty: 213
Rejestracja: ndz 04 sty 2009, 12:32

Re: Mogę indeksować Częstochowę

Post autor: CzuczuStanisław »

Witam. Panie Patryku. Czy w parafii Osobnica wśród urodzonych jest Czyżowicz lub Figura? Może Pan wie?
Stanisław
Albertinio

Sympatyk
Posty: 72
Rejestracja: czw 13 lis 2014, 21:29

Re: Mogę indeksować Częstochowę

Post autor: Albertinio »

CzuczuStanisław pisze:Witam. Panie Patryku. Czy w parafii Osobnica wśród urodzonych jest Czyżowicz lub Figura? Może Pan wie?
Stanisław
Przeglądałem te akta kilka razy. Niestety nie pamiętam takich nazwisk. Osobnica to bardzo zamknięta wieś. Śmiem twierdzić, że wszyscy mieszkańcy są ze sobą do dzisiaj spokrewnieni. Występuje tam kilkanaście nazwisk, ale nazwisk Figura i Czyżowicz nie pamiętam. Sprawdzę jeszcze raz i dam znać. Jeżeli ktoś szuka przodków, którzy mieszkali w powiecie jasielskim to chętnie pomogę. Pozdrawiam.
Awatar użytkownika
OlaH

Członek Honorowy
Adept
Posty: 320
Rejestracja: sob 27 mar 2010, 04:12
Lokalizacja: North Aurora, IL, USA

Re: Mogę indeksować Częstochowę

Post autor: OlaH »

niedomnie pisze: czy jednak ten indeks jest jakos osiagalny w ramach metryk? albo po prostu tam cos nie dziala, bo niby wybiera sie inny adres strony (dla konkretnej parafi), a tresc jest ciagle ta sama.
ciagle nierozumiem - bo uzytkownicy forum pisza tu, ze beda cos robic albo w metrykach, albo w genetece - zatem to zadania rozlaczne.
Po wejściu na stronę metryki.genealodzy.pl wystarczy kliknąć na ikonkę lupki "Wyszukaj nazwisko w zasobach", która prowadzi do wyszukiwarki w bazie indeksów w Metrykach.

Pozdrawiam,
Ola
mmaziarski

Sympatyk
Tytan
Posty: 1034
Rejestracja: ndz 30 mar 2008, 13:10
Lokalizacja: Jasło

Re: Mogę indeksować Częstochowę

Post autor: mmaziarski »

CzuczuStanisław pisze:Witam. Panie Patryku. Czy w parafii Osobnica wśród urodzonych jest Czyżowicz lub Figura? Może Pan wie?
Stanisław
Nazwisko Figura jest w miejscowości Ołpiny.
Czyżowiczów dużo w Żółkowie
Zablokowany

Wróć do „Indeksacja metryk - projekty PTG”