genealodzy.pl

Jeszcze jedna uwaga.
Temat tyczy się szablonów indeksacji i jeżeli tylko i wyłącznie rozchodziłoby się o szablon to każdy mógłby go dostosować do własnych potrzeb(dwie miejscowości, nazwiska chrzestnych, daty, itp) i tak też pewnie się dzieje. Niemniej większy problem jest z formatem przechowywania danych w genetece i to tak naprawdę w dużej mierze determinuje docelowy standard. Ze sposobem przechowywania jest ściśle związany sposób łatwego i szybkiego wyszukiwania danych. Obecnie wszystkie zaproponowane wyżej rozwiązania możemy sprowadzić do założenia że informacje nie posiadające dedykowanej kolumny scalamy i umieszczamy w kolumnie Uwagi - tak naprawdę tutaj można wprowadzić całą treść aktu. To z kolei rodzi problem z wyszukiwaniem.

Zatem wolałbym np. uniknąć scalania kolumn z imionami. Być może większa liczba kolumn, które w większości przypadków byłyby nie uzupełnione są lepszym rozwiązanie chociażby z tego względu że umożliwiłoby to zwiększenie zakresu wyszukiwania.

Od razu zwrócę się do @mziel(nie wiem czy to dobry adresat). Czy jest możliwość wystawienia całej bazy geneteki MySQL do pobrania ewentualnie jej części zawierającej dane z geneteki? Zakładam że codziennie kopie zapasowe są wykonywanie więc opublikowanie kilku/kilkudziesięciu GB nie sprawiłoby problemu. Pytam gdyż dla mnie kolumna Uwagi zawiera niezmiernie cenne informacje w i ten sposób byłbym w stanie rozszerzyć zakres poszukiwań.

Dobrze, że temat wypłynął, bo odkąd tylko zetknąłem się z szablonami w Genetece, odniosłem wrażenie, że nie do końca zostały dobrze przemyślane i dostosowane do treści metryk. Może nadszedł czas to naprawić?

Niestety treść komentarzy w tym wątku budzi czasem lekki niepokój, że ewentualne wdrożenie niektórych propozycji tylko pogorszy stan rzeczy.

Uważam, że scalanie danych (kolumn) nie powinno mieć miejsca, podobnie jak wrzucanie wszystkiego do "Uwag", w sytuacji kiedy można i warto stworzyć odpowiednią kolumnę. Dobra baza danych to taka przecież, gdzie uwzględnione są wszystkie "standardowo" pojawiające się w danym typie źródeł informacje, do tego odpowiednio odseparowane w poszczególnych polach (kolumnach), co umożliwia większą możliwość i elastyczność wyszukiwania, filtrowania...

Oczywiście znów pojawia się stare pytanie, czy lepiej jest mieć milion prawie bezwartościowych indeksów, czy też sto tysięcy, które umożliwiają w miarę precyzyjne namierzanie konkretnych osób.

W każdym razie szablon powinien być przygotowany na tę drugą opcję, a indeksujący sam zdecyduje ile czasu poświęci na swą pracę i które dane wprowadzi do szablonu, umożliwiającego ich późniejsze uzupełnienie.

Przechodząc do konkretnych propozycji, sugerowałbym przesunięcie kolumny "data" zaraz po "rok" lub "akt", a "Uwagi" i "plik/link" na koniec (przed "ID") - dotyczy UMZ. Padające pomysły likwidacji pola (kolumny) "data" są doprawdy kuriozalne.

W przypadku szablonu M warto by było wprowadzić dodatkowe kolumny dla wieku i miejscowości pochodzenia tak pana młodego jak i panny młodej.

Z kolei w szablonie Z mile widziana by była dodatkowa kolumna z wiekiem zmarłego, a zwłaszcza kolumny z imieniem i nazwiskiem małżonka - wszak w przypadku zgonów osób zamężnych czy wdowców częściej pojawia się informacja o partnerze niż rodzicach zmarłego.

Natomiast w samej Genetece dobrym rozwiązaniem byłoby wdrożenie możliwości indywidualnego wyboru pól (kolumn), które miałyby być opcjonalnie wyszukiwane i wyświetlane, co poniekąd rozwiązywałoby problem prezentacji pełnej tabeli na stronie serwisu.

Dla tabeli urodzeń.,
Z punku widzenia indeksującego najbardziej funkcjonalnym i jednocześnie zapewniającym maksimum informacji jest zapis w jednej kolumnie rodziców:
O: imię (O: imię M: imię nazwisko) M: imię i nazwisko (O: imię M: imię nazwisko)
Jeśli brak jest danych metrykalnych - to nawiasy pomijamy.

Jest to niezwykle pomocne podczas indeksacji przy funkcji autouzupełniania Excela, pozostaje problem transpozycji do Geneteki.

Warto przypomnieć pierwszy post i propozycje zmian.

Moim zdaniem wszystkie bym przyjął, choć mam wątpliwość do łączenia imion. Przy indeksacji łatwiej się wpisuje, gdy są oddzielnie. Propozycje według mnie upraszczają indeksację.

Odnośnie różnych propozycji poza poniższym. Chyba jestem ze "starej szkoły" - indeks ma pomóc znaleźć akt, a nie zastąpić akt. Dla mnie akt to podstawa nawet jeśli wszystko wpisane byłoby w indeksie. Niektóre propozycje wskazują, żeby wpisywać wszystko - dla mnie bez sensu. Oczywiście wyjątek księgi, które nie są nigdzie dostępne dla wszystkich.

mziel pisze:Zaczynamy prace na nową Geneteką. W tym celu porządkujemy/upraszczamy obecne tabele, w których znajdują się indeksy. Innymi słowy jest szansa na zmianę szablonu indeksacji. Przypominam, że obecne są dostępne tutaj:
https://geneteka.genealodzy.pl/jak-inde ... p?lang=pol
https://geneteka.genealodzy.pl/jak-indeksowac-M.php

Jako że indeksujący mierzą się z szablonami na co dzień, prosimy o Wasze uwagi/propozycje zmian do nich, które pomogłyby Wam w indeksowaniu. Jest to rzadka szansa, aby coś w nich zmienić. Podkreślam, że chodzi tylko o tą tabelę indeksu (nie zasady wyszukiwania, wyświetlania tych indeksów lub inne aspekty indeksowania/działania geneteki).

Oto propozycje zmian adminów geneteki:
Rezygnacja z Kolumny A: liczba porządkowa. Nie jest do niczego potrzebna.
Rezygnacja z kolumny C:sufix. Bardzo rzadko wykorzystywana. A jeśli się zdarza sufix powinien być wpisywany w kolumnę B razem z numerem aktu.
Rezygnacja z Kolumny F [dla UZ] / F i K [dla M]: dalsze imiona. Dalsze imiona powinny być wpisywane w kolumnę dla imienia, której limit znaków powinien być odpowiednie zwiększone, aby pomieścił dużą liczbę imion.
Rezygnacja z kolumny G [dla UZ]/ G i L [dla M]: pierwsza kolumna dla nazwiska. Zamiast niej powinny zostać dwie kolumny dla nazwiska: główna i vel (dla wszystkich innych wersji/opcji nazwisk).
Rezygnacja z kolumny J: płeć. Do niczego to nie jest potrzebne, niepotrzebnie zabiera czas indeksującym, którzy decydują się to wypełniać.
Kolumna L [dla UZ] / P [dla M] zmiana nazwy z plik na link
Kolumna M [dla UZ] / Q [dla M]: zwiększenie limitu znaków (obecnie 250).

Nie wiem co chciał osiągnąć autor tego tematu - przecież wiadomo, że każdy chce czegoś innego i trudno tu będzie zadowolić wszystkich.
Są różne zapisy aktów i nawet w jednym regionie czy tej samej parafii (zabór rosyjski) kolejność występowania danych w akcie zależy od zapisującego kiedyś te akta. Wiele razy musiałem się przestawiać indeksując dla BaSI, bo nagle nowy skryba zmienił kolejność danych.

Ktoś, kto chce przygotować nowy szablon musi to zrobić po swojemu i wątpię, żeby powyższa dyskusja cokolwiek pomogła.
Jak kolumny płeć czy sufix do niczego nie są potrzebne to je wywalić.
Miejscowość jest jak najbardziej POTRZEBNA - skoro dana rodzina dłuższy czas mieszkała w miejscowości X w danej parafii, to po wyszukaniu widzę na co mam zwrócić uwagę i na jakie miejscowości tej parafii.

Sporo w dyskusji jest o kolejności kolumn w szablonie - sam przestawiam te kolumny i przywracam ich kolejność przed wysłaniem indeksu.
Ale czy trzeba to robić?
Czy kolejność kolumn jest ważna, czy może nieistotna, by indeks został dodany do bazy danych?

A kwestia NN czy pustego pola to dla mnie nowość - pierwszy raz o tym przeczytałem w tym temacie. Może to powinno być zapisane w instrukcji indeksowania?

Tak, indeks ma pomóc znaleźć akt, a nie go zastąpić. Nie znaczy to, że indeksy muszą być ubogie, bo często dzięki tym "dodatkowym" informacjom w indeksie możemy znacząco zawęzić obszar poszukiwań, co ma tym większe znaczenie przy niedostępności skanów. Dla mnie priorytetem jest funkcjonalna baza danych, a nie mnogość mało wartościowych indeksów. Dlatego zmiany ukierunkowane tylko na przyśpieszenie indeksacji nie są, moim zdaniem, dobrym kierunkiem działań. Przyśpieszyć indeksację można na różny sposób i każdy z indeksujących ma pewnie własne "patenty" na to. Jeżeli priorytetem ma być tylko przyśpieszenie wytworzenia mało mówiących indeksów, to może, po prostu, indeksować tylko skorowidze a nie akty?

Tylko pytanie, czy Geneteka ma być wygodnym i w miarę precyzyjnym narzędziem czy tylko jego namiastką.

Kolejność kolumn jest kwestią drugorzędna i pewnie wielu indeksujących przestawia ją sobie roboczo wedle potrzeb. Ale może warto dokonać zmian, które podparte będą logiką i porządkiem najczęściej występujących źródeł.

Konsolidacja kolumn nie jest dobrym pomysłem. Dobre bazy danych każdej znaczącej informacji przypisują oddzielne pole (kolumnę) co poszerza zakres operacji na zbiorze.

Akty UMZ dosyć często, standardowo posiadają informacje, które po dodaniu kilku kolumn nie musiałyby być (przez chcącego) umieszczane w "Uwagach".

Przy mnogości (w dziesiątki milionów) dostępnych kopii warto się zastanowić czy kreowanie bazy i generowanie nacisku w kierunku "bogatych indeksów" (nie tylko ten wątek jest na to przesłanką) nie jest stawianiem woza przed koniem.
Jeśli konstrukcja rekordu pozwala ograniczyć zbiór do dalszych poszukiwań kopii i nie ma szkodliwych skutków ubocznych w postaci:
* wymagań/presji co do "pełności" indeksów z ksiąg, których kopie dostępne są bez ograniczeń
* nie wspiera "genealogi bez dokumentów, na indeksach"
to może (może!) warto całą bazę przebudować.
W praktyce: zjawiska "nawet nie spojrzę w akt, bo mam indeks" "dostałem indeks, kopię, ale nie rozumiem go - nawet nie postaram się przetłumaczyć" "są indeksy, po co starać się o publikację kopii' nie wspierają genealogii rozumianej jako praca na dokumentach, a wręcz odwrotnie.

Jest taka idealna baza - nazywa sie Lubgens.
Tam się wpisuje 4 pola na krzyż.

A że nie za bardzo da się tam cokolwiek znaleźć bez kombinowania w "uwagach" to przeciez nie problem.
Mam 500 wyników "Jan Majewski" i sobie klikam 3 dni w "dokumenty źródłowe", aż trafię na brata pradziadka.

Da się. Przy stosowaniu kryteriów szukania.
Sytuacja "szukam Kowalskich" bez zawężania powinna być wręcz eliminowana - nie z powodów obciążania serwera etc ale czysto edukacyjnych przyczyn.
Każdy użytkownik powinien zdawać sobie sprawę, że niepodanie (w tym wypadku np zakresu dat) posiadanych informacji jest błędem. Przyda się przy zlecaniu płatnych kwerend:)
Przykład "Jan Majewski" bez np "szukam indeksu z aktu urodzenia z zakresu 1860-1880" jest przykładem złego korzystania z bazy, a zbyt lekkie skłanianie do zawężenia - utrwala takie postępowanie.
Bazy indeksów są bardzo przydatne, gdy nie znamy miejsca ale wiemy kto (plus minus oboczności) i mniej więcej kiedy.
Gdy wiemy gdzie, to w większości przypadków paręnaście minut na przejrzenie opublikowanych skorowidzów wystarczy ale sytuacja "nie typujemy mniej więcej kiedy" to po prostu błąd, brak warsztatowy.
I dobrze byłoby gdyby np geneteka nie sprzyjała taki błędom, a wręcz odwrotnie - skłaniała do nabywania niezbędnych umiejętności, do nawyków posługiwania się jak najbardziej konkretnymi informacjami.
Analogicznie - docenianie wartości wyniku "przeszukano zakres (...,...,...) i w tym zakresie brak.

"Kiedy" do dyskusji jak bardzo można i należy zawężać. Przyjmiemy za wąsko? Nic nie stoi na przeszkodzie ponowić szukanie zmieniając zakres czasowy. Ale szukać urodzenia zmarłego, o którym wiem że płodził dzieci w roku 1890 w zakresie lat 1700-2005 ? I pod takie szukania budować narzędzie?

Sroczyński_Włodzimierz pisze:Przy mnogości (w dziesiątki milionów) dostępnych kopii warto się zastanowić czy kreowanie bazy i generowanie nacisku w kierunku "bogatych indeksów" (nie tylko ten wątek jest na to przesłanką) nie jest stawianiem woza przed koniem.
Jeśli konstrukcja rekordu pozwala ograniczyć zbiór do dalszych poszukiwań kopii i nie ma szkodliwych skutków ubocznych w postaci:
* wymagań/presji co do "pełności" indeksów z ksiąg, których kopie dostępne są bez ograniczeń
* nie wspiera "genealogi bez dokumentów, na indeksach"
to może (może!) warto całą bazę przebudować.
W praktyce: zjawiska "nawet nie spojrzę w akt, bo mam indeks" "dostałem indeks, kopię, ale nie rozumiem go - nawet nie postaram się przetłumaczyć" "są indeksy, po co starać się o publikację kopii' nie wspierają genealogii rozumianej jako praca na dokumentach, a wręcz odwrotnie.

Nie chodzi o presję, a o potencjalną możliwość. Szablon nie uwzględniający dosyć oczywistego zbioru informacji odpowiednio wydzielonej w polach/kolumnach sam stanowi poważne ograniczenie dla tych indeksujących, którzy chętnie takie dane w swoich indeksach by umieścili z pożytkiem dla wielu użytkowników Geneteki.

To, w jaki sposób ktoś korzysta z samego narzędzia, i że niektórym wystarcza sam indeks, nie ma tu nic do rzeczy. Lepiej uświadamiać jak należy go używać, niż poziom owego narzędzia sprowadzać do mało wymagającego użytkownika, który i tak zrobi co zechce. Z pewnością większość użytkowników woli korzystać z jak najpełniejszego indeksu, a co z pozyskaną w ten sposób informacją zrobi, to już ich sprawa. Lakoniczne indeksy na pewno nie są właściwą "motywacją" do bardziej zaawansowanych i indywidualnych poszukiwań, często wręcz przeciwnie.

Jak wspomniałem wcześniej, pełniejszy indeks ma większe znaczenie przy niedostępności skanów on-line, a zwłaszcza w sytuacjach utrudnionego dostępu do samych ksiąg. Jeśli posiadamy indeks, który z dużym prawdopodobieństwem odnosi się do aktu, którego poszukujemy, mamy większe szanse na jego pozyskanie w sytuacjach "trudnych". Co nam po milionach indeksów, gdzie jest tylko rok, imię i nazwisko oraz miejscowość (parafia), a brak na przykład danych o rodzicach? Owszem, to więcej niż nic, ale już tylko ta "dodatkowa" informacja znacząco ułatwia poszukiwania, a i nie rzadko również zdobycie samego aktu.
Z drugiej strony, jeśli ktoś ma taką ochotę i fantazję indeksować w mniej lub bardziej pełny sposób metryki łatwo dostępne, to dlaczego mu to uniemożliwiać czy ograniczać samym szablonem?

Uważam, że sam szablon powinien być tak skonstruowany, aby zawierał wszystkie istotne (standardowe) informacje odpowiednio wydzielone w polach/kolumnach, pozostawiając w "Uwagach" miejsce na dane rzeczywiście dodatkowe. Natomiast osobną kwestią jest, które informacje indeksujący powinien uwzględnić, a które tylko może, jeśli ma czas i chęć. Szablon nie powinien ograniczać użyteczności bazy, ani potencjału ludzi chętnych do współpracy. Zawsze będą bowiem tacy, którzy idą na ilość indeksując minimum, jak i ci, którzy cenią sobie pełniejsze indeksy i sami takie wykonują. Jedni i drudzy powinni mieć tu pewną swobodę, skoro czynią to "pro publico bono". Uproszczenie szablonu, wbrew pozorom, wcale nie przełoży się na znaczący przyrost indeksów, a jedynie na ich gorszą jakość.

Mi chodzi o presję. Widzę ją. Nie tylko w tym wątku.
I nie sądzę by uzasadnione było sprowadzanie braku informacji do "bo nie ma pola na to"

Ma wszystko do rzeczy czy komuś "wystarczy indeks" - to podstawa po co jest baza i co to jest indeks.

Sroczyński_Włodzimierz pisze:Mi chodzi o presję. Widzę ją. Nie tylko w tym wątku.
I nie sądzę by uzasadnione było sprowadzanie braku informacji do "bo nie ma pola na to"

Ma wszystko do rzeczy czy komuś "wystarczy indeks" - to podstawa po co jest baza i co to jest indeks.

Ta sama informacja może być podana w różny sposób, co znacząco wpływa na możliwości przeszukiwania i filtrowania bazy. Gdyby to nie miało znaczenia, to wszystko możemy umieścić w "Uwagach" i po sprawie.

Można powiedzieć Iksińskiemu, że indeks to nie wszystko, ale to jego sprawa czy weźmie to sobie do serca. "Pręgierz" niepełnych indeksów nie wpłynie tu na edukację, a tylko pozbawia lepszego narzędzia pozostałych użytkowników.

Niewątpliwe, ale nie zmienia to wcześniejszych stwierdzeń. W tym diagnozy czy brak jest przepisanych treści aktów, a jeśli tak, to dlaczego taki brak jest i jakim kosztem można byłoby to zmienić.
Najpierw "po co" potem "czym i jak", a przypadku konfliktu celów - decyzja co ważniejsze.

Ja w ogóle nie widzę sensownego wytłumaczenia zdarzenia "mogę przepisać całość ("ręcznie" skopiować) i opublikować całość takiej kopii, nie mogę zrobić kopii innymi narzędziami (typu jakaś matryca światłoczuła) i jej opublikować.

Nie rozumiem parcia na przepisywanie całego aktu oraz dzielenie na gorsze i lepsze indeksy. Każdy indeks pomaga w odnalezieniu danego aktu.
Podstawowe dane wystarczą, by zidentyfikować osobę, a co wyczyta ktoś jeszcze z aktu, to jego sprawa.
Wyjątek księgi bez dostępu - dodatkowe informacje można wpisać w uwagi. A i tak po podstawowych danych można znaleźć osobę.
Po co mnożyć kolumny i informacje - czasy dziwne, niektórym nie chce się nawet zajrzeć do aktu. A inni mają zrobić za nich wszystko..

Indeks to nie tylko wskazówka, gdzie jest poszukiwany akt. Gdyby tak było - to nawet indeksacja skorowidzów by pewnie wystarczała przy niepospolitych nazwiskach.

Indeks, czyli seria danych, niekiedy dopiero pozwala na wyciągnięcie jakichś wniosków co do poszukiwanych pokrewieństw. Przy braku nazwisk, wszystkie inne nazwiska i jakiekolwiek dodatkowe dane z akt ułatwiają nam poszukiwania.
Czy ktoś poszukujący powiązań i swoich przodków w danej parafii woli indeks zrobiony przez kogoś innego czy chce zrobić indeksację samemu?

genealodzy.pl

Zmiana szablonów indeksacji

Re: Zmiana szablonów indeksacji