Automatyczne rozpoznawanie tekstu w zasobach AKM

Informacje genealogiczne dostępne w Internecie – linki do zasobów, których nie ma w Bibliotece cyfrowej w Katalog linków lub w wątkach tematycznych na tym podforum. Przed wysłaniem zapytania o nazwisko lub parafię, proszę sprawdzić wątki na podforum tematycznym: Poszukuję osób, rodzin oraz Poszukuję parafii, miejscowości

Moderatorzy: maria.j.nie, elgra, Galinski_Wojciech, adamgen

Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

marekzaborski pisze:[quote="Kamil_Reszczyk"

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek
Jeśli chodzi o poprawianie wyników rozpoznawania, niestety narzędzie Google Cloud Vision API samo w sobie nie jest w stanie się uczyć w sensie tradycyjnego uczenia maszynowego.

Aby poprawić jakość rozpoznawania pisma odręcznego dla konkretnego zestawu danych lub przypadku, potrzebowałbyś własnego modelu OCR (Optical Character Recognition), który byłby dostosowany do twoich potrzeb. Tworzenie własnego modelu OCR to zaawansowany proces, który wymaga zbierania i przygotowania odpowiednich danych treningowych, trenowania modelu oraz jego dostosowywania do konkretnej aplikacji.

Należałoby zwrócić się do specjalistów z dziedziny uczenia maszynowego lub deep learning, którzy byliby w stanie pomóc w opracowaniu i wdrożeniu własnego modelu OCR. Jednak jest to znacznie bardziej zaawansowany projekt niż korzystanie z gotowego narzędzia takiego jak Google Cloud Vision.
marekzaborski

Sympatyk
Nowicjusz
Posty: 399
Rejestracja: pt 27 sie 2010, 09:16

Post autor: marekzaborski »

Kamil_Reszczyk pisze:
marekzaborski pisze:[quote="Kamil_Reszczyk"

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek
Jeśli chodzi o poprawianie wyników rozpoznawania, niestety narzędzie Google Cloud Vision API samo w sobie nie jest w stanie się uczyć w sensie tradycyjnego uczenia maszynowego.

Aby poprawić jakość rozpoznawania pisma odręcznego dla konkretnego zestawu danych lub przypadku, potrzebowałbyś własnego modelu OCR (Optical Character Recognition), który byłby dostosowany do twoich potrzeb. Tworzenie własnego modelu OCR to zaawansowany proces, który wymaga zbierania i przygotowania odpowiednich danych treningowych, trenowania modelu oraz jego dostosowywania do konkretnej aplikacji.

Należałoby zwrócić się do specjalistów z dziedziny uczenia maszynowego lub deep learning, którzy byliby w stanie pomóc w opracowaniu i wdrożeniu własnego modelu OCR. Jednak jest to znacznie bardziej zaawansowany projekt niż korzystanie z gotowego narzędzia takiego jak Google Cloud Vision.
Dziękuję za wyjaśnienie.

Czy mógłbym Cię poprosić o przetworzenie w wolnej chwili również wcześniej opublikowanych sygnatur CAAK?

https://sdm.upjp2.edu.pl/obiekty-archiwalne

Zwłaszcza AEP :)

Pozdrawiam
Marek
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Myślę że AEP dodam w wolnej chwili.
Lakiluk

Sympatyk
Posty: 1198
Rejestracja: ndz 11 lip 2021, 21:31

Post autor: Lakiluk »

Czy CAAK nakłada jakieś blokady? Twój kod wyrzuca mi 403 przy próbie ściągania plików. Sporadycznie coś pobierze.
Łukasz
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Lakiluk pisze:Czy CAAK nakłada jakieś blokady? Twój kod wyrzuca mi 403 przy próbie ściągania plików. Sporadycznie coś pobierze.
Sprawdziłem przed chwilą, i u mnie działa.

Testowałem dla AEP71, taki URL wpisałem do sturtury url_tab, i nazę folderu pod jakim to ma zapisać lokalnie:

url_tab = [["https://sdm.upjp2.edu.pl/obiekty-archiw ... -adnotatus", "AEP71"]]


python3 AKMCralwer.py:
Folder 'AEP71' został utworzony.
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/1.jpg (czas: 0.96 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/3.jpg (czas: 0.98 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/4.jpg (czas: 0.98 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/2.jpg (czas: 0.99 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/5.jpg (czas: 0.71 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/6.jpg (czas: 0.92 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/8.jpg (czas: 0.93 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/7.jpg (czas: 0.95 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/9.jpg (czas: 0.30 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/10.jpg (czas: 0.85 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/11.jpg (czas: 0.88 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/12.jpg (czas: 0.86 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/13.jpg (czas: 0.83 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/14.jpg (czas: 0.24 sekundy)

Zasówa aż miło :)

Pokaż co wrzuciłeś do struktury url_tab, bo może coś dałeś za dużo do adresu URL
Lakiluk

Sympatyk
Posty: 1198
Rejestracja: ndz 11 lip 2021, 21:31

Post autor: Lakiluk »

Raz pobierze:
https://caak.upjp2.edu.pl/j/63ab6c32a12 ... 71e4/s/0/f

Kod: Zaznacz cały

Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bed559f023cb9efdf04_2709b9e669962ea8e7a
d4f32a05e6e15918245f8jpg/ do caak/21.jpg (czas: 21.38 sekundy)


A raz nie:
https://caak.upjp2.edu.pl/j/5e5c4f6d29f ... 1b82/s/0/f

Kod: Zaznacz cały

Nie udało się pobrać zawartości z https://caak.upjp2.edu.pl/iiif/3/5f7d928b924c0d4dfd2deedd_6a5478ebeab68d25cf4b2cb56fdd3e0bf0d951c1jpg/. Kod odpowiedzi: 403
Łukasz
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Zmieniasz w kodzie:

Kod: Zaznacz cały

url_tab = [["https://caak.upjp2.edu.pl/j/63ab6c32a126762a2e5671e4/s/0/f", "TEST1"]]
Odpalasz:

Kod: Zaznacz cały


Folder 'TEST1' został utworzony.
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac658bd6405b2a3caf5fac_6e0fade5fc16de2bdcf72df05e92e8df690f56f6jpg/ do TEST1/2.jpg (czas: 1.12 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac65fb036ab32a29271067_868d6242fb56873095ba7f0e2561e3d440261145jpg/ do TEST1/1.jpg (czas: 1.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac680c27ac6629e2420c8f_d34b4723e565e2787cfa53079d00bc8bb43b644fjpg/ do TEST1/4.jpg (czas: 1.31 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a6e5acadb2a0a598ade_4442976404969072cd50bd5323f4cc5b93167212jpg/ do TEST1/6.jpg (czas: 0.22 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a6cd6405b2a3caf7587_f4ed266084742565d125584e163f09a195383cd8jpg/ do TEST1/7.jpg (czas: 0.14 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6aa4b2fd5a2a12784825_c4daf292e79554c6ae01eb71ef96f79d1042fa77jpg/ do TEST1/8.jpg (czas: 0.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac68174bc38229db712a43_9b13ce4a293f1a228482ad16506da856cdc72a7ejpg/ do TEST1/3.jpg (czas: 1.57 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a173e18492a37bfa32d_163965ebed0cd735f6e3a15a1194a35988ce4393jpg/ do TEST1/5.jpg (czas: 0.59 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b0af095224cb0d3ea6e_aa420964553deab6e0d8e4529fdc41781922db94jpg/ do TEST1/12.jpg (czas: 0.13 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6ae17f0b8b334dd9a822_dabf0a590be9bf79bde618aca3e5df2154411877jpg/ do TEST1/9.jpg (czas: 5.11 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b13dc4b1c7b3efeae60_8a142fcc9f06e4694c4954a6573892629520d3bcjpg/ do TEST1/13.jpg (czas: 4.86 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6ae2d6405b2a3caf79fe_1ddc85f32fb8c7b556c5da98407590d5061e8729jpg/ do TEST1/10.jpg (czas: 5.22 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b9c5dfa9e6c3ab0d7ce_ad29ed5501bb47dbdd9dea2e8b9dca89c16d3c3djpg/ do TEST1/16.jpg (czas: 0.21 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6adc036ab32a29272699_3d51d496cfafd3b90974f31a94f742c8efff0a09jpg/ do TEST1/11.jpg (czas: 5.55 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b873e18492a37bfacfe_70322df018fbdc8b4dfc7876711bef45dea37dddjpg/ do TEST1/14.jpg (czas: 5.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b4af095224cb0d3ed22_12a4164573f2762dfb271162acb5a397597db63cjpg/ do TEST1/15.jpg (czas: 5.40 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bbd0c00df48a8ca877d_98e709f7a2d12496a8baaa0e2e8fb5b47b31fdf9jpg/ do TEST1/17.jpg (czas: 5.19 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bc18f309129ec40f2d3_2e6f2e8e66d62a4745e25efb3b5b996549d8ae8ajpg/ do TEST1/18.jpg (czas: 5.20 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bf2cd1c7f29dddfd671_ca2a3ad190635b72f7279d2f4427a3439a2346ddjpg/ do TEST1/22.jpg (czas: 0.14 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bed559f023cb9efdf04_2709b9e669962ea8e7ad4f32a05e6e15918245f8jpg/ do TEST1/21.jpg (czas: 0.48 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bc9d968da2a481ee451_351137fc30fe776298f6cc5877092480d07d77b8jpg/ do TEST1/19.jpg (czas: 4.63 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bee3e18492a37bfb043_9d097787b8f505111ceda42a23575a498851ab6fjpg/ do TEST1/20.jpg (czas: 4.83 sekundy)
Wszystkie pliki zostały pobrane.

Najlepiej skopjuj mi i wklej tutaj url_tab
Lakiluk

Sympatyk
Posty: 1198
Rejestracja: ndz 11 lip 2021, 21:31

Post autor: Lakiluk »

Teraz szybko pobrało.

Ale wygląda, że nie wszystko można pobierać.

Kod: Zaznacz cały

url_tab = [["https://caak.upjp2.edu.pl/j/5e5c4f6d29fd527f36331b82/s/0/f", "TEST1"]] 

Kod: Zaznacz cały

Folder 'TEST1' już istnieje.
Nie udało się pobrać zawartości z https://caak.upjp2.edu.pl/iiif/3/5f7d928672ca0c49570379d9_4bb0dfda0bc1d064eef1865c57ebf357d61133cdjpg/. Kod odpowiedzi: 403
[...]
Łukasz
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Ok, już widzę o co chodzi.

W przypadku tej konkretnej jednostki nie można pobrać zdjęć w tak wysokiej rozdzielczości jak ustawiłem w skrypcie.

Zmień w linijce 11 z "2000" na przykład na "1000":

Kod: Zaznacz cały

        response = requests.get(url + "full/1000,/0/default.jpg", timeout=timeout)
i pójdzie jak trzeba.
Lakiluk

Sympatyk
Posty: 1198
Rejestracja: ndz 11 lip 2021, 21:31

Post autor: Lakiluk »

Dzięki, teraz śmiga fajnie.
Łukasz
turbokid

Sympatyk
Posty: 145
Rejestracja: sob 15 lut 2020, 21:52

Post autor: turbokid »

A ile kosztuje ta usługa Google Cloud (bo nie wierzę, że jest za darmo)?
Ja kiedyś próbowałem tym modelem odczyywać metryki (ściągnąć na dysk i przetwarzać w pętli), ale słabo to wychodziło:

https://github.com/anusikh/OCR_Resnet/tree/main



Pozdrawiam,
Łukasz
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Za darmo nie jest. Ale jak się zarejestrujesz, to masz dostęp "demo" 2 miesiące i budżet 1300 pln do testowania.
MrTomiQ

Nieaktywny
Posty: 237
Rejestracja: czw 23 cze 2022, 02:55

Post autor: MrTomiQ »

Dzień Dobry
Próbowałem pobrać: Aoff166 strona 624, ale wyskakuje mi błąd 500, jak klikam na skan.

Proszę o pomoc.

Pozdrawiam
Tomasz
Kamil_Reszczyk

Sympatyk
Posty: 33
Rejestracja: sob 29 kwie 2023, 20:02

Post autor: Kamil_Reszczyk »

Szukałem: "testamenti supra" znalazło Aoff166, strona: 624. Link wygenerowany do skanu jest taki:

https://caak.upjp2.edu.pl/en/j/5ff851ad ... d8/s/623/f

I otwiera się prawidłowo.

Może masz starszą wersję zapamiętaną gdzieś w pamięci cache strony i może to przez wersję starszą bazy tych linków gdzie cześć rzeczywiście miałem uszkodzoną :)

Jak możesz skopiuj mi adres URL jaki tam dostajesz pod tym przyciskiem "SKAN". Jakby to się jeszcze gdzieś pojawiało to można też bezpośrednio wchodzić na stronę CAAK i tam manualnie szukać odpowiedniej księgi i numeru strony.

Wydawało mi się że już wyłapałem wszystkie te uszkodzone linki.
ODPOWIEDZ

Wróć do „Zasoby internetowe”