Automatyczne rozpoznawanie tekstu w zasobach AKM

Kamil_Reszczyk · Post autor: **Kamil_Reszczyk** » pn 06 lis 2023, 12:42

marekzaborski pisze:[quote="Kamil_Reszczyk"

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek

Jeśli chodzi o poprawianie wyników rozpoznawania, niestety narzędzie Google Cloud Vision API samo w sobie nie jest w stanie się uczyć w sensie tradycyjnego uczenia maszynowego.

Aby poprawić jakość rozpoznawania pisma odręcznego dla konkretnego zestawu danych lub przypadku, potrzebowałbyś własnego modelu OCR (Optical Character Recognition), który byłby dostosowany do twoich potrzeb. Tworzenie własnego modelu OCR to zaawansowany proces, który wymaga zbierania i przygotowania odpowiednich danych treningowych, trenowania modelu oraz jego dostosowywania do konkretnej aplikacji.

Należałoby zwrócić się do specjalistów z dziedziny uczenia maszynowego lub deep learning, którzy byliby w stanie pomóc w opracowaniu i wdrożeniu własnego modelu OCR. Jednak jest to znacznie bardziej zaawansowany projekt niż korzystanie z gotowego narzędzia takiego jak Google Cloud Vision.

marekzaborski · Post autor: **marekzaborski** » pn 06 lis 2023, 14:44

Kamil_Reszczyk pisze:
marekzaborski pisze:[quote="Kamil_Reszczyk"

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek
Jeśli chodzi o poprawianie wyników rozpoznawania, niestety narzędzie Google Cloud Vision API samo w sobie nie jest w stanie się uczyć w sensie tradycyjnego uczenia maszynowego.

Aby poprawić jakość rozpoznawania pisma odręcznego dla konkretnego zestawu danych lub przypadku, potrzebowałbyś własnego modelu OCR (Optical Character Recognition), który byłby dostosowany do twoich potrzeb. Tworzenie własnego modelu OCR to zaawansowany proces, który wymaga zbierania i przygotowania odpowiednich danych treningowych, trenowania modelu oraz jego dostosowywania do konkretnej aplikacji.

Należałoby zwrócić się do specjalistów z dziedziny uczenia maszynowego lub deep learning, którzy byliby w stanie pomóc w opracowaniu i wdrożeniu własnego modelu OCR. Jednak jest to znacznie bardziej zaawansowany projekt niż korzystanie z gotowego narzędzia takiego jak Google Cloud Vision.

Dziękuję za wyjaśnienie.

Czy mógłbym Cię poprosić o przetworzenie w wolnej chwili również wcześniej opublikowanych sygnatur CAAK?

https://sdm.upjp2.edu.pl/obiekty-archiwalne

Zwłaszcza AEP

Pozdrawiam
Marek

Kamil_Reszczyk · Post autor: **Kamil_Reszczyk** » pn 06 lis 2023, 15:36

Myślę że AEP dodam w wolnej chwili.

Lakiluk · Post autor: **Lakiluk** » pn 06 lis 2023, 18:17

Czy CAAK nakłada jakieś blokady? Twój kod wyrzuca mi 403 przy próbie ściągania plików. Sporadycznie coś pobierze.

Kamil_Reszczyk · Post autor: **Kamil_Reszczyk** » pn 06 lis 2023, 18:33

Lakiluk pisze:Czy CAAK nakłada jakieś blokady? Twój kod wyrzuca mi 403 przy próbie ściągania plików. Sporadycznie coś pobierze.

Sprawdziłem przed chwilą, i u mnie działa.

Testowałem dla AEP71, taki URL wpisałem do sturtury url_tab, i nazę folderu pod jakim to ma zapisać lokalnie:

url_tab = [["https://sdm.upjp2.edu.pl/obiekty-archiw ... -adnotatus", "AEP71"]]

python3 AKMCralwer.py:
Folder 'AEP71' został utworzony.
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/1.jpg (czas: 0.96 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/3.jpg (czas: 0.98 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/4.jpg (czas: 0.98 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/2.jpg (czas: 0.99 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/5.jpg (czas: 0.71 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/6.jpg (czas: 0.92 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/8.jpg (czas: 0.93 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/7.jpg (czas: 0.95 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/9.jpg (czas: 0.30 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/10.jpg (czas: 0.85 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/11.jpg (czas: 0.88 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/12.jpg (czas: 0.86 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/13.jpg (czas: 0.83 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/14.jpg (czas: 0.24 sekundy)

Zasówa aż miło

Pokaż co wrzuciłeś do struktury url_tab, bo może coś dałeś za dużo do adresu URL

Lakiluk · Post autor: **Lakiluk** » pn 06 lis 2023, 18:41

Raz pobierze:
https://caak.upjp2.edu.pl/j/63ab6c32a12 ... 71e4/s/0/f

Kod: Zaznacz cały

Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bed559f023cb9efdf04_2709b9e669962ea8e7a

d4f32a05e6e15918245f8jpg/ do caak/21.jpg (czas: 21.38 sekundy)

A raz nie:
https://caak.upjp2.edu.pl/j/5e5c4f6d29f ... 1b82/s/0/f

Kod: Zaznacz cały

Nie udało się pobrać zawartości z https://caak.upjp2.edu.pl/iiif/3/5f7d928b924c0d4dfd2deedd_6a5478ebeab68d25cf4b2cb56fdd3e0bf0d951c1jpg/. Kod odpowiedzi: 403

Kamil_Reszczyk · Post autor: **Kamil_Reszczyk** » pn 06 lis 2023, 18:52

Zmieniasz w kodzie:

Kod: Zaznacz cały

url_tab = [["https://caak.upjp2.edu.pl/j/63ab6c32a126762a2e5671e4/s/0/f", "TEST1"]]

Odpalasz:

Kod: Zaznacz cały


Folder 'TEST1' został utworzony.
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac658bd6405b2a3caf5fac_6e0fade5fc16de2bdcf72df05e92e8df690f56f6jpg/ do TEST1/2.jpg (czas: 1.12 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac65fb036ab32a29271067_868d6242fb56873095ba7f0e2561e3d440261145jpg/ do TEST1/1.jpg (czas: 1.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac680c27ac6629e2420c8f_d34b4723e565e2787cfa53079d00bc8bb43b644fjpg/ do TEST1/4.jpg (czas: 1.31 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a6e5acadb2a0a598ade_4442976404969072cd50bd5323f4cc5b93167212jpg/ do TEST1/6.jpg (czas: 0.22 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a6cd6405b2a3caf7587_f4ed266084742565d125584e163f09a195383cd8jpg/ do TEST1/7.jpg (czas: 0.14 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6aa4b2fd5a2a12784825_c4daf292e79554c6ae01eb71ef96f79d1042fa77jpg/ do TEST1/8.jpg (czas: 0.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac68174bc38229db712a43_9b13ce4a293f1a228482ad16506da856cdc72a7ejpg/ do TEST1/3.jpg (czas: 1.57 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a173e18492a37bfa32d_163965ebed0cd735f6e3a15a1194a35988ce4393jpg/ do TEST1/5.jpg (czas: 0.59 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b0af095224cb0d3ea6e_aa420964553deab6e0d8e4529fdc41781922db94jpg/ do TEST1/12.jpg (czas: 0.13 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6ae17f0b8b334dd9a822_dabf0a590be9bf79bde618aca3e5df2154411877jpg/ do TEST1/9.jpg (czas: 5.11 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b13dc4b1c7b3efeae60_8a142fcc9f06e4694c4954a6573892629520d3bcjpg/ do TEST1/13.jpg (czas: 4.86 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6ae2d6405b2a3caf79fe_1ddc85f32fb8c7b556c5da98407590d5061e8729jpg/ do TEST1/10.jpg (czas: 5.22 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b9c5dfa9e6c3ab0d7ce_ad29ed5501bb47dbdd9dea2e8b9dca89c16d3c3djpg/ do TEST1/16.jpg (czas: 0.21 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6adc036ab32a29272699_3d51d496cfafd3b90974f31a94f742c8efff0a09jpg/ do TEST1/11.jpg (czas: 5.55 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b873e18492a37bfacfe_70322df018fbdc8b4dfc7876711bef45dea37dddjpg/ do TEST1/14.jpg (czas: 5.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b4af095224cb0d3ed22_12a4164573f2762dfb271162acb5a397597db63cjpg/ do TEST1/15.jpg (czas: 5.40 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bbd0c00df48a8ca877d_98e709f7a2d12496a8baaa0e2e8fb5b47b31fdf9jpg/ do TEST1/17.jpg (czas: 5.19 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bc18f309129ec40f2d3_2e6f2e8e66d62a4745e25efb3b5b996549d8ae8ajpg/ do TEST1/18.jpg (czas: 5.20 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bf2cd1c7f29dddfd671_ca2a3ad190635b72f7279d2f4427a3439a2346ddjpg/ do TEST1/22.jpg (czas: 0.14 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bed559f023cb9efdf04_2709b9e669962ea8e7ad4f32a05e6e15918245f8jpg/ do TEST1/21.jpg (czas: 0.48 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bc9d968da2a481ee451_351137fc30fe776298f6cc5877092480d07d77b8jpg/ do TEST1/19.jpg (czas: 4.63 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bee3e18492a37bfb043_9d097787b8f505111ceda42a23575a498851ab6fjpg/ do TEST1/20.jpg (czas: 4.83 sekundy)
Wszystkie pliki zostały pobrane.

Najlepiej skopjuj mi i wklej tutaj url_tab

Lakiluk · Post autor: **Lakiluk** » pn 06 lis 2023, 19:08

Teraz szybko pobrało.

Ale wygląda, że nie wszystko można pobierać.

Kod: Zaznacz cały

url_tab = [["https://caak.upjp2.edu.pl/j/5e5c4f6d29fd527f36331b82/s/0/f", "TEST1"]]

Kod: Zaznacz cały

Folder 'TEST1' już istnieje.
Nie udało się pobrać zawartości z https://caak.upjp2.edu.pl/iiif/3/5f7d928672ca0c49570379d9_4bb0dfda0bc1d064eef1865c57ebf357d61133cdjpg/. Kod odpowiedzi: 403
[...]

Kamil_Reszczyk · Post autor: **Kamil_Reszczyk** » pn 06 lis 2023, 19:24

Ok, już widzę o co chodzi.

W przypadku tej konkretnej jednostki nie można pobrać zdjęć w tak wysokiej rozdzielczości jak ustawiłem w skrypcie.

Zmień w linijce 11 z "2000" na przykład na "1000":

Kod: Zaznacz cały

        response = requests.get(url + "full/1000,/0/default.jpg", timeout=timeout)

i pójdzie jak trzeba.

Lakiluk · Post autor: **Lakiluk** » pn 06 lis 2023, 19:33

Dzięki, teraz śmiga fajnie.

turbokid · Post autor: **turbokid** » ndz 26 lis 2023, 19:31

A ile kosztuje ta usługa Google Cloud (bo nie wierzę, że jest za darmo)?
Ja kiedyś próbowałem tym modelem odczyywać metryki (ściągnąć na dysk i przetwarzać w pętli), ale słabo to wychodziło:

https://github.com/anusikh/OCR_Resnet/tree/main

Pozdrawiam,
Łukasz

Kamil_Reszczyk · Post autor: **Kamil_Reszczyk** » pt 15 gru 2023, 18:51

Za darmo nie jest. Ale jak się zarejestrujesz, to masz dostęp "demo" 2 miesiące i budżet 1300 pln do testowania.

MrTomiQ · Post autor: **MrTomiQ** » śr 10 sty 2024, 15:18

Dzień Dobry
Próbowałem pobrać: Aoff166 strona 624, ale wyskakuje mi błąd 500, jak klikam na skan.

Proszę o pomoc.

Pozdrawiam
Tomasz

Kamil_Reszczyk · Post autor: **Kamil_Reszczyk** » pt 12 sty 2024, 20:55

Szukałem: "testamenti supra" znalazło Aoff166, strona: 624. Link wygenerowany do skanu jest taki:

https://caak.upjp2.edu.pl/en/j/5ff851ad ... d8/s/623/f

I otwiera się prawidłowo.

Może masz starszą wersję zapamiętaną gdzieś w pamięci cache strony i może to przez wersję starszą bazy tych linków gdzie cześć rzeczywiście miałem uszkodzoną

Jak możesz skopiuj mi adres URL jaki tam dostajesz pod tym przyciskiem "SKAN". Jakby to się jeszcze gdzieś pojawiało to można też bezpośrednio wchodzić na stronę CAAK i tam manualnie szukać odpowiedniej księgi i numeru strony.

Wydawało mi się że już wyłapałem wszystkie te uszkodzone linki.