Strona 2 z 2

: pn 06 lis 2023, 12:42
autor: Kamil_Reszczyk
marekzaborski pisze:[quote="Kamil_Reszczyk"

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek
Jeśli chodzi o poprawianie wyników rozpoznawania, niestety narzędzie Google Cloud Vision API samo w sobie nie jest w stanie się uczyć w sensie tradycyjnego uczenia maszynowego.

Aby poprawić jakość rozpoznawania pisma odręcznego dla konkretnego zestawu danych lub przypadku, potrzebowałbyś własnego modelu OCR (Optical Character Recognition), który byłby dostosowany do twoich potrzeb. Tworzenie własnego modelu OCR to zaawansowany proces, który wymaga zbierania i przygotowania odpowiednich danych treningowych, trenowania modelu oraz jego dostosowywania do konkretnej aplikacji.

Należałoby zwrócić się do specjalistów z dziedziny uczenia maszynowego lub deep learning, którzy byliby w stanie pomóc w opracowaniu i wdrożeniu własnego modelu OCR. Jednak jest to znacznie bardziej zaawansowany projekt niż korzystanie z gotowego narzędzia takiego jak Google Cloud Vision.

: pn 06 lis 2023, 14:44
autor: marekzaborski
Kamil_Reszczyk pisze:
marekzaborski pisze:[quote="Kamil_Reszczyk"

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek
Jeśli chodzi o poprawianie wyników rozpoznawania, niestety narzędzie Google Cloud Vision API samo w sobie nie jest w stanie się uczyć w sensie tradycyjnego uczenia maszynowego.

Aby poprawić jakość rozpoznawania pisma odręcznego dla konkretnego zestawu danych lub przypadku, potrzebowałbyś własnego modelu OCR (Optical Character Recognition), który byłby dostosowany do twoich potrzeb. Tworzenie własnego modelu OCR to zaawansowany proces, który wymaga zbierania i przygotowania odpowiednich danych treningowych, trenowania modelu oraz jego dostosowywania do konkretnej aplikacji.

Należałoby zwrócić się do specjalistów z dziedziny uczenia maszynowego lub deep learning, którzy byliby w stanie pomóc w opracowaniu i wdrożeniu własnego modelu OCR. Jednak jest to znacznie bardziej zaawansowany projekt niż korzystanie z gotowego narzędzia takiego jak Google Cloud Vision.
Dziękuję za wyjaśnienie.

Czy mógłbym Cię poprosić o przetworzenie w wolnej chwili również wcześniej opublikowanych sygnatur CAAK?

https://sdm.upjp2.edu.pl/obiekty-archiwalne

Zwłaszcza AEP :)

Pozdrawiam
Marek

: pn 06 lis 2023, 15:36
autor: Kamil_Reszczyk
Myślę że AEP dodam w wolnej chwili.

: pn 06 lis 2023, 18:17
autor: Lakiluk
Czy CAAK nakłada jakieś blokady? Twój kod wyrzuca mi 403 przy próbie ściągania plików. Sporadycznie coś pobierze.

: pn 06 lis 2023, 18:33
autor: Kamil_Reszczyk
Lakiluk pisze:Czy CAAK nakłada jakieś blokady? Twój kod wyrzuca mi 403 przy próbie ściągania plików. Sporadycznie coś pobierze.
Sprawdziłem przed chwilą, i u mnie działa.

Testowałem dla AEP71, taki URL wpisałem do sturtury url_tab, i nazę folderu pod jakim to ma zapisać lokalnie:

url_tab = [["https://sdm.upjp2.edu.pl/obiekty-archiw ... -adnotatus", "AEP71"]]


python3 AKMCralwer.py:
Folder 'AEP71' został utworzony.
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/1.jpg (czas: 0.96 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/3.jpg (czas: 0.98 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/4.jpg (czas: 0.98 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/2.jpg (czas: 0.99 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/5.jpg (czas: 0.71 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/6.jpg (czas: 0.92 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/8.jpg (czas: 0.93 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/7.jpg (czas: 0.95 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/9.jpg (czas: 0.30 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/10.jpg (czas: 0.85 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/11.jpg (czas: 0.88 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/12.jpg (czas: 0.86 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/13.jpg (czas: 0.83 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/14.jpg (czas: 0.24 sekundy)

Zasówa aż miło :)

Pokaż co wrzuciłeś do struktury url_tab, bo może coś dałeś za dużo do adresu URL

: pn 06 lis 2023, 18:41
autor: Lakiluk
Raz pobierze:
https://caak.upjp2.edu.pl/j/63ab6c32a12 ... 71e4/s/0/f

Kod: Zaznacz cały

Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bed559f023cb9efdf04_2709b9e669962ea8e7a
d4f32a05e6e15918245f8jpg/ do caak/21.jpg (czas: 21.38 sekundy)


A raz nie:
https://caak.upjp2.edu.pl/j/5e5c4f6d29f ... 1b82/s/0/f

Kod: Zaznacz cały

Nie udało się pobrać zawartości z https://caak.upjp2.edu.pl/iiif/3/5f7d928b924c0d4dfd2deedd_6a5478ebeab68d25cf4b2cb56fdd3e0bf0d951c1jpg/. Kod odpowiedzi: 403

: pn 06 lis 2023, 18:52
autor: Kamil_Reszczyk
Zmieniasz w kodzie:

Kod: Zaznacz cały

url_tab = [["https://caak.upjp2.edu.pl/j/63ab6c32a126762a2e5671e4/s/0/f", "TEST1"]]
Odpalasz:

Kod: Zaznacz cały


Folder 'TEST1' został utworzony.
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac658bd6405b2a3caf5fac_6e0fade5fc16de2bdcf72df05e92e8df690f56f6jpg/ do TEST1/2.jpg (czas: 1.12 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac65fb036ab32a29271067_868d6242fb56873095ba7f0e2561e3d440261145jpg/ do TEST1/1.jpg (czas: 1.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac680c27ac6629e2420c8f_d34b4723e565e2787cfa53079d00bc8bb43b644fjpg/ do TEST1/4.jpg (czas: 1.31 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a6e5acadb2a0a598ade_4442976404969072cd50bd5323f4cc5b93167212jpg/ do TEST1/6.jpg (czas: 0.22 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a6cd6405b2a3caf7587_f4ed266084742565d125584e163f09a195383cd8jpg/ do TEST1/7.jpg (czas: 0.14 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6aa4b2fd5a2a12784825_c4daf292e79554c6ae01eb71ef96f79d1042fa77jpg/ do TEST1/8.jpg (czas: 0.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac68174bc38229db712a43_9b13ce4a293f1a228482ad16506da856cdc72a7ejpg/ do TEST1/3.jpg (czas: 1.57 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a173e18492a37bfa32d_163965ebed0cd735f6e3a15a1194a35988ce4393jpg/ do TEST1/5.jpg (czas: 0.59 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b0af095224cb0d3ea6e_aa420964553deab6e0d8e4529fdc41781922db94jpg/ do TEST1/12.jpg (czas: 0.13 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6ae17f0b8b334dd9a822_dabf0a590be9bf79bde618aca3e5df2154411877jpg/ do TEST1/9.jpg (czas: 5.11 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b13dc4b1c7b3efeae60_8a142fcc9f06e4694c4954a6573892629520d3bcjpg/ do TEST1/13.jpg (czas: 4.86 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6ae2d6405b2a3caf79fe_1ddc85f32fb8c7b556c5da98407590d5061e8729jpg/ do TEST1/10.jpg (czas: 5.22 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b9c5dfa9e6c3ab0d7ce_ad29ed5501bb47dbdd9dea2e8b9dca89c16d3c3djpg/ do TEST1/16.jpg (czas: 0.21 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6adc036ab32a29272699_3d51d496cfafd3b90974f31a94f742c8efff0a09jpg/ do TEST1/11.jpg (czas: 5.55 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b873e18492a37bfacfe_70322df018fbdc8b4dfc7876711bef45dea37dddjpg/ do TEST1/14.jpg (czas: 5.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b4af095224cb0d3ed22_12a4164573f2762dfb271162acb5a397597db63cjpg/ do TEST1/15.jpg (czas: 5.40 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bbd0c00df48a8ca877d_98e709f7a2d12496a8baaa0e2e8fb5b47b31fdf9jpg/ do TEST1/17.jpg (czas: 5.19 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bc18f309129ec40f2d3_2e6f2e8e66d62a4745e25efb3b5b996549d8ae8ajpg/ do TEST1/18.jpg (czas: 5.20 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bf2cd1c7f29dddfd671_ca2a3ad190635b72f7279d2f4427a3439a2346ddjpg/ do TEST1/22.jpg (czas: 0.14 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bed559f023cb9efdf04_2709b9e669962ea8e7ad4f32a05e6e15918245f8jpg/ do TEST1/21.jpg (czas: 0.48 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bc9d968da2a481ee451_351137fc30fe776298f6cc5877092480d07d77b8jpg/ do TEST1/19.jpg (czas: 4.63 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6bee3e18492a37bfb043_9d097787b8f505111ceda42a23575a498851ab6fjpg/ do TEST1/20.jpg (czas: 4.83 sekundy)
Wszystkie pliki zostały pobrane.

Najlepiej skopjuj mi i wklej tutaj url_tab

: pn 06 lis 2023, 19:08
autor: Lakiluk
Teraz szybko pobrało.

Ale wygląda, że nie wszystko można pobierać.

Kod: Zaznacz cały

url_tab = [["https://caak.upjp2.edu.pl/j/5e5c4f6d29fd527f36331b82/s/0/f", "TEST1"]] 

Kod: Zaznacz cały

Folder 'TEST1' już istnieje.
Nie udało się pobrać zawartości z https://caak.upjp2.edu.pl/iiif/3/5f7d928672ca0c49570379d9_4bb0dfda0bc1d064eef1865c57ebf357d61133cdjpg/. Kod odpowiedzi: 403
[...]

: pn 06 lis 2023, 19:24
autor: Kamil_Reszczyk
Ok, już widzę o co chodzi.

W przypadku tej konkretnej jednostki nie można pobrać zdjęć w tak wysokiej rozdzielczości jak ustawiłem w skrypcie.

Zmień w linijce 11 z "2000" na przykład na "1000":

Kod: Zaznacz cały

        response = requests.get(url + "full/1000,/0/default.jpg", timeout=timeout)
i pójdzie jak trzeba.

: pn 06 lis 2023, 19:33
autor: Lakiluk
Dzięki, teraz śmiga fajnie.

: ndz 26 lis 2023, 19:31
autor: turbokid
A ile kosztuje ta usługa Google Cloud (bo nie wierzę, że jest za darmo)?
Ja kiedyś próbowałem tym modelem odczyywać metryki (ściągnąć na dysk i przetwarzać w pętli), ale słabo to wychodziło:

https://github.com/anusikh/OCR_Resnet/tree/main



Pozdrawiam,
Łukasz

: pt 15 gru 2023, 18:51
autor: Kamil_Reszczyk
Za darmo nie jest. Ale jak się zarejestrujesz, to masz dostęp "demo" 2 miesiące i budżet 1300 pln do testowania.

: śr 10 sty 2024, 15:18
autor: MrTomiQ
Dzień Dobry
Próbowałem pobrać: Aoff166 strona 624, ale wyskakuje mi błąd 500, jak klikam na skan.

Proszę o pomoc.

Pozdrawiam
Tomasz

: pt 12 sty 2024, 20:55
autor: Kamil_Reszczyk
Szukałem: "testamenti supra" znalazło Aoff166, strona: 624. Link wygenerowany do skanu jest taki:

https://caak.upjp2.edu.pl/en/j/5ff851ad ... d8/s/623/f

I otwiera się prawidłowo.

Może masz starszą wersję zapamiętaną gdzieś w pamięci cache strony i może to przez wersję starszą bazy tych linków gdzie cześć rzeczywiście miałem uszkodzoną :)

Jak możesz skopiuj mi adres URL jaki tam dostajesz pod tym przyciskiem "SKAN". Jakby to się jeszcze gdzieś pojawiało to można też bezpośrednio wchodzić na stronę CAAK i tam manualnie szukać odpowiedniej księgi i numeru strony.

Wydawało mi się że już wyłapałem wszystkie te uszkodzone linki.