Ancient Coin Discussions In Other Languages > Forum numizmatyki antycznej po polsku
Książki, skany, OCR
Lech Stępniewski:
--- Quote from: DzikiZdeb on July 13, 2022, 01:28:34 am ---Bardzo ładnie sobie poradził.
--- End quote ---
Gdyby Pan zauważył gdzieś jakieś usterki, proszę mi dać znać. Ja właśnie zauważylem w jednym skanie, że na paru stronach przebija druk spod spodu (w oryginale papier był za cienki? farby dali za grubo?), ale z takimi usterkami w samym skanie niestety nic nie zrobię.
DzikiZdeb:
--- Quote from: Lech Stępniewski on July 15, 2022, 09:15:37 am ---
Gdyby Pan zauważył gdzieś jakieś usterki, proszę mi dać znać. Ja właśnie zauważylem w jednym skanie, że na paru stronach przebija druk spod spodu (w oryginale papier był za cienki? farby dali za grubo?), ale z takimi usterkami w samym skanie niestety nic nie zrobię.
--- End quote ---
W sumie to główną (i kompletnie trywialną) zasadą jest "im czystszy tekst, tym lepszy OCR". Jakby skanować egzemplarze świeżo wydrukowane i pozbawione wad drukarskich, większość problemów by nie wystąpiła. A tak to z niektórymi zjawiskami naprawdę ciężko walczyć.
1. Teksty pokreślone długopisem/ołówkiem - trudno od automatu wymagać, żeby odróżnił, co jest czcionką, a co bazgraniną. Przeważnie dzieją się w tym wypadku przy rozpoznawaniu różne cuda i nie za bardzo mam pomysł, jak ich uniknąć;
2. Teksty, na których czcionki mają ubytki (nie wiem z czego dokładnie to wynika, mam podejrzenie, że skany są mało kontrastowe z powodu pożółknięcia papieru) - tutaj nie wiem czemu często się zdarza, że OCR dokłada spore ilości nadmiarowych spacji. Nie wiem, czy nie byłoby w tym wypadku lepiej, jak książka pozostałaby kolorowa/w odcieniach szarości zmiast kontrastowego czarno-białego - mam wrażenie że ubytki w czczionkach byłyby w takim wypadku mniejsze;
Drobniejsze:
3. Paprochy - lepiej sobie radzi z kreskami, gorzej z plamami. Jak plama pokryje całą literę, to się nie domyśli, co pod nią było. Trudno mu się dziwić.
4. Braki w druku wyglądające np. jakby dostał się do maszyny skrawek papieru - tutaj nie za bardzo mam pomysł, jakby to automatycznie uzupełnić.
5. Podwójny druk - tego się nie przeskoczy
6. Przebitka ze spodu - wydaje mi się, że nie było tu czegoś takiego - może zostawienie w odcieniach szarości dałoby lepszy efekt?
Techniczne (w sumie nie wiem, jak powinno być):
7. Co ma robić z tekstem rozstrzelonym - zbijać czy zostawiać ze spacjami pomiędzy literami? Czasem jest tak, czasem tak, czasem hybrydowo.
8. Myślniki przerzucające słowo do nowej linii (jakkolwiek to się mądrze nazywa) - często pomija, czasem zbija przerzucone słowo w jedno, czasem nie.
9. Znaki z innych alfabetów, np. różne tam znaczki nad japońskimi imionami/nazwiskami - z tego co widzę ucina te ogonki, może i lepiej jakby próbował je odtworzyć, bo możliwości jest multum i pilnowanie żeby utrafił w odpowiedni ogonek może zająć dużo czasu
Przykłady:
Hammond - Dzieje Grecji
s. 104 - zamiast pracują - prąci*ją
s. 257 - zamiast Naksos - Nakśfcs (ale tu kleks przykrywał prawie półtorej litery)
s. 266 - zamiast "Cyklady, a" - "Cyklady,. _a"
s. 270 - zamiast "zdradzie w Atenach" i "Okręty" - "zdradzie ^ w Atenach" i "__Pkręty"
s. 277 - zamiast "czasie Arystydes" - "czasiej^Arystyde^"
s. 286 - zamiast "Miała to być straż" - "Miałą_tp_,.być_straż"
s. 371 - zamiast Perykles - Pe- ^ykles
s. 383 - zamiast "wypłynąwszy w lecie r. 435" - "wyęłyn^ysz^y^^^lecie r. j!35" (nie dziwię się, że tu kompletnie zgłupiało, dzielny student/ka podkreślił/a ten fragment wężykiem)
s. 420 - zamiast śmierć - śmiejć
s. 679 - zamiast Arystofanesa - Arystof anesa. (w sumie trudno powiedzieć, co ma zrobić automat przy imionach wydrukowanych rozstrzelonym drukiem, pozostałe, które sprawdzałem albo zbił w jeden tekst albo wstawił między literami spacje)
Frederic - Życie codzienne w Japonii u progu nowoczesności
s. 27 - Kido Koin (właściwie Kido Takayoshi albo Takamasa, 1834— 1877), potencjalny wódz klanu Choshu (brak różnych dodatkowych ogonków nad o czy u)
Baranowski - Życie codzienne małego miasteczka w XVII i XVIII w.
s. 1. "Instytut W yd a w n iczy W arszaw a" - nie radzi sobie z większą czcionką?
s. 6. "Na skutek powyższych, a także w ielu jeszcze innych p rzyczyn, sieć m iejska w niektórych regionach, szczególnie zaś w W ielk op olsce, w północnej Małopolsce, a także na terenie łęczycko-sieradzko-w ieluńskim była bardzo gęsta. L eżą ce natomiast zb yt blisko siebie miasta bardzo często w zajem n ie podcinały swój handel i rzemiosło, u niem ożliw iały rozw ój." - albo raczej ze zbyt bladym skanem, któremu nieco zaszkodziło przycięcie skali szarości do obrazu czarno-białego.
s. 89 - "W w yposażeniu w n ętrza domu mieszczańskiego bardzo dużą rolę odgr y w ał piec-fe ~ p ie c zlfn a 'chleba oraz kuchnia do gotowania." - blady skan powodujący dostawianie spacji + podkreślenia w tekście
Bardecka-Turnau - Życie codzienne w Warszawie okresu oświecenia
s. 15 - "Zam ek w arszawski od innych budow li tego typu w Polsce i innych krajach Europy. N atom iast w nętrze urządzone" - blady skan? Wstawia spacje
ilustacja po s. 24 - "a Cnanulaiu ^Aatyp- i/flalachoiujki SlęforenJarz W a l ke Koronny c/łymowy y honfeJeraaji ŚPioiumayi horonnyc/i c/fat jzalek Orbernu Orla S b laicjo" - dobrał się do zdjęcia rękopisu z epoki i nie dziwię się, że sobie nie poradził
Bluche - Życie codzienne we Francji w czasach Ludwika XIV
s. 20 - "Po śm ierci M azariniego L udw ik XIV postanow ił, ja k wiadomo, obchodzić się bez pierwszego m in istra i rządzić sam em u."
s. 263 - ‘k tó ry ch (poza zbędymi spacjami typowy paproch)
Świderkówna - Życie codzienne w Egipcie greckich papirusów
s. 315 - "Apollonus, której „b ra t” pozostawił w s z y s f-h kłopoty domowe, a sam służy w wojsku, pisze do niego w I v.\." - wygląda jakby podczas druku dostał się jakiś paproch, przez co tekst ma ubytek o nietypowym kształcie
Bukowska - Życie codzienne polskich klasztorów żeńskich w XVII-XVIII wieku
s. 71 - "ksienię obierać m ają" - o tyle nietypowo, że przeważnie dodatkowe spacje widać od pierwszej strony w dużych ilościach, w tej książce występują sporadycznie
Czapliński Długosz - Życie codzienne magnaterii polskiej w XVII w. - widać, że skan był dużo lepszej jakości od pozostałych książek z tego samego okresu/papieru, co przekłada się na praktyczny brak błędów
Kusiak - Życie codzienne oficerów Drugiej Rzeczypospolitej - przykład książki, której chyba wyszło na dobre zostawienie w pełnym kolorze zamiast redukcji do tekstu biało-czarnego bez odcieni szarości
Jelicz - "Życie codzienne w średniowiecznym Krakowie"
s. 7 - „Zje™ codzienne w średniowiecznym Krakowie” - potknął się na bardziej fikuśnym italiku, chociaż dalej jest bardziej płynnie, może z wyjątkiem dodatkowych spacji
Kiersnowscy - Życie codzienne na Pomorzu wczesnośredniowiecznym
s. 53 - "Na Pom orzu św iątynie nazyw ano kącinam i albo kątinam i. Nazwą tą
określano, ja k się zdaje, zarówno właściwe św iątynie, w których znajdow
ały się posągi bóstw, jak też i budynki służące zgromadzeniom i obradom
starszyzny i kapłanów . W Szczecinie w dobie m isji O ttona znajdow ały
się dwie, a ja k tw ierdzi inny z żywotopisarzy, naw et cztery takie kąciny.
Główna z nich wznosiła się na wzgórzu zw anym „górą Trzygław a” , jak
się zdaje, w przybliżeniu n a m iejscu obecnego Zam ku. O wyglądzie i rozm
iarach tej budow li tyle tylko wiadomo, że była wzniesiona „z przedziw ną" - zostawiłem łamanie wierszy, w tym tekście poza nadmiarowymi spacjami w kilku sprawdzonych fragmentach zjadło wszystkie myślniki przerzucające część słowa do następnego wiersza
s. 58 i dalej - podejrzewam, że to nie jest tekst przebijający spod spodu, ale podwójny druk. Z jakiegoś powodu cały arkusz został zadrukowany ponownie tekstem lustrzanym
Lech Stępniewski:
Widzę, że bardzo drobiazgowo potraktował Pan moją prośbę.
Fine Reader oczywiście umożliwia ręczne wprowadzanie poprawek do OCR-u, ale ja reaguję tylko wtedy (a i to rzadko), gdy zaznacza stronę na czerwono - że nazbyt dużo jest na niej niebieskich znaczków, które z kolei sygnalizują, że miał problem z odczytaniem jakiegoś słowa lub litery. Gdybym przeglądał te niebieskie, to pewnie dotąd posłałbym Panu najwyżej jedną książkę, a może byłbym jeszcze w trakcie jej korekty.
Jest tam też funkcja ręcznego "gumkowania" skanu, ale to ma sens, gdy np. różne kreski czy podkreślenia nie zawadzają o tekst. Czasem coś prostego wygumkowuję, ale znowu - usuwanie na powiększeniu nawet kilku stosunkowo czystych podkreśleń to bardzo mozolne zajęcie. Zresztą to co najważniejsze i tak dokonuje się na etapie skanowania, a ja tylko obrabiam cudze skany znalezione w necie, które bywają bardzo różne (podobnie jak różne bywają - jeśli idzie o stan i rodzaj druku - same książki). Jeśli więc na wejściu jest kiepsko, to pozostaje tylko pracochłonna kosmetyka.
W sumie wychodzę z założenia, że skoro nie zapisuję samego OCR-u (np. w formie pliku worda czy czegoś podobnego), ale OCR + skany w PDF, to jeśli będzie mi potrzebny jakiś cytat, zawsze mogę go skontrolować na skanie i wtedy poprawić. Prawda, wyszukiwanie nie będzie doskonałe, ale nawet w najgorszym wypadku wciąż lepsze niż kartkowanie papieru. Poza tym, gdy się już wie, jakie są najczęstsze błędy, można wyszukiwanie odpowiednio modyfikować. Tak więc cieszę się tym, co jest.
Navigation
[0] Message Index
[*] Previous page
Go to full version