Classical Numismatics Discussion
  Welcome Guest. Please login or register. 10% Off Store-Wide Sale Until 2 April!!! Explore Our Website And Find Joy In The History, Numismatics, Art, Mythology, And Geography Of Coins!!! Expert Authentication - Accurate Descriptions - Reasonable Prices - Coins From Under $10 To Museum Quality Rarities Welcome Guest. Please login or register. 10% Off Store-Wide Sale Until 2 April!!! Explore Our Website And Find Joy In The History, Numismatics, Art, Mythology, And Geography Of Coins!!! Support Our Efforts To Serve The Classical Numismatics Community - Shop At Forum Ancient Coins

New & Reduced


Author Topic: Książki, skany, OCR  (Read 550 times)

0 Members and 1 Guest are viewing this topic.

Offline Lech Stępniewski

  • IMPERATOR
  • Caesar
  • *****
  • Posts: 2900
    • NOT IN RIC
Książki, skany, OCR
« on: July 06, 2022, 07:36:59 am »
Przy okazji. Zna Pan na pewno piwowską serię "Życie codzienne w...". Wiele pozycji już się trochę zestarzało, ale na ogół nadal trzymają poziom. Otóż ostatnio w czasie największych upałów, gdy nie byłem w stanie robić niczego sensownego, zająłem się przerabianiem znalezionych w sieci (zazwyczaj na chomiku) "Żyć" na poręczne pliki przeszukiwalne. Zrezygnowałem z kolorów, ilustracje są czasem mało czytelne jak ze starych gazet (ale dziś w sieci są i tak dużo lepsze obrazki), za to pliki są stosunkowo niewielkie, a OCR niezłej jakości.

Gdyby Pan coś konkretnego chciał, to proszę pytać. Może akurat mam.
Lech Stępniewski
NOT IN RIC
Poland

Offline DzikiZdeb

  • Caesar
  • ****
  • Posts: 1975
Re: Książki, skany, OCR
« Reply #1 on: July 07, 2022, 02:14:08 am »

Gdyby Pan coś konkretnego chciał, to proszę pytać. Może akurat mam.
Nie kojarzyłem, że aż tyle tego było. Wydawało mi się, że góra dwadzieścia pozycji, tymczasem widzę że było tego ponad pięćdziesiąt. A mogę być pazerny i poprosić o wszystko? Patrzyłem na tytuły i tych, do których raczej nigdy nie zajrzę jest stosunkowo mało (Kongo, Brazylia, mafia, może jeszcze kilka innych). Nie za bardzo bez dokładnego przeglądu szaf potrafię wskazać, co już mam. Skoro udało się ładnie zoptymalizować, powinno się je dać przepchnąć jedną paczką.

Offline Lech Stępniewski

  • IMPERATOR
  • Caesar
  • *****
  • Posts: 2900
    • NOT IN RIC
Re: Książki, skany, OCR
« Reply #2 on: July 07, 2022, 07:55:12 am »
Wszystkiego nie mam, optymalizacja nie jest doskonała, także dlatego, że materiał wyjściowy miałem czasem taki sobie. Poza tym celem nadrzędnym było uzyskanie przeszukiwalnego tekstu, żeby na przykład szybko znaleźć, co Carcopino pisze o fryzjerach.

Nie wiem, czy nie ma błędów, bo temperatura dochodziła do niemal 40 stopni, więc wyślę Panu kilka sztuk, a jeśli uzna je Pan za nadające się do użytku, będę dosyłał resztę. Także te, których nie przerabiałem.
Lech Stępniewski
NOT IN RIC
Poland

Offline DzikiZdeb

  • Caesar
  • ****
  • Posts: 1975
Re: Książki, skany, OCR
« Reply #3 on: July 08, 2022, 02:06:26 am »
Wszystkiego nie mam, optymalizacja nie jest doskonała, także dlatego, że materiał wyjściowy miałem czasem taki sobie. Poza tym celem nadrzędnym było uzyskanie przeszukiwalnego tekstu, żeby na przykład szybko znaleźć, co Carcopino pisze o fryzjerach.

Nie wiem, czy nie ma błędów, bo temperatura dochodziła do niemal 40 stopni, więc wyślę Panu kilka sztuk, a jeśli uzna je Pan za nadające się do użytku, będę dosyłał resztę. Także te, których nie przerabiałem.

Jak rozumiem miał Pan pdf w zwykłych skanach i przepuszczał je przez jakieś magiczne narzędzie? Można prosić o namiar? Mam trochę przerośniętych książek, na których chętnie bym popróbował takiej operacji.

OCRy są bardzo czyste, pomyłki pojawiają się tam, gdzie były naprawdę duże paprochy - np. Carcopino, s. 29 - "jest t« oddzielny budynek" czy "której obraz wywołuje sama ntzwa". Tak więc jakby miał Pan jeszcze coś gotowego, to je chętnie przyjmę.

Offline Lech Stępniewski

  • IMPERATOR
  • Caesar
  • *****
  • Posts: 2900
    • NOT IN RIC
Re: Książki, skany, OCR
« Reply #4 on: July 08, 2022, 09:34:59 am »
Jak rozumiem miał Pan pdf w zwykłych skanach i przepuszczał je przez jakieś magiczne narzędzie?

Przepuszczam je przez FineReadera 11 w wersji portable, który działa pod XP. Jeśli wynik uznaje Pan za zadowalający, to będę sukcesywnie podsyłał resztę.

Tak przy okazji (ponieważ starałem się zachowywać metryczki etc.) patrzyłem na ceny, bo istnieje mit, że co jak co, ale książki za socjalizmu były tanie (oczywiście jeśli komuś udało się kupić ciekawą książkę w księgarni). A tu widzę, że w latach 60. średnia cena "Żyć" wynosiła jakieś 50 złotych, podczas gdy pensja ewentualnego nabywcy wynosiła wtedy ok. 2000 złotych (a na ogół mniej). Czyli raczej drożej niż taniej.
Lech Stępniewski
NOT IN RIC
Poland

Offline DzikiZdeb

  • Caesar
  • ****
  • Posts: 1975
Re: Książki, skany, OCR
« Reply #5 on: July 11, 2022, 02:40:16 am »
Jak rozumiem miał Pan pdf w zwykłych skanach i przepuszczał je przez jakieś magiczne narzędzie?

Przepuszczam je przez FineReadera 11 w wersji portable, który działa pod XP. Jeśli wynik uznaje Pan za zadowalający, to będę sukcesywnie podsyłał resztę.
Dziękuję bardzo za kolejne "Życia", jakość jest cały czas bardzo dobra. Jeśli chodzi o FineReadera to bawiłem się pod koniec lat 90 jakąś bardzo wczesną wersją i pamiętam, że robił strasznie dużo błędów (np. jak kartka była zeskanowana troszeczkę krzywo, to dostawiał jakąś niesamowitą ilość "ogonków" do liter), a jedną stronę obrabiał kilka minut. No, ale to była zupełnie inna epoka, nie było tyle tekstów krążących po sieci, a skanować trzeba było sobie samemu.

Tak przy okazji (ponieważ starałem się zachowywać metryczki etc.) patrzyłem na ceny, bo istnieje mit, że co jak co, ale książki za socjalizmu były tanie (oczywiście jeśli komuś udało się kupić ciekawą książkę w księgarni).
Jestem niemal pewny, że mit miał swoje uzasadnienie nie w stosunku do płacy, ale w stosunku do cen innych dóbr. Ściągnąłem sobie rocznik statystyczny z 1972* (http://statlibr.stat.gov.pl/F?func=find-b&find_code=SYS&request=000001059, kawałek z cenami od strony 371, czwarty od końca) i widać to tam czarno na białym. Skarpety 20-30 zł, kilo kiełbasy 40-100 zł, 100 g kawy 33-40 zł, Syrena (brak podanego modelu, ale zapewne 104, czyli ostatnia "kurołapka" - 74 tys.) Na tym tle książki wydają się faktycznie dobrem dość tanim.

* dobrałem rok tak, żeby było widać podwyżki z grudnia '70, ale za bardzo ich nie widać, zapewne dane były tak dobierane by specjalnie nie było widać zmian cen w okresie 1960-71.

Offline Lech Stępniewski

  • IMPERATOR
  • Caesar
  • *****
  • Posts: 2900
    • NOT IN RIC
Re: Książki, skany, OCR
« Reply #6 on: July 11, 2022, 10:00:16 am »
robił strasznie dużo błędów

Też bawiłem się starymi wersjami, więc zaręczam, że jest bez porównania lepiej. Niemniej choć 99%-99,5% dokładności wygląda imponująco, to jest to dalej 20-10 błędów na stronę maszynopisu, więc potem w ciemno kopiować tego OCR-u nie można - trzeba zrobić korektę

np. jak kartka była zeskanowana troszeczkę krzywo

Jestem niemal pewny, że mit miał swoje uzasadnienie nie w stosunku do płacy, ale w stosunku do cen innych dóbr.

Ale to w sensie, że w ogółe było drogo (w relacji do przeciętnej płacy) a w wypadku książek nie-aż-tak-drogo. Natomiast ideologiczny mit głosił bezwstydnie, że ksiązki są tanie i teraz jest na nie stać nie tylko kułaka, lecz także średniaka i biedniaka, o robotniku nie wspominając, który mógł się obczytywać po uszy.

Dziękuję za rocznik, wydaje się mimo wszystko dość uczciwy. Chyba przerobię go sobie na OCR :-)
Lech Stępniewski
NOT IN RIC
Poland

Offline DzikiZdeb

  • Caesar
  • ****
  • Posts: 1975
Re: Książki, skany, OCR
« Reply #7 on: July 12, 2022, 08:14:00 am »
to jest to dalej 20-10 błędów na stronę maszynopisu, więc potem w ciemno kopiować tego OCR-u nie można - trzeba zrobić korektę
To jednak nadal dość dużo, chociaż oczywiście o niebo lepiej w stosunku do tego, co pamiętam.

Ale to w sensie, że w ogółe było drogo (w relacji do przeciętnej płacy) a w wypadku książek nie-aż-tak-drogo. Natomiast ideologiczny mit głosił bezwstydnie, że ksiązki są tanie i teraz jest na nie stać nie tylko kułaka, lecz także średniaka i biedniaka, o robotniku nie wspominając, który mógł się obczytywać po uszy.
Tak, ale skąd odcięty od reszty świata przeciętny obywatel miał wiedzieć, czy dwadzieścia kilo kiełbasy/czterdzieści książek za miesięczną pensję to dużo, czy mało. Ten bardziej kombinujący owszem zajrzał do notatek ciotki ze sprawunkami z 1937, podpytał kolegi, którego wujek został po wojnie w Anglii itp. Ale jak ktoś nie miał zacięcia do zdobywania takich informacji, tylko karmił się Dziennikiem, w którym Urban opowiadał jak to rząd wysłał koce dla bezdomnych w Nowym Jorku, to mógł faktycznie zapamiętać, że książki były tanie. Szczególnie jak kupno takowej było dla niego wydarzeniem, a nie codziennością.

Dziękuję za rocznik, wydaje się mimo wszystko dość uczciwy. Chyba przerobię go sobie na OCR :-)
Ciekawe, jak poradzi sobie z tabelkami?

Offline Lech Stępniewski

  • IMPERATOR
  • Caesar
  • *****
  • Posts: 2900
    • NOT IN RIC
Re: Książki, skany, OCR
« Reply #8 on: July 12, 2022, 12:21:52 pm »
To jednak nadal dość dużo, chociaż oczywiście o niebo lepiej w stosunku do tego, co pamiętam.

To oczywiście średnia. Prócz jakości samego skanu dużo zależy od materiału wyjściowego. Kiepski rozlewający siędruk z niewielką interlinią to koszmar. A znowu dzisiejsze porządnie wydane książki czasem rozpoznaje niemal bez żadnego błędu.

Ciekawe, jak poradzi sobie z tabelkami?

Niech Pan sam zobaczy :-)
Lech Stępniewski
NOT IN RIC
Poland

Offline DzikiZdeb

  • Caesar
  • ****
  • Posts: 1975
Re: Książki, skany, OCR
« Reply #9 on: July 13, 2022, 01:28:34 am »
A znowu dzisiejsze porządnie wydane książki czasem rozpoznaje niemal bez żadnego błędu.
Dzisiejsze książki są drukowane stosunkowo niewielką ilością standardowych czcionek komputerowych, które na dodatek program ma jako wzorce. A starsze to jak która drukarnia czcionki zamówiła, równie dobrze jeszcze w jakiejś wiedeńskiej c.k. odlewni i poprawiane później w miarę zużycia.

Ciekawe, jak poradzi sobie z tabelkami?

Niech Pan sam zobaczy :-)
Bardzo ładnie sobie poradził. Pewnie jakby była pełna kratka, też by to ugryzł - pamiętam że wczesne wersje potrafiły przerobić poziome linie z tabelki na ciąg przypadkowych znaków.

Offline Lech Stępniewski

  • IMPERATOR
  • Caesar
  • *****
  • Posts: 2900
    • NOT IN RIC
Re: Książki, skany, OCR
« Reply #10 on: July 15, 2022, 09:15:37 am »
Bardzo ładnie sobie poradził.

Gdyby Pan zauważył gdzieś jakieś usterki, proszę mi dać znać. Ja właśnie zauważylem w jednym skanie, że na paru stronach przebija druk spod spodu (w oryginale papier był za cienki? farby dali za grubo?), ale z takimi usterkami w samym skanie niestety nic nie zrobię.
Lech Stępniewski
NOT IN RIC
Poland

Offline DzikiZdeb

  • Caesar
  • ****
  • Posts: 1975
Re: Książki, skany, OCR
« Reply #11 on: July 18, 2022, 03:28:04 am »

Gdyby Pan zauważył gdzieś jakieś usterki, proszę mi dać znać. Ja właśnie zauważylem w jednym skanie, że na paru stronach przebija druk spod spodu (w oryginale papier był za cienki? farby dali za grubo?), ale z takimi usterkami w samym skanie niestety nic nie zrobię.

W sumie to główną (i kompletnie trywialną) zasadą jest "im czystszy tekst, tym lepszy OCR". Jakby skanować egzemplarze świeżo wydrukowane i pozbawione wad drukarskich, większość problemów by nie wystąpiła. A tak to z niektórymi zjawiskami naprawdę ciężko walczyć.

1. Teksty pokreślone długopisem/ołówkiem - trudno od automatu wymagać, żeby odróżnił, co jest czcionką, a co bazgraniną. Przeważnie dzieją się w tym wypadku przy rozpoznawaniu różne cuda i nie za bardzo mam pomysł, jak ich uniknąć;

2. Teksty, na których czcionki mają ubytki (nie wiem z czego dokładnie to wynika, mam podejrzenie, że skany są mało kontrastowe z powodu pożółknięcia papieru) - tutaj nie wiem czemu często się zdarza, że OCR dokłada spore ilości nadmiarowych spacji. Nie wiem, czy nie byłoby w tym wypadku lepiej, jak książka pozostałaby kolorowa/w odcieniach szarości zmiast kontrastowego czarno-białego - mam wrażenie że ubytki w czczionkach byłyby w takim wypadku mniejsze;

Drobniejsze:

3. Paprochy - lepiej sobie radzi z kreskami, gorzej z plamami. Jak plama pokryje całą literę, to się nie domyśli, co pod nią było. Trudno mu się dziwić.

4. Braki w druku wyglądające np. jakby dostał się do maszyny skrawek papieru - tutaj nie za bardzo mam pomysł, jakby to automatycznie uzupełnić.

5. Podwójny druk - tego się nie przeskoczy

6. Przebitka ze spodu - wydaje mi się, że nie było tu czegoś takiego - może zostawienie w odcieniach szarości dałoby lepszy efekt?

Techniczne (w sumie nie wiem, jak powinno być):

7. Co ma robić z tekstem rozstrzelonym - zbijać czy zostawiać ze spacjami pomiędzy literami? Czasem jest tak, czasem tak, czasem hybrydowo.

8. Myślniki przerzucające słowo do nowej linii (jakkolwiek to się mądrze nazywa) - często pomija, czasem zbija przerzucone słowo w jedno, czasem nie.

9. Znaki z innych alfabetów, np. różne tam znaczki nad japońskimi imionami/nazwiskami -  z tego co widzę ucina te ogonki, może i lepiej jakby próbował je odtworzyć, bo możliwości jest multum i pilnowanie żeby utrafił w odpowiedni ogonek może zająć dużo czasu

Przykłady:

Hammond - Dzieje Grecji

s. 104 - zamiast pracują - prąci*ją
s. 257 - zamiast Naksos - Nakśfcs (ale tu kleks przykrywał prawie półtorej litery)
s. 266 - zamiast "Cyklady, a" - "Cyklady,. _a"
s. 270 - zamiast "zdradzie w Atenach" i "Okręty" - "zdradzie ^ w Atenach" i "__Pkręty"
s. 277 - zamiast "czasie Arystydes" - "czasiej^Arystyde^"
s. 286 - zamiast "Miała to być straż" - "Miałą_tp_,.być_straż"
s. 371 - zamiast Perykles - Pe- ^ykles
s. 383 - zamiast "wypłynąwszy w lecie r. 435" - "wyęłyn^ysz^y^^^lecie r. j!35" (nie dziwię się, że tu kompletnie zgłupiało, dzielny student/ka podkreślił/a ten fragment wężykiem)
s. 420 - zamiast śmierć - śmiejć
s. 679 - zamiast Arystofanesa - Arystof anesa. (w sumie trudno powiedzieć, co ma zrobić automat przy imionach wydrukowanych rozstrzelonym drukiem, pozostałe, które sprawdzałem albo zbił w jeden tekst albo wstawił między literami spacje)


Frederic - Życie codzienne w Japonii u progu nowoczesności

s. 27 - Kido Koin (właściwie Kido Takayoshi albo Takamasa, 1834— 1877), potencjalny wódz klanu Choshu (brak różnych dodatkowych ogonków nad o czy u)


Baranowski - Życie codzienne małego miasteczka w XVII i XVIII w.

s. 1. "Instytut W yd a w n iczy W arszaw a" - nie radzi sobie z większą czcionką?
s. 6. "Na skutek powyższych, a także w ielu jeszcze innych p rzyczyn, sieć m iejska w niektórych regionach, szczególnie zaś w W ielk op olsce, w północnej Małopolsce, a także na terenie łęczycko-sieradzko-w ieluńskim była bardzo gęsta. L eżą ce natomiast zb yt blisko siebie miasta bardzo często w zajem n ie podcinały swój handel i rzemiosło, u niem ożliw iały rozw ój." - albo raczej ze zbyt bladym skanem, któremu nieco zaszkodziło przycięcie skali szarości do obrazu czarno-białego.
s. 89 - "W w yposażeniu w n ętrza domu mieszczańskiego bardzo dużą rolę odgr y w ał piec-fe ~ p ie c zlfn a 'chleba oraz kuchnia do gotowania." - blady skan powodujący dostawianie spacji + podkreślenia w tekście


Bardecka-Turnau - Życie codzienne w Warszawie okresu oświecenia

s. 15 - "Zam ek w arszawski od innych budow li tego typu w Polsce i innych krajach Europy. N atom iast w nętrze urządzone" - blady skan? Wstawia spacje
ilustacja po s. 24 - "a Cnanulaiu ^Aatyp- i/flalachoiujki SlęforenJarz W a l ke Koronny c/łymowy y honfeJeraaji ŚPioiumayi horonnyc/i c/fat jzalek Orbernu Orla S b laicjo" - dobrał się do zdjęcia rękopisu z epoki i nie dziwię się, że sobie nie poradził


Bluche - Życie codzienne we Francji w czasach Ludwika XIV

s. 20 - "Po śm ierci M azariniego L udw ik XIV postanow ił, ja k wiadomo, obchodzić się bez pierwszego m in istra i rządzić sam em u."
s. 263 - ‘k tó ry ch (poza zbędymi spacjami typowy paproch)


Świderkówna - Życie codzienne w Egipcie greckich papirusów

s. 315 - "Apollonus, której „b ra t” pozostawił w s z y s f-h kłopoty domowe, a sam służy w wojsku, pisze do niego w I v.\." - wygląda jakby podczas druku dostał się jakiś paproch, przez co tekst ma ubytek o nietypowym kształcie


Bukowska - Życie codzienne polskich klasztorów żeńskich w XVII-XVIII wieku

s. 71 - "ksienię obierać m ają" - o tyle nietypowo, że przeważnie dodatkowe spacje widać od pierwszej strony w dużych ilościach, w tej książce występują sporadycznie


Czapliński Długosz - Życie codzienne magnaterii polskiej w XVII w. - widać, że skan był dużo lepszej jakości od pozostałych książek z tego samego okresu/papieru, co przekłada się na praktyczny brak błędów


Kusiak - Życie codzienne oficerów Drugiej Rzeczypospolitej - przykład książki, której chyba wyszło na dobre zostawienie w pełnym kolorze zamiast redukcji do tekstu biało-czarnego bez odcieni szarości


Jelicz - "Życie codzienne w średniowiecznym Krakowie"

s. 7 - „Zje™ codzienne w średniowiecznym Krakowie” - potknął się na bardziej fikuśnym italiku, chociaż dalej jest bardziej płynnie, może z wyjątkiem dodatkowych spacji

Kiersnowscy - Życie codzienne na Pomorzu wczesnośredniowiecznym

s. 53 - "Na Pom orzu św iątynie nazyw ano kącinam i albo kątinam i. Nazwą tą
określano, ja k się zdaje, zarówno właściwe św iątynie, w których znajdow
ały się posągi bóstw, jak też i budynki służące zgromadzeniom i obradom
starszyzny i kapłanów . W Szczecinie w dobie m isji O ttona znajdow ały
się dwie, a ja k tw ierdzi inny z żywotopisarzy, naw et cztery takie kąciny.
Główna z nich wznosiła się na wzgórzu zw anym „górą Trzygław a” , jak
się zdaje, w przybliżeniu n a m iejscu obecnego Zam ku. O wyglądzie i rozm
iarach tej budow li tyle tylko wiadomo, że była wzniesiona „z przedziw ną" - zostawiłem łamanie wierszy, w tym tekście poza nadmiarowymi spacjami w kilku sprawdzonych fragmentach zjadło wszystkie myślniki przerzucające część słowa do następnego wiersza

s. 58 i dalej - podejrzewam, że to nie jest tekst przebijający spod spodu, ale podwójny druk. Z jakiegoś powodu cały arkusz został zadrukowany ponownie tekstem lustrzanym

Offline Lech Stępniewski

  • IMPERATOR
  • Caesar
  • *****
  • Posts: 2900
    • NOT IN RIC
Re: Książki, skany, OCR
« Reply #12 on: July 18, 2022, 07:24:35 am »
Widzę, że bardzo drobiazgowo potraktował Pan moją prośbę.

Fine Reader oczywiście umożliwia ręczne wprowadzanie poprawek do OCR-u, ale ja reaguję tylko wtedy (a i to rzadko), gdy zaznacza stronę na czerwono - że nazbyt dużo jest na niej niebieskich znaczków, które z kolei sygnalizują, że miał problem z odczytaniem jakiegoś słowa lub litery. Gdybym przeglądał te niebieskie, to pewnie dotąd posłałbym Panu najwyżej jedną książkę, a może byłbym jeszcze w trakcie jej korekty.

Jest tam też funkcja ręcznego "gumkowania" skanu, ale to ma sens, gdy np. różne kreski czy podkreślenia nie zawadzają o tekst. Czasem coś prostego wygumkowuję, ale znowu - usuwanie na powiększeniu nawet kilku stosunkowo czystych podkreśleń to bardzo mozolne zajęcie. Zresztą to co najważniejsze i tak dokonuje się na etapie skanowania, a ja tylko obrabiam cudze skany znalezione w necie, które bywają bardzo różne (podobnie jak różne bywają - jeśli idzie o stan i rodzaj druku - same książki). Jeśli więc na wejściu jest kiepsko, to pozostaje tylko pracochłonna kosmetyka.

W sumie wychodzę z założenia, że skoro nie zapisuję samego OCR-u (np. w formie pliku worda czy czegoś podobnego), ale OCR + skany w PDF, to jeśli będzie mi potrzebny jakiś cytat, zawsze mogę go skontrolować na skanie i wtedy poprawić. Prawda, wyszukiwanie nie będzie doskonałe, ale nawet w najgorszym wypadku wciąż lepsze niż kartkowanie papieru. Poza tym, gdy się już wie, jakie są najczęstsze błędy, można wyszukiwanie odpowiednio modyfikować. Tak więc cieszę się tym, co jest.
Lech Stępniewski
NOT IN RIC
Poland

 

All coins are guaranteed for eternity