Książki, skany, OCR

Ancient Coin Discussions In Other Languages > Forum numizmatyki antycznej po polsku

Książki, skany, OCR

<< < (2/3) > >>

DzikiZdeb:

--- Quote from: Lech Stępniewski on July 08, 2022, 09:34:59 am ---
--- Quote from: DzikiZdeb on July 08, 2022, 02:06:26 am ---Jak rozumiem miał Pan pdf w zwykłych skanach i przepuszczał je przez jakieś magiczne narzędzie?

--- End quote ---

Przepuszczam je przez FineReadera 11 w wersji portable, który działa pod XP. Jeśli wynik uznaje Pan za zadowalający, to będę sukcesywnie podsyłał resztę.

--- End quote ---
Dziękuję bardzo za kolejne "Życia", jakość jest cały czas bardzo dobra. Jeśli chodzi o FineReadera to bawiłem się pod koniec lat 90 jakąś bardzo wczesną wersją i pamiętam, że robił strasznie dużo błędów (np. jak kartka była zeskanowana troszeczkę krzywo, to dostawiał jakąś niesamowitą ilość "ogonków" do liter), a jedną stronę obrabiał kilka minut. No, ale to była zupełnie inna epoka, nie było tyle tekstów krążących po sieci, a skanować trzeba było sobie samemu.

--- Quote from: Lech Stępniewski on July 08, 2022, 09:34:59 am ---Tak przy okazji (ponieważ starałem się zachowywać metryczki etc.) patrzyłem na ceny, bo istnieje mit, że co jak co, ale książki za socjalizmu były tanie (oczywiście jeśli komuś udało się kupić ciekawą książkę w księgarni).

--- End quote ---
Jestem niemal pewny, że mit miał swoje uzasadnienie nie w stosunku do płacy, ale w stosunku do cen innych dóbr. Ściągnąłem sobie rocznik statystyczny z 1972* (http://statlibr.stat.gov.pl/F?func=find-b&find_code=SYS&request=000001059, kawałek z cenami od strony 371, czwarty od końca) i widać to tam czarno na białym. Skarpety 20-30 zł, kilo kiełbasy 40-100 zł, 100 g kawy 33-40 zł, Syrena (brak podanego modelu, ale zapewne 104, czyli ostatnia "kurołapka" - 74 tys.) Na tym tle książki wydają się faktycznie dobrem dość tanim.

* dobrałem rok tak, żeby było widać podwyżki z grudnia '70, ale za bardzo ich nie widać, zapewne dane były tak dobierane by specjalnie nie było widać zmian cen w okresie 1960-71.

Lech Stępniewski:

--- Quote from: DzikiZdeb on July 11, 2022, 02:40:16 am ---robił strasznie dużo błędów

--- End quote ---

Też bawiłem się starymi wersjami, więc zaręczam, że jest bez porównania lepiej. Niemniej choć 99%-99,5% dokładności wygląda imponująco, to jest to dalej 20-10 błędów na stronę maszynopisu, więc potem w ciemno kopiować tego OCR-u nie można - trzeba zrobić korektę

--- Quote from: DzikiZdeb on July 11, 2022, 02:40:16 am ---np. jak kartka była zeskanowana troszeczkę krzywo

--- End quote ---

--- Quote from: Lech Stępniewski on July 08, 2022, 09:34:59 am ---Jestem niemal pewny, że mit miał swoje uzasadnienie nie w stosunku do płacy, ale w stosunku do cen innych dóbr.

--- End quote ---

Ale to w sensie, że w ogółe było drogo (w relacji do przeciętnej płacy) a w wypadku książek nie-aż-tak-drogo. Natomiast ideologiczny mit głosił bezwstydnie, że ksiązki są tanie i teraz jest na nie stać nie tylko kułaka, lecz także średniaka i biedniaka, o robotniku nie wspominając, który mógł się obczytywać po uszy.

Dziękuję za rocznik, wydaje się mimo wszystko dość uczciwy. Chyba przerobię go sobie na OCR :-)

DzikiZdeb:

--- Quote from: Lech Stępniewski on July 11, 2022, 10:00:16 am ---to jest to dalej 20-10 błędów na stronę maszynopisu, więc potem w ciemno kopiować tego OCR-u nie można - trzeba zrobić korektę

--- End quote ---
To jednak nadal dość dużo, chociaż oczywiście o niebo lepiej w stosunku do tego, co pamiętam.

--- Quote from: Lech Stępniewski on July 11, 2022, 10:00:16 am ---Ale to w sensie, że w ogółe było drogo (w relacji do przeciętnej płacy) a w wypadku książek nie-aż-tak-drogo. Natomiast ideologiczny mit głosił bezwstydnie, że ksiązki są tanie i teraz jest na nie stać nie tylko kułaka, lecz także średniaka i biedniaka, o robotniku nie wspominając, który mógł się obczytywać po uszy.

--- End quote ---
Tak, ale skąd odcięty od reszty świata przeciętny obywatel miał wiedzieć, czy dwadzieścia kilo kiełbasy/czterdzieści książek za miesięczną pensję to dużo, czy mało. Ten bardziej kombinujący owszem zajrzał do notatek ciotki ze sprawunkami z 1937, podpytał kolegi, którego wujek został po wojnie w Anglii itp. Ale jak ktoś nie miał zacięcia do zdobywania takich informacji, tylko karmił się Dziennikiem, w którym Urban opowiadał jak to rząd wysłał koce dla bezdomnych w Nowym Jorku, to mógł faktycznie zapamiętać, że książki były tanie. Szczególnie jak kupno takowej było dla niego wydarzeniem, a nie codziennością.

--- Quote from: Lech Stępniewski on July 11, 2022, 10:00:16 am ---Dziękuję za rocznik, wydaje się mimo wszystko dość uczciwy. Chyba przerobię go sobie na OCR :-)

--- End quote ---
Ciekawe, jak poradzi sobie z tabelkami?

Lech Stępniewski:

--- Quote from: DzikiZdeb on July 12, 2022, 08:14:00 am ---To jednak nadal dość dużo, chociaż oczywiście o niebo lepiej w stosunku do tego, co pamiętam.

--- End quote ---

To oczywiście średnia. Prócz jakości samego skanu dużo zależy od materiału wyjściowego. Kiepski rozlewający siędruk z niewielką interlinią to koszmar. A znowu dzisiejsze porządnie wydane książki czasem rozpoznaje niemal bez żadnego błędu.

--- Quote from: DzikiZdeb on July 12, 2022, 08:14:00 am ---Ciekawe, jak poradzi sobie z tabelkami?

--- End quote ---

Niech Pan sam zobaczy :-)

DzikiZdeb:

--- Quote from: Lech Stępniewski on July 12, 2022, 12:21:52 pm ---A znowu dzisiejsze porządnie wydane książki czasem rozpoznaje niemal bez żadnego błędu.

--- End quote ---
Dzisiejsze książki są drukowane stosunkowo niewielką ilością standardowych czcionek komputerowych, które na dodatek program ma jako wzorce. A starsze to jak która drukarnia czcionki zamówiła, równie dobrze jeszcze w jakiejś wiedeńskiej c.k. odlewni i poprawiane później w miarę zużycia.

--- Quote from: Lech Stępniewski on July 12, 2022, 12:21:52 pm ---
--- Quote from: DzikiZdeb on July 12, 2022, 08:14:00 am ---Ciekawe, jak poradzi sobie z tabelkami?

--- End quote ---

Niech Pan sam zobaczy :-)

--- End quote ---
Bardzo ładnie sobie poradził. Pewnie jakby była pełna kratka, też by to ugryzł - pamiętam że wczesne wersje potrafiły przerobić poziome linie z tabelki na ciąg przypadkowych znaków.

Navigation

[0] Message Index

[#] Next page

[*] Previous page

Go to full version