Taigi savo knygą jau turite PDF faile arba apdorotuose TIFF paveiksliukuose. Na gerai, jei nusprendėte neapdoroti paveiksliukų, tai juos turite kaip JPG.

Knygos teksto atpažinimas su ABBYY FineReader yra pats lengviausias darbas, reikia tik teisingai parinkti nustatymus. Visada rekomenduoju naudotis naujausia FineReaderio versija, bet senesnės irgi tinka. Nemokamo ABBYY FineReaderio savo operacinei sistemai galite ieškoti internete, tam tinka tokie web saitai kaip thepiratebay.org ar kiti panašūs tautiniai. Raktiniai žodžiai paieškoje tuose saituose “ABBYY FineReader“. Taip pat ten galite rasti ir programos versiją Mac kompiuteriams. Tik atsisiuntę patikrinkite ją dėl virusų ir skaitykite instaliavimo instrukcijas.

FineReader11-500x500

Taigi einate į File -> Open PDF file dialogą ir pakeičiate tokius nustatymus nuo defaultinių, kaip šitam paveiksliuke:

ABBYY FineReader Open PDF file nustatymai

ABBYY FineReader Open PDF file nustatymai

Pastaba: Jei PDF prastos kokybės arba tai neapdoroti JPG paveiksliukai galite varnas ant “Detect page orientation“, “Enable image preprocessing“ ir “Split facing pages“ palikti uždėtas. FineReaderis ilgiau dirbs bet ant prastos kokybės PDFų rezultatas bus geresnis. Pvz tokiai skanuotei Image preprocessing yra privalomas:

Nekokybiška skanuotė

Tada geriausia rinktis tokius Preprocessing parametrus:
FR2

Taip pat “Read“ Tab’e pakeičiate standartinius šriftų nustatymus į tokius:

FineReader fontų nustatymai

FineReader fontų nustatymai

Sutvarkę nustatymus spaudžiate “Open“, ir leidžiate šiai nuostabiai programai dirbti savo darbą. Jei programa dirbdama pradeda keiktis perspėjimais (warningais) tai į juos dėmesio nekreipiate. Jei atsiranda ir klaidų – tai greičiausiai pas jus baigėsi disko vieta ir atlaisvinus daugiau, teks pradėti iš naujo.

FineReaderis turi pakankamai gerus paveikslėlio redagavimo įrankius. Jei kokiam puslapyje matote dėmes ar kokias žymes – labai paprasta jas pašalinti. Naudojant FineReaderio Edit image -> Eraser funkciją ir tiesiog pažymint vietą, kurią norite ištrinti.
fr4

Perjungiate puslapių langą į “Details view“ ir surūšiuojate puslapius pagal didžiausią įtartinų simbolių kiekį. Jei įtartinų simbolių mažiau kaip 3 procentai, tai su tais puslapiais viskas gerai. Jei daugiau spaudžiate ant to puslapio ir pasižiūrite kokie simboliai yra pamėlininti. Gali tekti tiems puslapiams pakeisti kalbos nustatymą ir vėl paspausti “Read page“. Gali tekti kai kuriuos simbolius pataisyti rankomis, jei nuskanuota buvo prastai.
uncertain

FineReader’is gan gerai atpažįsta teksto blokus. Kiek prasčiau su smulkiais juodai baltų paveiksliukų blokais. Kitos, dažniausiai pasitaikančios bėdos:
Neteisingai atpažinti paveikslėlių blokai.
Teksto blokas apima ir puslapio numerį.
Knygoje yra puslapio antraštė, kuri irgi įtraukiama į blokus.
Iškiriamas atskiras teksto blokas puslapio viršuje skyriaus pavadinimui.
Išmėtytas tekstas puslapyje sukapojamas daugybe smulkių blokelių.
Įvairūs netikslumai identifikuojant lenteles.
Kur kas paprasčiau yra peržiūrėti visą FineReader dokumentą ir tvarkingai susidėliot teksto blokus, nei bandyt tekstą „surankiot“ Word dokumente. Mūsų tikslas juk ne kažkaip įmantriai formatuotas dokumentas, o el. knyga — vientisa ir ilga teksto „paklodė“.

Paveikslėlių blokai neteisingai atpažįstami gan dažnai. FineReaderis labai orientuotas į tekstą, tad labai intensyviai jo ieško. Beveik visi juodai balti paveikslėliai tampa teksto blokais:
fr_11_pav
Tokiu atveju geriausia į paveikslėlį įtraukti ir užrašą. Apskritai visokie nestandartiniai užrašai, mandri šriftai ir kitos nesąmonės turėtų būti paversti paveikslėliais. Script tipo (atseit „ranka rašyti“) šriftai gali būti apdorojami dvejopai, priklausomai nuo noro: arba palikite tokį tekstą, kaip paveiksliuką, arba perrašykit ir uždėkit kursyvą. Na, o šis paveiksliukas turi dvi problemas: užrašą viršuje ir leidyklos logotipą apačioje. Viską reikia supaprastinti štai šitaip:
fr_12_pav
Sutvarkyti paveikslėliai ir tekstas

Dar vienas pavyzdėlis, kaip paveiksliukas supainiojamas su tekstu:
fr_16_pav
Paveikslėlis ir tekstas

Šiuo atveju reikia „išfigūruoti“ paveikslėlio ir teksto iškarpymą. El. knygose nedarome jokių teksto „apibėgimų“ aplink paveikslėlius. Vienos skaityklės tai palaiko, kitos palaiko ne iki galo, o trečios iš viso nepalaiko. Tad kiekvienas paveikslėlis turi būti savo individualioje eilutėje. Figūriškai iškarpyto paveikslėlio plotą FineReader’is paprasčiausiai užpildo balta spalva ir jį galime paprastai įterpti į tekstą. Tad parodytą pavyzdį išfigūruojame taip:
fr_17_pav
Išfigūruoti paveikslėlio ir teksto blokai

Blokų išfigūravimas daromas taip: (1) bakstelite pele kurį nors bloką; (2) pasirodo du nedideli pusiau permatomi mygtukai su + ir – ženklais. Vieną iš tų mygtukų paspaudus galima prie bloko arba pridėti gabalą, arba jį išimti. Viršuje iliustracijoje tokie mygtukai matomi teksto bloko viršuje.

Dažnai FineReader’is atskiria ir skyrių pavadinimus (4 problema). Pavyzdinėje knygoje tai labai aiškiai išreikšta. Be to, visuose puslapiuose tie nelemti pavadinimai viršuje, antraštėje. Štai jums atskirtas skyriaus pavadinimas (šiuo atveju, tik skyriaus numeris): Atskirtas skyriaus pavadinimas Taigi numetame antraštės bloką, o pagrindinį bloką ištempiam, kad apimtų ir skyriaus pavadinimą (skyriaus pavadinimo blokelis bus „suvalgytas“). Puslapio numeris mažame individualiame blokelyje, jį ignoruojam (jie paprastai išsaugomi į Word dokumento Footer’į ir tvarkant knygą žalos nedaro).

Dar vienas bjaurus dalykas yra lentelės. Jei jos gražiai apipavidalintos ir sudėlioti rėmeliai — darbo būna mažiau. Tačiau jei lentelė — tik po puslapį su tarpeliais išmėtytas tekstas, tai tenka pasiterlioti ir lentelę „nupaišyti“ iš naujo. Parodysiu dar gan lengvą pavyzdį, kuriame lentelės antraštė ir išvados yra atskirtos ir atpažintos kaip paprasti teksto blokai:
fr_18_lenteles

Pradinė lentelė

Ištriname viršuje ir apačioje lentelės esančius blokus (taip pat aptvarkome ir kitus teksto blokus). Bakstelėjus lentelės bloką pasirodo iššokantys kontekstiniai mygtukai, kurie leidžia įterpti papildomą lentelės eilutę, stulpelį (tiesiog įstatyti skiriančiąją liniją), sulieti ląsteles ir pan. Džiugu, kad su kiekviena naujesne FineReader versija visoks blokų atpažinimas vis tobulesnis. Aš pirmiausiai padidinau lentelės bloką, kad jis apimtų reikiamą tekstą. Tuomet pasirinkau pirmąjį kontekstinį mygtuką, kuris prideda papildomą eilutės liniją. Ir tas linijas pridėjau. Paskui spustelėjau ketvirtą mygtuką „Analyze Table Structure“ ir jis man pridėtose eilutėse surado ir ląsteles. Džiugu, kad apatinę ląstelę iškart padarė vientisą, nereikėjo jos net sulieti (merge). Tad keli brūkštelėjimai pele ir lentelė sutvarkyta:
fr_19_lenteles

Po visų tvarkymų išsaugome FineReader dokumentą į Word 2007 DOCX kaip Editable Copy. Šis metodas išsaugo vieną svarbų aspektą: tarpus tarp teksto eilučių (paragrafų):

"Save as" Microsoft Word DOCX nustatymai

“Save as“ Microsoft Word DOCX nustatymai

Taip pat išsisaugote ir PDF failą (jame galėsite paieškoti norimos frazės, jei tvarkant su Wordu kils neaiškumų) su tokiais nustatymais:
fr3
Jis bus pakankamai mažas, net ir naudojant geriausios kokybės nustatymus.

Toliau einame skaityti kaip tvarkyti knygą su Wordu…

Komentarų: 1
  1. Giedrius parašė:

    Sveiki. Ar įmanoma gauti ABBYY FineReader nemokamai, kad leistų dirbti su failais, didesniais nei 10 puslapių?

Parašykite komentarą

Įveskite savo duomenis žemiau arba prisijunkite per socialinį tinklą:

WordPress.com Logo

Jūs komentuojate naudodamiesi savo WordPress.com paskyra. Atsijungti /  Pakeisti )

Google photo

Jūs komentuojate naudodamiesi savo Google paskyra. Atsijungti /  Pakeisti )

Twitter picture

Jūs komentuojate naudodamiesi savo Twitter paskyra. Atsijungti /  Pakeisti )

Facebook photo

Jūs komentuojate naudodamiesi savo Facebook paskyra. Atsijungti /  Pakeisti )

Connecting to %s

%d bloggers like this: