Розпізнавання тексту в Linux - дуже просто

20 жовтня 2013

Все ж хочу знайти час і відсканувати другу книгу Дмитра Ратнікова - «Броварщина».

Тренуюся поки...

Ось порівняльні результати використання двох програм для розпізнавання: CuneiForm і Tesseract.

Відразу додам, що при зміні дозволу сканування з 300 до 200 dpi різниці в якості розпізнаваного тексту немає.

CuneiForm

Три роки тому із задоволенням читав рукопис майбутньої книжки «Бровари. Моє місто вЂ" мій дім", де молодий краєзнавець Дмитро Ратніков з любов'ю описував історію міста, в якому народився, виріс, ставши особистістю. Спочатку мене здивував вік автора і чого він взявся за таку тему, бо, як правило, краєвнавці вЂ" цЕ ЛЮДИ ПОВажНиХ літ і ті, чім смороду займаються, більш схоже на хобі, або українською мовою вЂ" сильне захоплення чимось. Як на мене, захоплення краєзнавством вЂ" вища ступінь духовності, процес самопізнання себе, довколишнього,а, головне, що все це можна передати іншим, а ті ще іншим. і це збагачує. Але однозначно вЂ" не матеріально. Значить, у людини є потреба ділитися любов'ю, знанням, минулим, майбутнім. Тоді мені стала зрозуміла мотивація Дмитра вЂ" він доріс до того, щоб поділитися своїми знаннями про рідний край, який називається Броварщина. Його нова книга так і називається. Н рукопис прочитавши ще з більшим задоволенням, адже в ній нові для мене знання, бо йдеться про село. У шкірного села Броварського району своя пам' ять, свої дзвони, свої герої, нагороджені і ненагораджені, і особлива, відмінна від інших, як чині кажуть, аура. Відчути її та передати на папері вЂ" це майстерність вищого гатунку. Дмитро Ратніков намагався це зробити, сконцентрувавшись на головному вЂ" через основних героїв твору передати любов до рідної землі, світлу пам' ять про тих, кого вже немає, але спогади про них збережуться через покоління, як від батька до сина передається і слава, і печаль роду, краю, історії, Батьківщини. Друга книга «подорослішала» в порівнянні з першою, як і сам автор, якому люди довірили бути депутатом Київської обласноі ради і який у своїх творчих і життєвих задумах, сподіваюся, зутинятися не збирається. Тож, успіхів! А книгу, думаю, із задоволенням прочитає та передасть іншому і старше і молодше покоління.

Tesseract

Три роки тому із задоволенням читав рукопис майбутньої кни - ги «Бровари Моє місто - мій дім», де молодий краєзнавець Дмитро Ратніков з любов'ю описував історію міста, в якому народився, ві - ріс, ставши особистістю. Спочатку мене здивував вік автора і чого він взявся за таку тему, бо, як правило, краеэнавці - це люди поважних літ і ті, чім смороду займаються, більш схоже на хобі, або українською мовою - сильне захоплення чимось. Як на мене, захоплення кра - єзнавством - вища ступінь духовності, процес самопізнання себе, довколишнього,а, головне, що все це можна передати іншим, а ті ще іншим. І це збагачує. Але однозначно - не матеріально. Значити в лю - діні є потреба ділитися любов'ю, знанням, минулим, майбутнім. Тоді мені стала зрозуміла мотивація Дмитра - він доріс до того, щоб поділитися своїми знаннями про рідний край, який називаєть - ся Броварщина. Його нова книга такі називається. ЇЇ рукопис прочи - тав ще з більшим задоволенням, адже в ній нові для мене знання, бо йдеться про село. У шкірного села Броварського району своя пам'ять, свої дзвони, свої герої, нагороджені і ненагороджені, і особлива, відмінна від ін - ших, як нині кажуть. аура. Відчути її та передати на папері - це май - стерність вищого гатунку. Дмитро Ратніков намагався це зробити, сконцентрувавшись на головному - через основних героїв твору пе - редати любов до рідноі землі, світлу пам'ять про тих, кого вже немає, але спогади про них збережуться через покоління, як від батька до сина передається і слава, і печаль роду, краю, історії, Батьківщини. Друга книга «подорослішала» в порівнянні з першою, як і сам ав - тор, якому люди довірили бути депутатом Київської обласної ради і який у своїх творчих і життєвих задумах, сподіваюся, аутинятися не збирається. Тож, успіхів! А книгу, думаю, із задоволенням прочитає та передасть іншому і старше і молодше покоління.

Tesseract працює трохи повільніше, але розпізнає, на мій погляд, краще. CuneiForm намагається зліпити слова з урахуванням переносів, що у нього непогано виходить, але він намагається «думати» і в результаті правити припадає більше.

Обидві програми для розпізнавання CuneiForm і Tesseract - Open Source, в роботі зручно користуватися графічною оболонкою YAGF.