گزیر

::گاهنوشتهای حمیدرضا محمدی::



مشترک شوید:

ایمیل خود را در جعبه زیر وارد کنید و دکمه اشتراک را بزنید.

جستجو:

Valid XHTML 1.0 Transitional RSS Feed

ترفندهای مستند نشده‌ی بهترین نرم‌افزار بازشناسی متون فارسی

۸۷/۰۴/۱۵

در ادامه‌ی نوشته‌ی قبلی در مورد ترفندهای آراکس، در این نوشته به نکته‌هایی اشاره می‌کنم که بعضی از آنها جزء قابلیتهای مستند نشده یا به قولی مخفی آراکس هستند و (البته به دلایل موجه ;) ) در راهنمای نرم‌افزار به آنها اشاره نشده یا اشارات خیلی کوتاهی به آنها شده. غیر از این نوشته، احتمالاً حداکثر یک نوشته‌ی شبه‌تبلیغاتی دیگر در مورد ویرایش فعلی این نرم‌افزار خواهم داشت و بعد از آن سعی می‌کنم به وضعیت سابق (=ننوشتن به مدت طولانی یا حداکثر چند نوشته با موضوع فلیکرگردی :mrgreen: ) برگردم. این را از آن جهت گفتم که اگر این چند وقت، از دست نوشته‌های تبلیغاتی من به ستوه آمده‌اید و تصمیم گرفته‌اید از فهرست مشترکان خوراک یا خبرنامه‌ی من خارج شوید زودتر بتوانید تصمیم بگیرید! و حالا فهرست چند ترفند پیشرفته‌ی قوی‌ترین نرم‌افزار OCR فارسی:

الف) دسته‌های آراکس را مستقیماً بارگذاری کنید.

دریافت فرمان از طریق پوستهی ویندوز از جمله قابلیتهایی است که هنوز به طور کامل در آراکس پیاده‌سازی نشده و باید در (خرده)ویرایشهای بعدی آراکس منتظر پیاده‌سازی نهایی آنها باشید. با این حال بعضی از قابلیتهای اولیه‌ی مورد نیاز هم‌اکنون در دسترس قرار دارند اما به دلیل کامل نبودن، در راهنمای نرم‌افزار از آنها سخنی به میان نیامده.

مثلاً آراکس می‌تواند دسته‌ها یا فایلهای با پسوند .arax را از طریق خط فرمان دریافت و بارگذاری کند (دسته‌ی آراکس یک دایرکتوری است که فایلهای تصاویر و فایلهای اطلاعاتی مرتبط با آنها در آن ذخیره شده و در ویندوز با آیکونی متفاوت با دایرکتوریهای معمولی نشان داده می‌شود)، دسته‌ی «پروژه‌ی نمونه» که نصاب آراکس آن را روی کامپیوتر شما کپی می‌کند و برای آن میانبری روی نوار شروع ویندوز می‌سازد به همین شیوه بارگذاری می‌شود. علاوه بر آن، اگر وقتی آراکس در حال اجراست یک دسته‌ی آراکس را از اکسپلورر روی آراکس بکشید و رها کنید آراکس آن را باز می‌کند.

برای آن که بتوانید مستقیماً -در زمانهایی که هنوز آراکس را اجرا نکرده‌اید- دسته‌های آراکس را باز کنید می‌توانید از یک ترفند ویندوز استفاده کنید. برای این کار از نوار شروع ویندوز فرمان Run را اجرا کنید و در کادر Open تایپ کنید SENDTO، سپس میانبر «نویسه‌خوان آراکس» را در پوشه‌ی باز شده کپی کنید. از این به بعد می‌توانید دسته‌های آراکس را با کلیک راست بر روی آنها، انتخاب فرمان «Send To» و نهایتاً گزینه‌ی «نویسه‌خوان آراکس» مستقیماً از طریق پوسته‌ی ویندوز بارگذاری کنید.

SENDTO
بارگذاری دسته آراکس از طریق پوسته ویندوز

ب) تنظیمات فعلیتان را ذخیره و بازیابی کنید.

تصاویر ورودی وضعیتهای متفاوتی دارند، وضعیت اسکن، وضعیت چاپ و کاغذ سند اولیه و پارامترهای دیگری مثل آن باعث می‌شوند برای دستیابی به دقت بازشناسی بهتر مجبور باشید با تنظیمات آراکس بازی کنید و آنها را تغییر دهید. به همین دلیل ممکن است به این نتیجه برسید که برای یک دسته از ورودیهایتان یک سری تنظیمات خاص جواب بهتری می‌دهند و برای دسته‌ی دیگری از ورودیها با کیفیت متفاوت تنظیمات دیگری شما را به نتیجه‌ی بهتری می‌رسانند.

تنظیمات کارایی و بازشناسی نویسه‌خوان آراکس

بیشتر ِ تنظیمات آراکس در قالب چند فایل با پسوند xml در دایرکتوری محل نصب آن ذخیره می‌شوند که مهمترین آنها فایل settings.xml است. برای ذخیره‌ی تنظیمات فعلیتان کافی است از این فایلها کپی تهیه کنید و در مواقع لزوم این کپی‌ها را به دایرکتوری محل نصب آراکس برگردانید. علاوه بر این، به این روش می‌توانید تنظیمات آراکس را بین کامپیوترهایتان جابجا کنید. پاک کردن (یا خراب کردن) این فایلها موجب می‌شود آراکس از تنظیمات پیش‌فرض (کارخانه) استفاده کند. در خرده‌ویرایشهای بعدی آراکس راه حل بهتری برای حل این گونه مشکلات ارائه خواهد شد.

فایلهای تنظیمات آراکس

ج) با تنظیم قلم، دقت بازشناسی را افزایش دهید.

خیلی وقتها پیش می‌آید که شما دارید صفحات یک کتاب یا مجله را که قلم (=فونت) یکسانی دارند بازشناسی می‌کنید. اما در میان خطوط بازشناسی شده بعضی خطوط با قلم متفاوتی بازشناسی می‌شوند (متفاوت اما شبیه). علت این واقعه معمولاً کوتاهی خط (ممکن است طول خط سه یا چهار کلمه باشد)، نویز زیاد در اطراف خط، شباهت زیاد قلمها در نویسه‌های موجود در متن خط و چیزهایی مثل آن است. در این وضعیت با کلیک در میان خطوط بازشناسی شده در ویرایشگر می‌توانید قلم غالب (=اکثریت) را پیدا کنید و بعد با تنظیم قلم روی قلم غالب (به جای تشخیص خودکار) و اجرای مجدد فرمان «خواندن» دقت بازشناسی را افزایش دهید.

یک راه دیگر برای پیدا کردن بهترین وضعیت قلم برای سندهایتان آن است که این پارامتر را تغییر دهید، سند را بخوانید و به رنگ نمایهی سند در مرورگر دسته توجه کنید. هر چه این رنگ قرمزتر باشد نشان دهنده‌ی دقت پایین‌تر است. نهایتاً قلمی را برای بازشناسی مجموعه اسناد همسانتان انتخاب کنید که باعث می‌شود نمایه، لایه‌ی رنگ قرمز نداشته باشد یا رنگ قرمز آن شدت کمتری داشته باشد (به طور پیش‌فرض آراکس نمایه‌ی اسناد بازشناسی شده با دقت پایین‌تر از ۸۰۰ را با لایه رنگ قرمز متمایز می‌کند، دقت آراکس عددی است بین ۱ تا ۱۰۰۰ و شما می‌توانید این آستانه را از طریق برگه‌ی رابط کاربر در تنظیمات روی ۱۰۰۰ تنظیم کنید تا بتوانید با دقت بهتری برای انتخاب قلم عمل کنید)، عدد دقیق‌تر دقت متوسط را می‌توانید با فعال کردن گزینه‌ی «دقت بازشناسی متوسط روی نمودار پراکندگی دقت نوشته شود» در تنظیمات رابط کاربر، از روی نمودار بخوانید.

شدت قرمزی نشانگر دقت پایین بازشناسی است
دقت متوسط را از روی نمودار بخوانید

د) از RAM بالای سیستمتان بهتر استفاده کنید.

آراکس نرم‌افزاری است که به طور طبیعی نیاز حافظه‌ای بالایی دارد. از آنجا که از ابتدا بنا بر این بوده که بشود آراکس را روی سیستمهای با رم پایین هم اجرا کرد، یک سیستم مدیریت حافظه‌ی داخلی برای آن طراحی شده که محتویات حافظه را در زمانی که نیازی به آنها نیست روی دیسک می‌نویسد و از حافظه خارج می‌کند و در زمان نیاز مجدد آن را از روی دیسک بازخوانی می‌کند. با توجه به این نکته که خواندن اطلاعات از دیسک یک فرایند زمانبر است این قابلیت روی زمان جابجایی بین اسناد تأثیر قابل ملاحظه‌ای می‌گذارد. در هر صورت اگر سیستمتان رم بالایی دارد برای خواندن دسته‌های عادی، نیازی به استفاده از سیستم مدیریت حافظه‌ی داخلی آراکس ندارید و می‌توانید آن را از طریق برگه‌ی کارایی پنجره‌ی تنظیمات غیرفعال کنید، یا به جای گزینه‌ی «کمترین مصرف حافظه»، گزینه‌ی «مصرف حافظه‌ی متعادل» را انتخاب کنید. در این وضعیت تفاوت قابل ملاحظه‌ای را در زمان جابجایی بین اسناد مشاهده می‌کنید.

علاوه بر این برای افزایش سرعت نمایش اسناد خوانده شده می‌توانید گزینه‌ی «اجزای رابط کاربری برای نمایش سریع‌تر اسناد پیچیده از پیش در حافظه آماده شود» را در برگه‌ی کارایی پنجره‌ی تنظیمات فعال کنید. در این حالت، وقت شروع آراکس یک مرحله به مراحل آغاز کار آراکس اضافه می‌شود (آماده‌سازی رابط کاربری) و آراکس کمی دیرتر آماده‌ی دریافت فرمان می‌شود، اما در عوض اسناد خوانده شده را با سرعت بیشتری نمایش می‌دهد.

آماده‌سازی رابط کاربر

قابلیت آماده‌سازی اجزای اسناد پیچیده را می‌توانید با تنظیم یک پارامتر عددی بدلخواه کنید. عدد پیش‌فرض این پارامتر ۳۵۰ است و هر چه این عدد بیشتر باشد زمان شروع آراکس و همچنین میزان حافظه‌ی اشغال شده توسط آن افزایش می‌یابد. برای تنظیم این پارامتر باید دست به کار ِ کارهای خطرناک ;) یعنی ویرایش مستقیم فایلهای تنظیمات شوید. برای این کار ابتدا در پنجره‌ی تنظیمات، گزینه‌ی پاراگراف قبلی را فعال کنید، سپس فایل settings.xml را (واقع در مسیر نصب آراکس) در یک ویرایشگر متنی باز کنید، دنبال کلید UseCacheForUI بگردید، آخر خطی که این کلید در آن درج شده اینتر بزنید و تایپ کنید:

<CacheCapacity>350</CacheCapacity>

به جای ۳۵۰ عدد مورد نظر خودتان را بگذارید، آراکس را ببندید و دوباره اجرا کنید تا تأثیر این پارامتر را ببینید.

ویرایش فایل اکس.ام.ال تنظیمات آراکس

ه) دندان عقل خراب ویندوزتان را بکشید!

این ترفند آخری در واقع یک حل مشکل است، مشکلی که بیشتر به ویندوز برمی‌گردد تا آراکس و احتمال دارد مشابهش را در مورد نرم‌افزارهایی که با اسکنرها یا دوربینهای دیجیتال کار می‌کنند دیده باشید. روی بعضی ویندوزها ممکن است در هنگام تلاش برای دریافت تصویر از اسکنر یا باز کردن برگه‌ی «دریافت و روبش» آراکس با چنین خطایی روبرو شوید:

RNBOVDD.DLL. An installable Virtual Device Driver failed Dll initialization. Choose ‘Close’ to terminate the application.

البته گویا این پیغام خطا قیافه‌های دیگری هم دارد، که من خوشبختانه فقط با این نمونه‌اش برخورد داشته‌ام. پیغام خطا دو دکمه‌ی Close و Ignore دارد که با انتخاب دکمه‌ی Ignore می‌توانید کار با آراکس را (بعد از چند لحظه یخزدگی ;) ) ادامه دهید. در هر صورت برای حل نهایی این ایراد، کافی است به پیشنهاد مایکروسافت در یکی از این دو صفحه: این یا این، عمل کنید و از شر کلید رجیستری مزاحم خلاص شوید. البته توصیه می‌کنم در صورتی که چنین مشکلی ندارید با این کلید رجیستری مانند دندان عقل سالمتان رفتار کنید و کاری به کارش نداشته باشید!






یک نظر »

IQ:

تاریخ: ۸۷/۰۴/۱۷ ساعت: ۱۱:۵۳

اینجوری که معلومه آراکس هم مثل ویندوز ترفند زیاد داره…
به به…
سه نقطه…

خروجی آر.اس.اس نظرات این نوشته:»

ارسال دنبالک:»

نظر بدهید:

* ورود مشخصات اختیاری است، پست الکترونیکی نشان داده نمی‌شود.