گزیر

::گاهنوشتهای حمیدرضا محمدی::



آخرین نظردهندگان:

مشترک شوید:

ایمیل خود را در جعبه زیر وارد کنید و دکمه اشتراک را بزنید.

جستجو:

Valid XHTML 1.0 Transitional RSS Feed

چطور شد که شد؟

۸۵/۱۱/۲۰

دیروز «گنج ادب» را به یکی از همکارانم نشان دادم و قرار شد پایگاه داده‌های آن را در اختیارش بگذارم تا از آن برای دستیابی به تخمینهای آماری مورد نیازش در طراحی یک نرم‌افزار بازشناسی نوری نویسه‌های فارسی (OCR) استفاده کند. بد ندیدم -با توجه به این که در آینده‌ی اینجا به عنوان وبلاگ و سایت شخصی، جایی برای چنین برنامه‌ای نمی‌بینم- در مورد این که چطور این اطلاعات را استخراج کردم و چطور از وردپرس برای راه‌اندازی این مجموعه کمک گرفتم توضیحاتی بدهم، ممکن است این توضیحات کمکی باشد برای کسانی که می‌خواهند در کمترین زمان ممکن و با استفاده از سیستمهای مدیریت محتوای آماده چنین کارهایی را انجام دهند.

گنج ادب

منبع اطلاعات این پایگاه، یکی از نگارشهای قدیمی نرم‌افزار معروف دُرج است. این نرم‌افزار اطلاعات خود را در یک پایگاه داده‌های اکسس نگهداری می‌کند. قدم اول برای دستیابی به این اطلاعات باز کردن همین پایگاه داده‌هاست که با یک کلمه‌ی عبور ساده محافظت شده است و با استفاده از نرم‌افزارهای موجود به آسانی بازیابی می‌شود.

Advanced Office XP Password Recovery

حالا اطلاعات در دسترس ماست، اما یک مشکل بزرگ دارد و آن این است که اطلاعات در دسترس ما این شکلی است:

اطلاعات به دست آمده ناخواناست

ریشه‌ی مشکل اینجاست که این نرم‌افزار برای نمایش متنها از قلمها و سیستم کدگذاری خاص خودش استفاده می‌کند. خوب! من قبلاً هم با این مشکل برخورد کرده بودم و در کشف سیستمهای مختلف کدگذاری فارسی و تبدیل آن به کدگذاری ویندوز تجربیاتی داشتم. گام اول برای کشف این کد استفاده از برنامه‌ی charmap ویندوز است، کافی است نگاهی به یکی از فونتهای نصب شده توسط نرم‌افزار مورد نظر بیندازی و جدول تبدیل کدها را تشکیل بدهی. در مرحله‌ی بعد یک برنامه‌ی ساده می‌نویسی که کاراکترهای متناظر را جایگزین کند. با نگاهی به خروجیها متوجه می‌شوی که برای نهایی شدن تبدیل، لازم است خروجیهای نهایی را برعکس کنی.

charmap
doconv
conthis
codeconv

خوب! مشکل دوم هم حل شده است. حالا اطلاعات مورد نظر به صورت خوانا در دسترس ماست.

خروجی خوانای نهایی

مسأله‌ی بعدی آن است که چگونه این اطلاعات را در کمترین زمان ممکن وارد سیستم مدیریت محتوای مقصد کنیم. من وردپرس را به عنوان سیستم مدیریت محتوای این پایگاه در نظر گرفته بودم چرا که به نظرم امکانات کافی را برای این کار داشت. وردپرس امکاناتی برای تزریق اطلاعات از سیستمهای دیگر دارد و یکی از این امکانات استفاده از فایلها یا آدرسهای RSS است.

wordpress import feature

کافی است برای انتقال آسان و یکباره‌ی اطلاعات مورد نظر به وردپرس، یک برنامه‌ی کوچک برای بازخوانی اطلاعات از پایگاه داده‌های اکسس و بازنویسی آن با فرمت RSS بنویسیم و خروجیها را به وردپرس تزریق کنیم.

WriteRSS

این طوری در عرض چند ساعت می‌توان یک پایگاه و یک سیستم جستجوی محتوای ادبی با محتوای غنی ساخت!

البته من در همین زمینه فکرها و طرحهایی دارم که اگر فرصت کنم و موقعیتش را به دست بیاورم در قالب یک وب سایت مستقل و با استفاده از پایگاه داده‌های رایگان موجود (و نه این که به این ترتیب به دستش آوردم) آن را عملی خواهم کرد.






۶ نظر »

گناهکار:

تاریخ: ۸۵/۱۱/۲۱ ساعت: ۰:۳۸

از این ابتکارت واسه تبدیل دیتابیس و وارد کردنش به وردپرس خیلی خوشم اومد.

واقعن ذهن خلاقی داری!

همکار:

تاریخ: ۸۵/۱۱/۲۱ ساعت: ۱۷:۰۳

دمتان گرم باد

مانی:

تاریخ: ۸۵/۱۱/۲۳ ساعت: ۰:۵۵

ایده های بسیار خوبی به کار بردید … به قول بچه ها مهندسی بود …

من خیلی به rira.ir علاقه دارم. باز متن هست و رو sourceforge . بهداد هم از آشنایان من هست. اگه بتونیم بهش یه XML-RPC API اضافه کنیم. خیلی همه مشکلات حل می شه برای دسترسی به یک بانک ادبی فارسی.

یعقوب:

تاریخ: ۸۵/۱۱/۲۹ ساعت: ۱۲:۰۹

از خلاقیتی که در شما می بینم خیلی خوشحال می شم

ناشناس:

تاریخ: ۸۶/۰۴/۰۴ ساعت: ۹:۵۴

اگر امکان دارد این اطلاعات را به من میل کنید ممنون.

مصطفی:

تاریخ: ۸۶/۰۷/۱۲ ساعت: ۱۴:۵۹

از این مطلب کلی کمک گرفتم. ممنون
من دارم روی تبدیل فارسی نوشته های اتوکد به یونی کد و بالعکس کار می کنم.

خروجی آر.اس.اس نظرات این نوشته:»

ارسال دنبالک:»

نظر بدهید:

* ورود مشخصات اختیاری است، پست الکترونیکی نشان داده نمی‌شود.