درباره من:
آخرین نظردهندگان:
- رها درباره سیارهی آبی (۲) - اعماق
- x man درباره عکسهایی از حیات وحش
- حسن درباره عکسهایی از حیات وحش
- محسن درباره سامسونگ و ایمیلهای ناخواسته
- لیلا درباره توصیه هایی برای جستجوی بهتر در اینترنت
آخرین نظرگاهها:
مشترک شوید:
ایمیل خود را در جعبه زیر وارد کنید و دکمه اشتراک را بزنید.
جستجو:
چطور شد که شد؟
۸۵/۱۱/۲۰دیروز «گنج ادب» را به یکی از همکارانم نشان دادم و قرار شد پایگاه دادههای آن را در اختیارش بگذارم تا از آن برای دستیابی به تخمینهای آماری مورد نیازش در طراحی یک نرمافزار بازشناسی نوری نویسههای فارسی (OCR) استفاده کند. بد ندیدم -با توجه به این که در آیندهی اینجا به عنوان وبلاگ و سایت شخصی، جایی برای چنین برنامهای نمیبینم- در مورد این که چطور این اطلاعات را استخراج کردم و چطور از وردپرس برای راهاندازی این مجموعه کمک گرفتم توضیحاتی بدهم، ممکن است این توضیحات کمکی باشد برای کسانی که میخواهند در کمترین زمان ممکن و با استفاده از سیستمهای مدیریت محتوای آماده چنین کارهایی را انجام دهند.

منبع اطلاعات این پایگاه، یکی از نگارشهای قدیمی نرمافزار معروف دُرج است. این نرمافزار اطلاعات خود را در یک پایگاه دادههای اکسس نگهداری میکند. قدم اول برای دستیابی به این اطلاعات باز کردن همین پایگاه دادههاست که با یک کلمهی عبور ساده محافظت شده است و با استفاده از نرمافزارهای موجود به آسانی بازیابی میشود.

حالا اطلاعات در دسترس ماست، اما یک مشکل بزرگ دارد و آن این است که اطلاعات در دسترس ما این شکلی است:

ریشهی مشکل اینجاست که این نرمافزار برای نمایش متنها از قلمها و سیستم کدگذاری خاص خودش استفاده میکند. خوب! من قبلاً هم با این مشکل برخورد کرده بودم و در کشف سیستمهای مختلف کدگذاری فارسی و تبدیل آن به کدگذاری ویندوز تجربیاتی داشتم. گام اول برای کشف این کد استفاده از برنامهی charmap ویندوز است، کافی است نگاهی به یکی از فونتهای نصب شده توسط نرمافزار مورد نظر بیندازی و جدول تبدیل کدها را تشکیل بدهی. در مرحلهی بعد یک برنامهی ساده مینویسی که کاراکترهای متناظر را جایگزین کند. با نگاهی به خروجیها متوجه میشوی که برای نهایی شدن تبدیل، لازم است خروجیهای نهایی را برعکس کنی.




خوب! مشکل دوم هم حل شده است. حالا اطلاعات مورد نظر به صورت خوانا در دسترس ماست.

مسألهی بعدی آن است که چگونه این اطلاعات را در کمترین زمان ممکن وارد سیستم مدیریت محتوای مقصد کنیم. من وردپرس را به عنوان سیستم مدیریت محتوای این پایگاه در نظر گرفته بودم چرا که به نظرم امکانات کافی را برای این کار داشت. وردپرس امکاناتی برای تزریق اطلاعات از سیستمهای دیگر دارد و یکی از این امکانات استفاده از فایلها یا آدرسهای RSS است.

کافی است برای انتقال آسان و یکبارهی اطلاعات مورد نظر به وردپرس، یک برنامهی کوچک برای بازخوانی اطلاعات از پایگاه دادههای اکسس و بازنویسی آن با فرمت RSS بنویسیم و خروجیها را به وردپرس تزریق کنیم.

این طوری در عرض چند ساعت میتوان یک پایگاه و یک سیستم جستجوی محتوای ادبی با محتوای غنی ساخت!
البته من در همین زمینه فکرها و طرحهایی دارم که اگر فرصت کنم و موقعیتش را به دست بیاورم در قالب یک وب سایت مستقل و با استفاده از پایگاه دادههای رایگان موجود (و نه این که به این ترتیب به دستش آوردم) آن را عملی خواهم کرد.

۶ نظر »
گناهکار:
تاریخ: ۸۵/۱۱/۲۱ ساعت: ۰:۳۸از این ابتکارت واسه تبدیل دیتابیس و وارد کردنش به وردپرس خیلی خوشم اومد.
واقعن ذهن خلاقی داری!
همکار:
تاریخ: ۸۵/۱۱/۲۱ ساعت: ۱۷:۰۳دمتان گرم باد
مانی:
تاریخ: ۸۵/۱۱/۲۳ ساعت: ۰:۵۵ایده های بسیار خوبی به کار بردید … به قول بچه ها مهندسی بود …
من خیلی به rira.ir علاقه دارم. باز متن هست و رو sourceforge . بهداد هم از آشنایان من هست. اگه بتونیم بهش یه XML-RPC API اضافه کنیم. خیلی همه مشکلات حل می شه برای دسترسی به یک بانک ادبی فارسی.
یعقوب:
تاریخ: ۸۵/۱۱/۲۹ ساعت: ۱۲:۰۹از خلاقیتی که در شما می بینم خیلی خوشحال می شم
ناشناس:
تاریخ: ۸۶/۰۴/۰۴ ساعت: ۹:۵۴اگر امکان دارد این اطلاعات را به من میل کنید ممنون.
مصطفی:
تاریخ: ۸۶/۰۷/۱۲ ساعت: ۱۴:۵۹از این مطلب کلی کمک گرفتم. ممنون
من دارم روی تبدیل فارسی نوشته های اتوکد به یونی کد و بالعکس کار می کنم.
خروجی آر.اس.اس نظرات این نوشته:»
ارسال دنبالک:»