گزیر

::گاهنوشتهای حمیدرضا محمدی::



دربارهٔ من:

آخرین نظردهندگان:

مشترک شوید:

ایمیل خود را در جعبهٔ زیر وارد کنید و دکمهٔ اشتراک را بزنید.

جستجو:

Valid XHTML 1.0 Transitional RSS Feed

کپچا: «تو آدمی؟!»

۸۷/۱۰/۲۰

ماشینهای صاحب‌نظر یک ضعف مهم دارند و احتمالاً راه حل شکست دادن آنها تکیه بر همین ضعف است. آن ضعف مهم آن است که آنها آدم نیستند! بله! آنها خیلی از تواناییهای یک انسان را ندارند. تواناییهای بسیاری از این روباتها محدود به پیدا کردن جعبه‌های متنی، تشخیص نوع داده‌ای که باید آنها را با آن پر کنند و ارسال خودکار داده‌های هرز است. بنابراین می‌توان با ملزم کردن کاربری که فرم را پر می‌کند (مثلاً در حال ثبت نام برای ایجاد یک حساب ایمیل است یا در حال نظر دادن در یک وبلاگ است) به انجام کاری که به طور طبیعی از عهده‌ی یک انسان برمی‌آید و از عهده‌ی یک روبات برنمی‌آید کاری کنیم که روباتها نتوانند فرمها را پرکنند. این اساس روشی برای مقابله با اسپمها در قلمرو فرمهای الکترونیکی است که «کپچا» (CAPTCHA سرواژه‌ی حروف ابتدایی عبارتی انگلیسی با ترجمه‌ی آزمایش تورینگ [نام شخصی است، با تست تورینگ دانشجویان نرم‌افزار آشنایی دارند] کاملاً خودکار عمومی برای جداسازی انسان از کامپیوتر) نامیده می‌شود.

«کپچای تصویر متن» متداولترین نوع کپچاست. نرم‌افزارهای ارسال اسپم معمولاً توانایی پردازش تصویرها را ندارند. آنها حداکثر می‌توانند الگوهای ساده‌ی متنی را پیدا کنند. پس ما اگر در هر بار نمایش فرم یک تصویر تصادفی به کاربر نشان دهیم و از او بخواهیم برای ما بگوید داخل آن تصویر چه می‌بیند، کاربران انسانی -چون توانایی پردازش تصویرها را دارند- می‌توانند مسئله‌ی «چه چیزی داخل تصویر است» را به آسانی حل کنند و نرم‌افزار ارسال اسپم نه. ساده‌ترین چیزی که داخل تصاویر می‌توان گذاشت متون ساده‌ی چند حرفی یا تک کلمه‌ای است که با ترفندهایی همچون مخدوش کردن تصویر با خطوط، نویز و اعوجاج زمینه از حالت متن ساده خارج شده است. در ضمن چون نرم‌افزاری که این تصویر را ایجاد می‌کند جواب مسأله را می‌داند آزمایش درستی پاسخ کاربر هم کاری ندارد. این روش، اساس کپچای تصویر متن است که این روزها در خیلی از سایتها در انواع مختلف جلوی چشممان ظاهر می‌شود.

کپچا

البته دسته‌ای از کاربران انسانی هم هستند که به دلیل نابینایی توانایی حل کردن مسأله‌ی کپچای تصویر متن را ندارند. برای حل مشکل این کاربران که معمولاً با کمک نرم‌افزارهای صفحه‌خوان (نرم‌افزاری است که با تکیه بر فناوری متن به صدا اتفاقات روی صفحه‌ی کامپیوتر را برای کاربر شرح می‌دهد) از اینترنت استفاده می‌کنند در کنار کپچاهای تصویر متن، کپچاهای صوتی معادل نیز ایجاد شدند تا به این طریق مشکل این دسته از کاربران نیز حل شود.

راستی! تا حالا فکرش را کرده‌اید که تا به حال با چند کپچا برخورد کرده‌اید، چند تا از آنها را (به دلیل مخدوش بودن بیش از حد) نادرست جواب داده‌اید و در مجموع چقدر وقت برای حل آنها تلف کرده‌اید؟! هر چند زمان تلف شده برای تک تک کاربران اینترنت احتمالاً ناچیز است، اما فکرش را بکنید که جمع زمانی که کل کاربران اینترنت برای حل کپچاها صرف می‌کنند چقدر است (البته احتمالاً در یکی از نوشته‌هایی بعدی از کسانی برایتان صحبت خواهم کرد که روزانه حداقل هشت ساعت کپچا حل میکنند!). واقعاً اگر اسپم نبود و اگر نرم‌افزارهای ارسال اسپم نبودند لازم نبود این سؤالهای احمقانه را پاسخ دهیم. جالب اینجاست که عده‌ای به همین موضوع فکر کرده‌اند و به ایده‌ای رسیده‌اند که با استفاده از آن می‌توان کاری کرد که حل کپچاها دیگر بیهوده نباشد و از آن سودی به همگان برسد.

مسأله‌ای که حل کپچای تصویر متن به آن شباهت دارد او.سی.آر است. در این فرایند یک برنامه‌ی کامپیوتری تلاش می‌کند تصویر اسکن شده‌ی متن را به متن قابل ویرایش یا جستجو تبدیل کند. اما درصد موفقیت نرم‌افزارها در تبدیل تصویر به متن همیشه بالا نیست. خیلی وقتها متن کاغذی مخدوش است یا کیفیت خوبی ندارد. بنابراین برنامه‌ی او.سی.آر آن را با دقت خوبی نمی‌خواند، اما برنامه متوجه این قضیه می‌شود و می‌تواند قسمتهایی از متن را که خوب نخوانده جدا کند تا یک کاربر انسانی آنها را بازبینی و تأیید یا تصحیح کند. اما همیشه کاربران انسانی برای تصحیح خطاهای او.سی.آر در دسترس نیستند. مخصوصاً برای پروژه‌های عمومی تبدیل کتابهای کاغذی به متون دیجیتالی همیشه بودجه‌ی کافی برای استخدام مصححان در دسترس نیست. سایتی به نام ری‌کپچا تلاش دارد با ارائه‌‎ی سرویس کپچای رایگان، در کنار کلمات ایجاد شده توسط کامپیوتر -که پاسخ آنها برای نرم‌افزار کپچا مشخص است- کلماتی را که نرم‌افزارهای او.سی.آر «با دقت پایین» تشخیصشان داده‌اند در دسترس کاربر انسانی قرار دهد و از او بخواهد درست آن را تایپ کند. به این ترتیب سایت یا سرویسی که از این روش استفاده می‌کند از کاربر می‌خواهد دو کلمه را وارد کند که جواب یکی را می‌داند و نتیجه‌ی ورودی کاربر برای کلمه‌ی دیگر را ذخیره می‌کند تا با دریافت چند جواب دیگر از کاربران دیگر راجع به متن آن اطمینان حاصل کند و نهایتاً دقت متون او.سی.آر شده را بالا ببرد. روش مشابهی نیز برای کپچاهای صوتی و تبدیل صداهای ضبط شده‌ی از دهه‌های گذشته به متن ارائه شده است.

reCAPTCHA

در مورد انواع کپچا شاید این صفحه هم اطلاعات جدید و مفیدی داشته باشد.

فهرست سری نوشته‌های من درباره‌ی هرزنامه‌ها:

قسمت اول: ریشه‌ی نام اسپم

قسمت دوم: هرزنامه‌ها

قسمت سوم: کدامیک هرزنامه‌های بیشتری می‌گیرند: «علی» یا «زهرا»؟

قسمت چهارم: بگذارید «اسپم»ها را آنها بخورند!

قسمت پنجم: درآمدزایی هرزنامه‌ها

قسمت ششم: ماشینهای صاحب‌نظر

قسمت هفتم: کپچا: «تو آدمی؟!»

قسمت هشتم: او.سی.آر: قاتل کپچای تصویر متن

قسمت نهم: صنعت حل کپچای هند و راه‌حلهای مقابله با اسپم با تکیه بر تحلیل محتوی






یک نظر

ابراهیم بانی:

تاریخ: ۸۷/۱۰/۲۱ ساعت: ۲۲:۱۱

خوشحالم که با انسان باسواد و هنرمندی مثل شما آشنا شدم .. شما مانند همه انسانهای خلاق ایده های بسیار دارید و وقت اندک .. همچنین گرفتار روز مرگی که این روزها همه را کلافه کرده
مرد خردمند هنر پیشه را / عمر دو بایست در این روزگار
تا به یکی تجربه اندوختی / با دگری تجربه بردی بکار
ایام بکام

خروجی آر.اس.اس نظرات این نوشته:»

ارسال دنبالک:»

ارسال نظر برای این نوشته امکانپذیر نیست.