تاریخچه کپچا (CAPTCHA): ابزار مخفی گوگل برای دیجیتالی کردن کتاب‌ها

بیگاری دیجیتال در لباس اثبات انسانیت…

همه ما این لحظه را تجربه کرده‌ایم؛ در حال خرید یک بلیت اینترنتی در آخرین ثانیه‌ها هستیم یا می‌خواهیم وارد یک حساب کاربری مهم شویم، که ناگهان یک کادر کوچک با حروفی کج‌ومعوج و ناخوانا راه ما را سد می‌کند. «ثابت کنید که ربات نیستید». ما با کلافگی چشمانمان را ریز می‌کنیم، حروف در هم تنیده را تایپ می‌کنیم و پس از دریافت تیک سبز، به مسیر خود ادامه می‌دهیم. اما تا به حال از خود پرسیده‌اید که این حروف درهم‌ریخته از کجا می‌آیند؟ چرا گاهی دو کلمه کاملاً بی‌ربط در کنار هم قرار می‌گیرند؟

پشت این کادر اعصاب‌خردکن که به‌نظر می‌رسد تنها برای محافظت از وب‌سایت‌ها در برابر اسپمرها طراحی شده، یکی از بزرگترین، هوشمندانه‌ترین و پنهان‌ترین پروژه‌های جمع‌سپاری (Crowdsourcing) در تاریخ بشریت در جریان است. شما بدون اینکه قراردادی امضا کرده باشید یا دستمزدی دریافت کنید، سال‌هاست که به‌عنوان کارمند افتخاری در حال دیجیتالی کردن بایگانی‌های روزنامه نیویورک تایمز، کتاب‌های قرن نوزدهمی و آموزش هوش مصنوعی برای ماشین‌های خودران شرکت گوگل هستید. این مقاله، روایتی است از تولد یک ایده ساده که چگونه توانست زمان‌های تلف‌شده بشریت را به یک ماشین عظیم برای حفظ میراث مکتوب تاریخ تبدیل کند.

تاریخچه کپچا (CAPTCHA): ابزار مخفی گوگل برای دیجیتالی کردن
کتاب‌ها

تولد یک نگهبان سایبری: روزهای تاریک یاهو و اسپمرها

برای درک این داستان، باید به سال 2000 میلادی بازگردیم. در آن زمان، اینترنت هنوز جوان بود و سرویس‌های ایمیل رایگان مانند یاهو (Yahoo) به شدت در حال رشد بودند. اما یک مشکل بزرگ وجود داشت: برنامه‌نویسان مخرب، ربات‌هایی نوشته بودند که در هر دقیقه هزاران حساب کاربری جعلی در یاهو می‌ساختند تا از آن‌ها برای ارسال نامه‌های هرزنامه (Spam) استفاده کنند. یاهو در حال غرق شدن در دریایی از ربات‌ها بود و به یک راهرو ورودی نیاز داشت که فقط انسان‌ها بتوانند از آن عبور کنند.

در دانشگاه کارنگی ملون (Carnegie Mellon)، یک دانشجوی جوان و نابغه گواتمالایی به نام «لوئیس فون آن» (Luis von Ahn) به همراه استاد راهنمایش، تصمیم گرفتند این مشکل را حل کنند. آن‌ها به یک اصل ساده در علوم کامپیوتر تکیه کردند: ماشین‌ها (در آن زمان) در خواندن متن‌های مخدوش و تغییر شکل یافته بسیار ضعیف بودند، در حالی که مغز انسان با قابلیت‌های شگفت‌انگیز الگویابی خود، به‌راحتی می‌توانست حروف کج و تار را تشخیص دهد.

آن‌ها برنامه‌ای ساختند که به‌طور تصادفی حروفی را تولید می‌کرد، آن‌ها را مخدوش می‌ساخت و از کاربر می‌خواست آن‌ها را تایپ کند. این سیستم با نام طولانی و مخفف CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) متولد شد. مشکل یاهو حل شد و کپچا به سرعت به استاندارد طلایی امنیت در سراسر اینترنت تبدیل گردید.

یک کشف تکان‌دهنده: وقتی زمان بشریت به هدر می‌رود

تا سال 2006، اختراع «فون آن» در سراسر اینترنت پخش شده بود. روزانه میلیون‌ها نفر در حال حل کردن کپچاها بودند. اما این موفقیت برای خالق آن تبدیل به یک عذاب وجدان مهیب شد.

فون آن یک محاسبه ریاضی ساده انجام داد: در آن زمان روزانه حدود 200 میلیون کپچا در سراسر جهان تایپ می‌شد. حل کردن هر کپچا حدود 10 ثانیه از وقت یک انسان را می‌گرفت. با یک ضرب ساده، او متوجه شد که روزانه بیش از 500,000 ساعت از زمان مفید بشریت صرف تایپ کردن حروف بی‌معنی می‌شود! او احساس می‌کرد که ناخواسته بزرگترین هدردهنده زمان در تاریخ بشر را خلق کرده است.

با ذهنیت یک مهندس خلاق، او از خود پرسید: «چگونه می‌توانم از این نیم میلیون ساعت در روز، برای انجام یک کار مفید استفاده کنم؟ آیا می‌شود این انرژی عظیم انسانی را که برای اثبات هویت هدر می‌رود، به سمت یک هدف سازنده هدایت کرد؟» پاسخ این سوال، مسیر حفظ تاریخ مکتوب جهان را تغییر داد.

پروژه ری‌کپچا (reCAPTCHA): تبدیل مزاحمت به نیروی کار جهانی

همزمان با دغدغه‌های فون آن، پروژه‌های عظیمی در جهان برای دیجیتالی کردن کتاب‌های قدیمی و بایگانی روزنامه‌ها در جریان بود. فرآیند کار اینگونه بود که صفحات کتاب‌ها اسکن می‌شدند و سپس یک نرم‌افزار تشخیص نوری کاراکتر (OCR) تصاویر را به متن‌های دیجیتال و قابل جستجو تبدیل می‌کرد. اما OCR ها یک نقطه ضعف بزرگ داشتند: وقتی صفحات کتاب قدیمی، زرد شده، جوهر آن پخش شده یا کلمات محو بودند، نرم‌افزار نمی‌توانست کلمه را بخواند. در یک کتاب قدیمی، معمولاً کامپیوتر حدود 20 درصد از کلمات را نمی‌فهمید و آن‌ها را به‌صورت علامت سوال یا کلمات نامفهوم ثبت می‌کرد.

فون آن متوجه شد کاری که کامپیوترها در خواندن کتاب‌های قدیمی نمی‌توانند انجام دهند، دقیقاً همان کاری است که انسان‌ها هر روز در هنگام حل کردن کپچا انجام می‌دهند!

اینجا بود که سیستم جدیدی به نام reCAPTCHA (ری‌کپچا) متولد شد. در این سیستم جدید، به جای اینکه کامپیوتر حروف تصادفی و بی‌معنی تولید کند، دو کلمه را به کاربر نشان می‌داد. یکی از کلمات، کلمه‌ای بود که نرم‌افزار OCR آن را می‌شناخت (کلمه کنترل) و کلمه دوم، برشی از اسکن یک کتاب قدیمی بود که کامپیوتر نتوانسته بود آن را بخواند (کلمه ناشناخته).

سیستم می‌دانست کلمه اول چیست؛ بنابراین اگر کاربر کلمه اول را درست تایپ می‌کرد، سیستم فرض را بر این می‌گذاشت که کاربر انسان است و احتمالاً کلمه دوم را نیز درست تایپ کرده است. وقتی ده کاربر مختلف در سراسر جهان، آن کلمه ناشناخته را به یک شکل تایپ می‌کردند، سیستم آن را به‌عنوان کلمه صحیح تایید می‌کرد و به بایگانی دیجیتال کتاب می‌فرستاد. به همین سادگی، شما بدون اینکه بدانید، در حال ترجمه متون باستانی برای کامپیوترها بودید!

ورود غول مرحله آخر: خرید توسط گوگل و بایگانی تاریخ

نوآوری ری‌کپچا آنقدر درخشان بود که روزنامه معتبر نیویورک تایمز (New York Times) بلافاصله با فون آن قرارداد بست تا تمام بایگانی ۱۳۰ ساله روزنامه خود را (از سال 1851 به بعد) با کمک کاربران اینترنت دیجیتالی کند.

اما این فقط آغاز ماجرا بود. در سال 2009، شرکت گوگل (Google) که در حال اجرای پروژه جاه‌طلبانه Google Books برای دیجیتالی کردن تمام کتاب‌های چاپ شده در تاریخ بشر بود، پتانسیل عظیم ری‌کپچا را درک کرد و کل این شرکت را خریداری نمود.

از آن روز به بعد، هر بار که شما در سایتی یک کپچای دو کلمه‌ای را حل می‌کردید، در واقع در حال کمک به گوگل برای خواندن خطوط کتاب‌های قرن نوزدهمی بودید. قدرت این سیستم شگفت‌انگیز بود. در اوج دوران ری‌کپچای متنی، کاربران اینترنت روزانه حدود 100 میلیون کلمه معادل بیش از 2.5 میلیون کتاب در سال را برای گوگل تایپ و دیجیتالی می‌کردند. هیچ شرکتی در جهان نمی‌توانست این تعداد نیروی انسانی را برای چنین کار عظیمی استخدام کند، اما گوگل توانسته بود کل جمعیت اینترنت را به رایگان به خدمت بگیرد.

تکامل به تصاویر: آموزش هوش مصنوعی برای آینده

با گذشت زمان و پیشرفت نرم‌افزارهای OCR، کامپیوترها در خواندن متون آنقدر ماهر شدند که حتی متن‌های کج و مخدوش ری‌کپچا را بهتر از انسان‌ها می‌خواندند. در واقع، در سال 2014، گوگل اعلام کرد که الگوریتم‌های هوش مصنوعی این شرکت می‌توانند سخت‌ترین کپچاهای متنی را با دقت 99.8 درصد حل کنند! کپچای متنی دیگر برای اثبات انسانیت کافی نبود.

گوگل به سرعت استراتژی خود را تغییر داد و ری‌کپچای تصویری را معرفی کرد. از شما خواسته می‌شد: «تمام تصاویری که در آن‌ها خط عابر پیاده، چراغ راهنمایی، شیر آتش‌نشانی یا اتوبوس وجود دارد را انتخاب کنید».

آیا فکر می‌کنید انتخاب این تصاویر تصادفی بود؟ خیر. همزمان با این تغییر، گوگل در حال توسعه پروژه ماشین‌های خودران خود (که امروزه با نام Waymo شناخته می‌شود) و همچنین بهبود سیستم Google Street View بود. ماشین‌های خودران برای حرکت در خیابان‌ها باید یاد می‌گرفتند که چراغ راهنمایی از زوایای مختلف چگونه به نظر می‌رسد، خط عابر پیاده در هوای بارانی چه شکلی است و تفاوت یک دوچرخه‌سواری با یک موتورسوار چیست.

بار دیگر، شما به‌عنوان نیروی کار وارد میدان شدید. با هر کلیکی که روی تصاویر چراغ راهنمایی می‌کردید، در واقع به شبکه عصبی ماشین‌های خودران گوگل آموزش می‌دادید که چگونه خیابان‌ها را ببینند و درک کنند. شما بینایی کامپیوتری (Computer Vision) را برای یکی از ثروتمندترین شرکت‌های جهان ارتقا می‌دادید.

نکات و حقایق درباره دنیای کپچا

خالق دو زبانه: لوئیس فون آن، پس از موفقیت کپچا و فروش آن به گوگل، تصمیم گرفت از همان ایده جمع‌سپاری برای آموزش زبان استفاده کند. او شرکت Duolingo را تاسیس کرد که امروزه محبوب‌ترین اپلیکیشن یادگیری زبان در جهان است.
سوءاستفاده‌های عجیب: در دوران اوج کپچاهای متنی، برخی از هکرها وب‌سایت‌هایی غیرقانونی (مانند سایت‌هایی که خودتون بهتر می‌دونید) تاسیس می‌کردند و برای ورود به آن‌ها، کپچاهای سایت‌های دیگر را به کاربران نشان می‌دادند. به این ترتیب، کاربران سایت هکر بدون اینکه بدانند، کپچای یک سایت دیگر را برای هکر حل می‌کردند!
کپچای نامرئی (reCAPTCHA v3): امروزه گوگل نسخه‌ای از کپچا را معرفی کرده است که حتی نیازی به کلیک کردن ندارد. این سیستم با بررسی رفتار شما در وب‌سایت، حرکت ماوس و نحوه تعامل شما با صفحه، در پس‌زمینه تشخیص می‌دهد که شما انسان هستید یا ربات.

جمع‌بندی: ارواح انسانی در کالبد ماشین‌ها

داستان کپچا، داستانی فراتر از امنیت سایبری است. این روایت، بازتابی از تعامل پیچیده انسان و ماشین در قرن بیست و یکم است. ما سال‌ها با کلافگی به کلمات کج و تار نگاه کردیم و به تصاویر تاریک چراغ‌های راهنمایی زل زدیم، تنها با این هدف که ثابت کنیم یک ماشین نیستیم. اما طنز باشکوه ماجرا اینجاست که در مسیر اثبات انسانیت خود، ما به بزرگترین معلم ماشین‌ها تبدیل شدیم.

ما کتاب‌هایی را از خطر نابودی در انبارهای تاریک نجات دادیم و آن‌ها را به حافظه ابدی اینترنت سپردیم. ما به چشمان الکترونیکی ماشین‌های خودران یاد دادیم که چگونه جهان را ببینند. دفعه بعد که اینترنت از شما خواست با انتخاب چند تصویر ثابت کنید که ربات نیستید، به جای کلافگی، لحظه‌ای درنگ کنید؛ شما در آن لحظه، یک کارگر بی‌نام و نشان در خط تولید عظیم تکامل تکنولوژی هستید که دارید تاریخ را رقم می‌زنید.

منبع :

حتما بخوانید : بحران تراشه‌های حافظه؛ قیمت گوشی‌های سامسونگ احتمالاً ۱۰۰
یورو افزایش پیدا می‌کند