驗證圖根本不是在辨識機器人 每點一次其實是「幫Google訓練AI」

我們在網站上經常會看到一些奇怪扭曲的字母和數字驗證碼,雖然大家都知道這是為了防止機器人腳本的方式,可是相信沒有人會喜歡這樣的東西吧!不過其實你又是否知道,如今這些驗證碼如:填寫方塊中的文字、挑出路牌、門牌等等任務,除了證明自己是個真人之外,還有著其他的功能,能夠在不知不覺中會構成強大的計算能力!

 

▼相信許多時候人在使用Google服務時都會遇到類似的驗證題目,其實這些驗證方式還有另一種功能:幫忙訓練AI!其實這樣的說法並不是異想天開,其實早在多年前我們還在使用文字驗證碼時,這種「義務勞動」早就在不知不覺中進行了。

 

如今應用層面最廣泛的驗證碼系統是 reCAPTCHA (Completely Automated Public Turing Test To Tell Computers and Humans Apart,區分人機的全自動圖靈測試系統),如今這家公司已經被Google所收購,也承擔了世界上大部分網站的驗證工作。

 

▼在2007年時有一個急需解決的問題,那就是將人類所有紙本典籍都數位化。可是如果使用手工方式來輸入,不僅耗時耗力,還容易出現錯誤;使用掃描和光學文字辨識系統的話,有些年代較為久遠或者印刷品質比較差的作品就無法完全辨識,於是發明 reCAPTCHA 驗證碼的卡內基梅隆大學教授路易斯·馮·安(Luis von Ahn)在當時突然有了一個想法:「能不能利用驗證碼系統,讓人類和機器共同解決問題呢?」

 

為了解決這個問題,路易斯在2007年推出了驗證碼系統 reCAPTCHA ,剛開始是由兩個部分組成,第一部分是自動生成並且經過變形處理的文字,第二部分則是從無法辨識的文本中截取出來的詞。如果使用者正確輸入了第一部分,系統會假設使用者第二部分的輸入也是正確的,把輸入結果返回至 reCAPTCHA 的專案主機,之後還會把這個結果再派發給多個用戶進行交叉驗證,以確保沒有不小心或故意輸錯單字的情況。

 

▼使用了這個方式後,透過掃描無法辨識的字體有了解決方法,在2007年reCAPTCHA 每天都能幫助輸入3000 萬個字元,到了2008年後字元數目提高到了6000萬個,根據粗略的猜想,如今reCAPTCHA每天都能夠登錄2億個字元,相當於一個人類15萬小時的工作量,一個人要不吃不喝不睡兩年半才能完成 reCAPTCHA 一天的工作量。

 

2009年,Google將 reCAPTCHA 收購,並利用其功能來幫忙標註數據。到了2012年,Google開始將Google街景當中難以辨識的路牌、門牌、車牌等圖片加入驗證碼當中,讓用戶來幫忙標註。在經過全球用戶的無償幫助下,如今Google AI 已經能精確辨認路牌上的文字和數字,準確度幾乎和人眼不相上下。

 

▼如果有一天Google真的開發出了自己的自動駕駛技術,其AI用來辨識路牌、門牌的方式就是靠著我們這些用戶訓練出來的。而Google 也並不避諱這個目的,在reCAPTCHA 的官網上Google也已經公開說明這是一種集眾人之力標註數據、訓練 AI 的「群眾外包」模式。

 

原來我們在網路上看到的許多奇怪文字、圖像等等,都是為了訓練AI無法辨識的狀況而出現的,全球的使用者都在無償的為AI進行「特訓」,難怪如今的辨識系統會越來越強大了!

來源:網路資料