皇马对阵莱加内斯
首頁    新知云集    【AI】第四次工業革命:人工智能入門
煙草人工智能

【AI】第四次工業革命:人工智能入門

“過去10年我們在忙于打造移動為先的世界。未來10年,我們將步入AI為先的世界。”(谷歌CEO Sundar Pichai,2016年10月)

從亞馬遜到Facebook,再到谷歌和微軟,全球最頂尖、最有影響力的技術公司都將目光轉向了人工智能(AI)。AI到底是什么?為何如此重要?為何現在變得重要?雖然人們對AI的關注與日俱增,但對該領域有著充分理解的依然僅僅只是業內專家。本文意在讓更多人了解這一重要的前沿領域。

本文首先會介紹“AI”的含義以及包括“機器學習”在內的一些關鍵詞。我們將介紹“深度學習”這一最有成效的AI分支是如何實現的。同時還會介紹AI試圖解決的問題以及這些問題的重要性。最后,我們還將深入介紹為何早在二十世紀五十年代就已誕生的AI這一概念直到今天才開始逐漸成熟。

作為風險投資人,我們需要緊跟能為消費者和企業創造價值的新興趨勢。我們認為AI是計算領域的一次革命,其重要性甚至遠遠超過移動或云計算。“這實在難以用言語表達,”亞馬遜CEO Jeff Bezos寫道:“未來20年里,人工智能對全社會產生的影響將大到難以想象。”希望本文可以破除各種喧囂炒作,向消費者或企業高管,以及創業者和投資人解釋這一新興趨勢如此重要的原因。

1. AI是什么?

人工智能:研究智能程序的科學

“人工智能(AI)”這個詞由達特茅斯大學助理教授John McCarthy在1956年提出,作為一種統稱,AI可用于指代可體現出智能行為的硬件或軟件。按照McCarthy教受的說法,這是一種“可以制造出智能的機器,尤其是智能的計算機程序的科學和工程。”

最基本的AI早在幾十年前就已誕生,當時的AI可通過基于規則的程序,在某些特定情境中體現出最基本的“智能”。然而這類技術的發展一直受到各種限制,因為足以應對現實世界中各種問題所需的算法實在是太過復雜,很難由人工編程的方式實現。

這里所謂的復雜的活動包括做出醫學診斷、預測機器故障時間或衡量某些資產的市值,這些行為中往往涉及數千種數據集和大量變量之間的非線性關系。這種情況下通常難以通過現有數據獲得最佳效果,即對我們的預測進行“優化”。對于其他一些情況,例如識別圖片中的物體以及翻譯語言,此時我們甚至無法開發出用于描述所需“功能”的規則。例如,我們該如何通過編寫一系列規則,使得程序能在任何情況下描述出一只狗的外觀?

如果能將做出各種復雜預測的困難工作,即數據優化特征(Feature)規范?,從程序員身上轉嫁給程序,情況又會怎樣?這正是現代化人工智能帶給我們的承諾。

機器學習:承擔優化任務

機器學習(ML)是AI的一個子集。所有機器學習都是AI,但并非所有AI都是機器學習(圖上圖1)。當今人們對AI的興趣主要體現在對機器學習技術的關注中,使得這一技術快速獲得了顯著進步。

機器學習使得我們可以將某些沉重的工作交給算法處理,進而解決相對于人類來說過于復雜的問題。AI分支的先驅Arthur Samuel在1959年曾經寫到,機器學習是“一種能夠讓計算機在無須進行有針對性的編程情況下,自行獲得學習能力的學科領域。”

大部分機器學習技術的目標在于針對特定用例開發一種預測引擎。算法負責接收有關特定領域(例如某人過去看過的所有電影)的信息,通過對輸入的信息進行權衡做出有用的預測(此人未來觀看其他種類電影的可能性)。通過實現讓“計算機自行學習的能力”,我們可以將優化方面的任務,即對可用數據中的不同變量進行權衡,進而面向未來做出精確的預測,交給算法負責。有時候甚至可以更進一步,將“需要考慮的未來”這種初步決策也交給程序處理。

機器學習算法可通過訓練進行學習。最開始,可以為算法提供輸出結果為已知的樣本數據,并將實際結果與預測結果的差異進行對比,隨后對所輸入內容的權重進行調優,借此改善預測結果的精確度,直到最終獲得優化。因此機器學習算法的界定性征(Defining characteristic)就在于通過經驗對預測結果進行改善所能取得的質量。我們提供的數據越多(通常大到某種臨界點),就能創建出越好的預測引擎(如下圖2和圖3,需要注意,所需數據集的規模嚴重取決于具體情境,但無法從下列范例中加以概括。)

目前機器學習方法已經超過15種,每種都可以使用不同的算法結構通過收到的數據對預測進行優化。作為其中的一種方法,“深度學習”在很多全新領域實現了突破性的結果,下文將詳細介紹。算法其實還有很多,其他算法雖然不像深度學習那樣獲得了最為廣泛的關注,但也有自己的價值,因為可以適用于更廣泛的用例中。除了深度學習,其他最實用的機器學習算法還包括:

  • Random forests(隨機叢林)”,通過創建大量決策樹對預測進行優化;

  • Bayesian networks(貝葉斯網絡)”,使用基于概率的方法分析變量和變量之間的關系,以及

  • 支持向量機(Vector machine)”,可通過多種分類樣本并創建模型將新的輸入內容分配給某一分類。

每種方法各有利弊,并能混合使用(一種“綜合”方法)。針對特定問題選擇哪種算法,主要取決于各種因素,包括可用數據集的本質特征等。實際上開發者通常趨向于通過多種實驗確定最佳算法。

機器學習技術的用例因具體需求和想象力而各不相同。只要有合適的數據,我們就可以為無數用途構建所需的算法,例如:根據購買記錄推薦顧客可能愿意購買的產品,預測汽車組裝流水線上的機械手什么時候會故障,預測郵件地址是否輸入有誤,估算某筆信用卡交易存在欺詐情況的可能性等。

深度學習:開始處理特征規范

就算借助通用用途的機器學習(隨機叢林、貝葉斯網絡、支持向量機等),編寫能良好執行某類任務的程序這也是一項困難的工作,從語言的理解到圖片中物體的識別不出其外。為什么?因為我們無法用足夠實用并且可靠的方式明確指定所要優化的特征。舉例來說,如果希望編寫能識別車輛圖片的計算機程序,我們根本不能通過為算法指定車輛特征的方式確保在任何情況下均能獲得正確的識別結果。車輛有著不同的外形、尺寸和顏色,車輛的位置、朝向以及具體形態也多種多樣。背景、光照,以及眾多其他因素都會對物體的外觀產生影響。此時若要編寫規則,需要考慮的變化實在是太多了。就算可以做到這一切,整個解決方案的縮放能力也會受到極大限制:我們必須為打算識別的每個類型的物體分別編寫一套程序。

擁抱深度學習(DL)吧,該技術讓人工智能領域產生了脫胎換骨的革新。深度學習是機器學習的一個子集,也是超過15種不同方法之一。所有深度學習均為機器學習,但并非所有機器學習均為深度學習(見下圖4)。

深度學習很有用,避免了程序員不得不自行處理特征規范(定義要在數據種分析的特征)或優化(如何對數據進行權衡以提供更精確的預測)的麻煩,這些可交給算法來做。

這是如何實現的?深度學習的突破之處在于對大腦,而非整個世界進行建模。人類的大腦會學著做各種困難的事,例如理解語音和識別物體,這并不是通過事無巨細的規則實現的,而是通過各種實踐和反饋實現。孩提時期,我們會逐漸開始探索整個世界(例如看到一張汽車的圖片),做出預測(“看,汽車!”),并收到反饋(“你說的沒錯!”)。并不需要各種瑣碎的規則,我們可以通過訓練自行學習。

深度學習使用了類似的方法。人工制造的僅僅是基于軟件的計算器,借此模擬出與大腦中神經元相互連接后所實現的類似功能。通過這種計算機組成一個“神經網絡”,接受輸入(繼續上文的例子,一張汽車的圖片),對輸入的內容進行分析進而做出判斷,并了解自己的判斷是否正確。如果輸出結果是錯誤的,將由算法對神經元之間的連接進行調教,進而改變后續的預測。最初這個網絡可能會經常犯錯,但隨著我們向TA提供數百萬個樣本,神經元之間的連接將獲得調優,使得整個神經網絡能在幾乎所有情況下做出正確的判斷。實踐出(近似的)真知。

通過這種過程,隨著效果日漸好轉,現在我們已經可以:

  • 識別圖片中的元素;

  • 實時進行兩種語言的互譯;

  • 通過語音命令控制設備(例如蘋果的Siri、Google Now、亞馬遜Alexa,以及微軟小娜);

  • 預測基因變異對DNA轉錄的影響;

  • 分析客戶評論中的情緒;

  • 檢測醫療影像中的腫瘤等。

深度學習并不能用來解決所有問題。這種方式通常需要用極大量的數據集進行訓練。神經網絡的訓練和運行需要投入大量計算處理能力,此外這種方法還存在“可解釋性”方面的問題:可能很難知道某個神經網絡的預測能力是如何發展起來的。但因為能將開發者從復雜的特征規范任務中解脫出來,深度學習已經可以為各種重要問題提供非常成功的預測引擎。因此深度學習已經成為AI開發者手中一款強大的利器。

2. 深度學習是如何工作的?

鑒于其重要性,我們有必要對深度學習的工作原理有所簡單理解。深度學習需要使用人造的“神經網絡”,這是一種相互連接的“神經元”(基于軟件的計算器)的集合。

人造的神經元可以接受一種或多種輸入。神經元會針對輸入結果執行數學運算,并產生可輸出的結果。輸出的結果取決于每類輸入的“權重”以及神經元的“輸入-輸出函數”配置(見下圖5)。輸入-輸出函數各異。神經元可以是:

  • 一種線性單位(Linear unit),輸出結果與輸入總權重成比例;

  • 一種閾值單位(Threshold unit),輸出結果為兩個級別中的一種,取決于總輸入是否高于某一特定值;或

  • 是一種S形單位(Sigmoid unit),輸出結果頻繁變化,而不像輸入那樣呈線性變化的態勢。

多個神經元相互連接組成了神經網絡,一個神經元的輸出可以成為另一個神經元的輸入(見下圖6)。

神經網絡可通過組織整理呈現為多層次神經元(這也是“深度”這個詞的由來)。其中“輸入層”負責接收將由網絡處理的信息,例如一組圖片。“輸出層”負責提供結果。輸入和輸出層之間還有“隱藏層”,大部分活動均在這一層中發生。通常來說,神經網絡上每一層神經元的輸出內容均可成為下一層神經元的輸入內容之一(見下圖7)。

用圖像識別算法作為例子來看看吧。假設要識別圖片中的人臉。將數據裝入神經網絡后,第一層負責識別局部對比模式,例如圖片邊緣,這是一種“底層”特征。隨著圖片在整個網絡中流動,逐漸提取出“高層”特征,例如從邊緣到鼻子,再從鼻子到面孔(見下圖8)。

在輸出層方面,根據訓練效果,神經網絡會就圖片是每種特定類型的可能性給出概率(人臉:97%;氣球:2%;樹葉:1%)。

通常來說,神經網絡的訓練過程需要使用大量已經進行過分類的樣本。隨后算法會通過檢測出的錯誤和神經元之間的連接權重進行調整,借此改善效果。優化過程的重復性極高,訓練完成后即可部署系統并對未分類圖片進行評估。

上文描述的是一種很簡單的神經網絡,實際上神經網絡的結構可能各異,并且大部分都非常復雜。各種常見變體包括:同層神經元之間的不同連接,每層神經元數量的變化,以及將神經元的輸出結果流向前一層網絡(“遞歸”神經網絡)的連接。

神經網絡的設計和完善需要投入相當多的技能。例如針對特定應用調整網絡結構,提供適宜的訓練數據集,根據進展調整網絡結構,以及多種方法的混合使用等。

3. 為何AI如此重要?

AI如此重要,原因在于這種技術可以順利解決以往看來極為困難的問題,而這些問題的解決方案能夠應用于關乎人類福祉的重要領域:健康、教育、商業、運輸、公共事業、娛樂…… 自二十世紀五十年代開始,人們對AI的研究主要側重于下列五大領域的“查詢”:

  1. 推論(Reasoning):通過邏輯推理解決問題的能力。

  2. 知識(Knowledge):運用人類知識的能力(了解現實世界中的某些實體、事件以及情況,并了解到這些元素有不同的屬性,并且這些元素可以進行分類)。

  3. 規劃(Planning):設置并實現目標的能力(世界存在一種特定的未來預期狀態,以及通過采取一系列行動最終推動世界向著這種狀態發展的結果)。

  4. 交流(Communication):理解書面和口頭語言的能力。

  5. 感知(Perception):通過視覺圖像、聲音和其他傳感器輸入推演出世間物件的能力。

AI蘊含著重大的價值,因為在很多情境下,這些能力方面取得的最新進展往往能催生出顛覆性(Revolutionary),而不僅僅是逐漸演變而來(Evolutionary)的其他能力。例如下文列舉了AI的部分(遠非全部)應用范例:

  1. 推論:法律評估、金融資產管理、金融應用處理、游戲、自主武器系統。

  2. 知識:醫學診斷、藥品研發、媒體推薦、購買預測、金融市場交易、欺詐檢測。

  3. 規劃:物流、調度、導航、物理和數字化網絡優化、預防式維護、需求預測、庫存管理。

  4. 交流:語音控制、智能代理/助理/客戶支持、實時翻譯書面和口頭語言、文字實時轉錄。

  5. 感知:自動駕駛機動車、醫學診斷、安防監控。

未來幾年里,機器學習能力將被運用于幾乎所有領域的各種過程中。以企業中的某一個職能為例,例如公司內部的人力資源(HR)活動,即可在下列不同過程中運用機器學習技術:

  • 通過更完善的目標定位、更智能的崗位匹配,以及部分程度上自動化實現的評估改善人員招募過程;

  • 通過對個人需求和可能出現的缺席進行預測式規劃,改善員工管理能力;

  • 通過向員工提供更有針對性的培訓內容建議,實現更有效的員工學習活動;以及

  • 通過預測重要員工可能存在離職風險降低員工流失率。

隨著時間的發展,我們期待著機器學習能變成常態。機器學習遲早會成為開發者人手必備的工具,最初也許只能對現有過程進行改善,但有朝一日將實現徹底的革新。

機器學習的深遠影響遠遠勝過這些直接產生的影響。深度學習已經讓計算機視覺獲得了突飛猛進的提高,例如目前的自動駕駛機動車(轎車和卡車)均已變為現實。但會產生怎樣的影響?以目前的英國為例,90%的人員和80%的貨物運輸是在道路上進行的,僅自動駕駛機動車本身就能產生下列影響:

  • 安全性(90%的機動車事故源于駕駛員注意力不集中);

  • 就業(英國的貨運和物流行業員工總數為220萬人,年薪總和約為570億英鎊);

  • 保險(Autonomous Research預計經過一段時間后英國的機動車保險保費總額將減少63%);

  • 經濟(消費者更愿意按需獲得交通服務,而非自行購置機動車);

  • 機動車生產量、城市規劃、規章制度……

4. 為何AI直到今天才開始成熟?

有關AI的研究始于二十世紀五十年代,經歷過數次虛假的“黎明期”后,為何現在才迎來拐點?由于新算法的陸續完善,所適用數據的大幅豐富,用于訓練的硬件日益強大,以及云服務對開發者接受度的逐漸催化,AI的實際運用效果在近些年有了大幅改進。

1. 算法的改進

雖然深度學習算不上一種新技術(早在1965年就有人提出了第一個實際有效的多層神經網絡規范?),但最近十年來深度學習算法的革新催生出了截然不同的結果。

識別圖像中物體的能力隨著卷積神經網絡(CNN,Convolutional Neural Network)的發展產生了突飛猛進的提高(如下圖9)。受到動物視覺腦皮層工作原理啟發設計而來的CNN中,神經網絡中的每一層均可充當判斷特定模式是否存在所用的篩選器。2015年,微軟基于CNN的計算機視覺系統在對圖片中物體進行識別方面實現了比人類更高的準確度(計算機:95.1%;人類:94.9%)。“據我們所知,”他們寫到:“我們的測試結果是計算機戰勝人類的首例。”CNN還可應用于視頻和語音識別等更廣泛的領域。

與此同時,隨著遞歸神經網絡(RNN,Recurrent Neural Network)的誕生,語音和手寫識別方面也取得了飛速進展(見下圖10)。不同于卷積神經網絡僅“向下饋送”的運作方式,RNN可通過反饋連接讓數據呈環路流動。RNN還出現了一種更強大的新類型:長短期記憶(LSTM,Long Short-Term Memory)模型。在額外的連接和內存“細胞(Cell)”的幫助下,RNN可以“記住”自己在數千步操作之前看到的數據,并使用這些數據對后續需要關注的內容進行解釋:這一特性對語音識別產生了巨大的幫助,因為對下一個詞的理解通常會受到之前所處理詞匯的影響。從2012年開始,谷歌就在使用LSTM驅動Android中的語音識別系統。就在六周前,微軟工程師稱他們的系統實現了低至5.9%的單詞錯誤率,這是有史以來首次接近人類能力的水平。

2. 專用硬件

圖形處理器(GPU)是一種特殊設計的電子電路,可大幅縮短為深度學習訓練神經網絡所需的時間。

現代化的GPU最初誕生于二十世紀九十年代末,當時主要是為了為3D游戲和3D開發應用程序進行加速。在3D環境中平移或縮放鏡頭需要重復用到一種名為矩陣計算的數學運算過程,串行架構的微處理器,包括當今大部分計算機所用的CPU很不適合用來處理此類任務。為了更高效地執行矩陣計算,GPU通常會使用大規模并行架構來制造(Nvidia M40包含3,072個內核)。

神經網絡的訓練會涉及大量矩陣計算。因此人們發現原本針對3D游戲設計的GPU其實很適合用來對深度學習過程加速。這樣做獲得了巨大的收效:一顆GPU即可讓神經網絡的訓練時間縮短5倍,針對一些比較大規模的問題甚至可實現10倍甚至更高的加速。在配合針對深度學習框架進行優化的軟件開發工具包之后,甚至還可以進一步加快訓練速度(見下圖11)。

3. 廣博的數據

深度學習所用的神經網絡通常需要用大量數據集進行訓練,樣本數量從數千起步,甚至可高達數百萬。好在數據的創建速度和可用性也經歷了指數形式的增長。今天,隨著我們步入“第三波”數據時代,人類平均每天會生成2.2EB(23億GB)數據,全球數據總量中有90%是過去24個月內創建的。

“第一波”的數據創建時代始于二十世紀八十年代,當時創建的主要是文檔和事務數據,這一時期還在可聯網臺式計算機的普及過程中獲得了催化。隨后“第二波”數據時代,在可聯網智能手機的推動下,誕生了大量非結構化媒體數據(郵件、照片、音樂、視頻)、Web數據,以及各種元數據。今天我們正在步入數據的“第三個時代”,工業設施和家庭中部署的機器傳感器創造了更多監視用數據、分析用數據,以及更多元數據。

考慮到今天我們所創建的大部分數據都會通過互聯網傳輸,日益膨脹的互聯網流量也開始充當人類海量數據生成過程中的代理。1992年,全人類每天平均傳輸100GB數據,但到2020年,我們將每秒傳輸61,000GB數據(見下圖12,請注意尺度的變化)。

除了通用數據的富足,專用數據資源也在機器學習的推動下與日俱增。例如ImageNet是一個免費提供的數據庫,其中已經包含超過1千萬張手工分類的圖片。該資源的誕生也對深度學習算法物體分類能力的發展起到了推波助瀾的效果。

4. 云服務

開發者對機器學習的運用還受到云端機器學習基礎架構和業界領先云供應商所提供服務的推動。

谷歌、亞馬遜、微軟,以及IBM均提供了云端基礎架構(用于構建和迭代模型的環境,提供可縮放“GPU即服務”產品,并提供其他相關托管服務),這也使得機器學習能力的開發成本和難度大幅降低。

此外他們還提供了正在飛速發展的一系列云端機器學習服務,開發者可將其(從圖像識別到語言翻譯)直接用于自己的應用程序內。谷歌的機器學習服務針對下列領域提供了易于訪問的服務:視覺(物體識別、顯性內容檢測、人臉檢測、圖像情緒分析);語音(語音識別和語音到文字轉換);文字分析(實體識別、情緒分析、語言檢測和翻譯);以及職員工作搜索(機會呈現和基于資歷的匹配)。微軟認知服務也提供了涵蓋視覺、語音、語言、知識和搜索等領域的超過21種服務。

5. 興趣和創業者

公眾對AI的興趣在過去五年里增加了六倍(見下圖13),風投公司對AI公司的注資金額也有了顯著增長(見下圖14)。我們已經進入了一種良性循環的境地,機器學習的進一步發展正在繼續吸引投資、創業者,以及社會各界的關注。尤其是后者,對機器學習的未來發展意義重大。

5. 接下來會怎樣?

機器學習能帶來數量眾多、意義重大的收益。很多收益是看得見的,從無人駕駛機動車到新的人機交互方式等。還有一些收益雖然不那么明顯,但也會對日常業務流程和消費者服務提供更強大的能力和效率。

與任何范式轉變過程一樣,有時過高的期望可能會超出短期內所能實現的潛力。我們期待著未來某一時刻,人們對AI的幻想能夠徹底幻滅,隨之而來的將會是長期、持續的價值認可,因為機器學習已經被用于改善并革新現有的系統。

在歷史上,工業革命曾通過新的電力和傳送方式改變了生產和交流方法。第一次工業革命在十八世紀八十年代使用蒸汽機驅動了機械化的生產過程;第二次工業革命在十九世紀七十年代使用電力推動了商品的大規模量產;第三次工業革命在二十世紀七十年代使用電子和軟件技術實現了生產和交流的自動化。今天,隨著軟件逐漸“蠶食”整個世界,我們創造價值的主要來源已成為信息本身的處理。通過用更智能的方式完成這樣的工作,機器學習將低調地為我們帶來效益和歷史意義。

作者David Kelnar閱讀英文原文The fourth industrial revolution: a primer on Artificial Intelligence (AI)


本網站由阿里云提供云計算及安全服務 Powered by CloudDream
皇马对阵莱加内斯 篮球让分胜负刚好 4月20贵州11选5开奖结果 精准在线计划 3d走势图(带线专业版) 浙江2o选5开奖走势图 广东快乐十分竖屏走势 足彩胜平负数据 湖北11选5开奖 幸运农场公式计算 云南时时历史开奖 11选5复式 重庆五星基本走势图