【人工智慧】走進生活的人工智慧:美總統大選預測、心理疾病治療、翻轉教育

【人工智慧】走進生活的人工智慧:美總統大選預測、心理疾病治療、翻轉教育

早安。

如果能夠提早掌握(1)美國總統的當選人,(2)有自殺傾向的親友,跟(3)最適合自己兒女的教育方式,你覺得有多少價值?

想必是無比巨大的價值。而這就是各大企業紛紛投入開發人工智慧與數據的原因 — 為了在下一波競爭中搶到先機。

-- 周欽華

閱讀時間 11 分鐘。

印度人工智慧預知川普當選,精準數據是預測成功的決定性關鍵

印度人工智慧系統 MogIA 在今年十月預測川普勝選。MoglA 比較臉書、Twitter 與 YouTube 等平台上的 2,000 萬筆資料,分析使用者參與程度(user engagement)。結果顯示社群媒體的參與程度比 2008 大選時高,川普也比當時的歐巴馬受歡迎。MogIA 連續成功預測三屆美國大選結果。Link

趙國仁(大數據顧問):

竹外桃花三兩枝,春江水暖鴨先知。
簍篙滿地蘆芽短,正是河豚欲上時。《春江晚景》— 宋·蘇軾

宋朝並沒有大數據,卻可以預測何時江水變暖、何時可以吃河豚了!那麼為什麼近年要強調大數據?現在大家在談的大數據,主要有這些特點:

一、來自 Internet 的數據(註)
以前企業主要搜集的是「交易數據」。如果要建立更好的預測模式,通常必須也搜集使用者的「行為數據」。這樣的數據有 4V 的特性 ── 大量(Volume)、快速(Velocity)、多樣化(Variety),以及模糊與錯誤(Veracity)。這也是形成大數據的原因。

二、自動化分析,不需人員介入
不管是亞馬遜的推薦系統,或是網路廣告的競價系統,都需要在極短的時間內進行分析。過程不需要人員介入,完全由自動化模型,根據線上即時資訊進行預測。

分析系統需要就每一位使用者建立個人檔案(Persona)。如果一個網站有數千萬,甚至數億的使用者,每個使用者又有數百到數千個標籤或欄位資料,再加上歷史數據的累積,數據量就會極為龐大。

三、判斷相關性,建立預測模型
所謂的「學習」或「智能」,就是產生因素間的相關性與交互作用的假說(Hypothesis),再用數據來驗證成立或不成立。預測模型(prediction model)的建立,就是進行全面的測試驗證,找到各因素間的最佳化組合與參數值。

每一個假說都需要一定的數據量來測試,才有足夠的信效度。隨著因素個數的增加,需要的數據量與計算量也呈級數增加。這是大數據的威力與可怕之處。

預測模型要準確,數據要有足夠的 Reach(到達率、廣度)和 Richeness(豐富度、預測力)。其中 Reach 代表廣度。除了普選之外,不管是搜集社群資料,還是問券調查而形成的大數據,其實都還是抽樣。抽樣方法的廣度或抽樣偏誤高低,就會影響預測準確性。

Richeness 表示預測力。每一個因素 X 能夠對於目標 Y 的預測能力是不同的。假設要預測使用者是否會下載一個新遊戲,用他過去的下載遊戲紀錄,會比使用他的年齡性別數據來得有效。

預測力高的數據比改善演算法更有效

雖然許多數據科學家會強調演算法的重要。在實務上,能夠搜集到高預測力的數據,往往比單純優化演算法,創造更多價值。

本次美國大選,微軟的 Bing Predicts 也加入預測行列,甚至使用了包含情緒分析的演算法。但可能只基於微軟自己相關網站數據(抽樣偏誤高),或無法精準分析酸民的情緒句,反而弄巧成拙。而 MogIA 就是用到了足夠代表性的因素 ── 各大社群的熱門度 ── 儘管模型可能較簡單,預測結果卻更精準。

「義烏指數」掌握代表性

中國浙江義烏市擁有全球最大的小商品批發市場。這次選舉前,在網路上流傳著一張聊天截圖,判斷川普勝利的根據是「義烏做旗子的說做希拉蕊的很少,川普的多,川普的旗子不要訂金都敢做」。在阿里巴巴國際站上,不管是 T-Shirt、帽子、面具或旗子等商品,川普相關產品的銷售量,都是希拉蕊的十倍以上。

這些候選人商品都是義烏市製造的。美國大選的預測,不太有「自動化」的需求,也不需要對每個使用者進行「個人化」預測,其實不見得需要各種強大的大數據或人工智能,也許只要義烏指數就夠了。

『山不在高,有仙則名。水不在深,有龍則靈』。大數據要能抓對「龍」,而不是在比數據「量」。如果義烏指數有足夠高的 Reach/Richness,抽樣的偏誤低,擁有充足的相關性與解釋力,小數據也能贏過大數據!

DT3-450x479

 

註:網路包含了 Interent、Intranet 和 Extranet,這裡強調 Internet。


機器學習可預測自殺傾向,不是為了取代醫生,而是緩和醫療資源分配問題

美國辛辛那提市兒童醫院醫學中心搜集 379 位病人資料,將病人分成有自殺傾向、有心理疾病但無自殺傾向,以及控制組。透過機器學習分析病人的遣詞用字,以及說話時的語調和情緒,預測其自殺傾向,正確率達 93%。Link

朱軒逸(優拓資訊商業開發師):

傳統心理診療是透過問答,醫師一對一為病患診斷。受限於醫療資源,服務的對象僅限於有經濟能力的民眾。若電腦能分析問答,做出自殺傾向等相關預測,就可以當第一線的心理篩檢,並導入後續的輔導機制。

醫師診療時,通常第一步是問診,再綜合醫療量測的數據及影像,做出診斷,最後決定治療方法。而該自殺傾向研究除了分析受測者與醫師之間的對話外,還分析了非口語的資料。這是利用「深度學習」,透過類神經網路的技術,經過大量資料的訓練後,實現電腦進行自然語言處理(Natural language processing, NLP),讓電腦「聽懂」人類的語言,「看懂」人類的表情。

跨醫學領域整合不易

培育一個專科醫生需要超過十年的時間,要發展 AI 醫生也不容易。試想醫師培育必須學習很多知識,包含基礎醫學、問診邏輯、資料判讀、治療方法,到用藥選擇和手術等。因此,如果想發展出萬能的 AI 醫生,必須先為各種疾病發展出獨特的 AI 模型。這需要投入大量時間與資源。各科別醫師也必須和程式設計師、資料科學家,以及醫療設備專家合作。

目前人工智慧在醫療的發展非常分散。其應用包括本篇介紹的自殺傾向判斷、Google DeepMind 透過眼底影像來判讀糖尿病視網膜病變,以及 IBM Watson 協助醫師建議癌症的治療方法等。這些分散的系統絕非單獨一家公司在短時間內就可以整合。這也是為什麼 Google、臉書、亞馬遜、IBM 和微軟這些充滿競爭關係的企業會願意合組聯盟,共同發展。

AI 醫生減少醫療資源不足問題

我認為 AI 醫生不是想要取代醫生,而是減低醫療資源分配不均的問題。AI 可以讓醫生專注於解決臨床上困難的案例,進一步探索人類健康未知的領域。

過去對於心理疾病的診療,大部分都只透過問答評量,並沒有太多量化的證據。近來科技進步,醫師也開始用腦部影像的技術來診斷。台大分子生醫影像研究中心曾文毅醫師的研究團隊就結合傳統評量與病人的腦部核磁共振攝影(MRI),來訓練機器學習模型,希望未來對於精神性疾病能夠有更客觀且更具預防性的診療方式。


大數據非萬靈丹,美國透過「小數據」翻轉教育

美國亞利那州 Dysart 學區的創新學院(The Dysart Innovation Academy)旨在針對 12-14 歲的學生,設計個人化的數位學習環境。創新學院搜集每位學生的「小數據」(little data),再由老師設計出個人化的學習課程。例如某個學生在早晨時段的閱讀效率更佳,老師便會依此安排。學生也可依照自己的步調學習。Link

戴志洋(CTO.TW 創辦人):

兩千五百年前,孔子就提出了教育個人化的理念 ── 因材施教。兩千五百年後的今天,我們還在排排坐的大鍋飯教育困境中,找尋解脫之道。

大數據不新,也不完整

在「大數據」這個名詞還沒有出現之前,資料科學領域早就有個老牌的分析方法 ── 統計學。它是一系列測定、收集、整理、分析和歸納的方法和工具。協助人類透過數據找出事物的特徵,用抽象化的方式去理解世界,進而推導並驗證事情發展的通則。

要達到這些目的,本就需要一定程度的資料量。隨著分析與歸納的演算法持續精進,人們開始關注數據的可能性,用更大量的數據與更快的運算,探索更多未知的領域。

但我們或許忘了,有一些我們人類天生就具有的能力,是不需要大數據的。台灣教育改革先驅黃武雄老師在《童年與解放》這本書中,曾寫到人類認知能力與文明發展的關係:

「從複雜的事物中辨認特徵,是人在自然演化過程中發展出來的能力,而這能力又回過來開啟文明,創造文明。」

「當他一步步走向文明,適應文明,當世間對他不再是陌生,生存對他不再是威脅,他犀利的敏感在消退,他開始視而不見,聽而不聞,原始辨認特徵的自然能力亦迅速萎縮,取代的是另一種描述性的文明能力。」

「他從無窮多維的自然世界走入有限多個變數的文明世界。」

過度依賴大數據,錯失人的本質

美國連續創業家 Mark Bonchek 對「小數據」的定義就是「我們對自己的理解」。也就是人類的感官可以接受到的訊息。這包含一個熱切的眼神、嘴角的細微變化、一秒的遲疑、講話聲音中的顫抖、食物的味道、中醫把脈、一首歌、一個擁抱等。這些特徵都富含著大量訊息,只要一筆就足以讓我們做出正確的判斷。

這些「小數據」,甚至可以說是「非數據」的特徵並不容易測定,更難以被數據化;但它才是我們賴以為生的本能、人類文明發展的根基。若硬是把無窮多維的事物給數據化,只會造成資訊的大量遺失。大數據與統計分析應該只是輔助;把它當成主體,就本末倒置、捨近求遠了!

資訊科技的目的是因材施教

過去工業時代的教育方式,是訓練人類去熟悉機械的計算與作業方式,是複製同樣的能力來達到大量生產的目的,而這在未來都會被電腦與機器所取代。

在資訊與網路的時代,真正的主體應該回歸到人。唯有替每個孩子量身打造他真正需要的學習方法,提供客製化的資源,才能讓每個人發揮天生的價值。而資訊科技已提供了我們完整的工具與配套方案。

來自趙國仁的問候

【警告:以下有電影《奇異博士》劇情爆雷】

 

相信有不少讀者看過漫威的《奇異博士》了吧? 我個人很推薦這一部視覺與內容都有可看性的娛樂電影喔!最後主角打敗大魔王的方法,竟然是程式中的「無窮迴圈」。哇哈哈,原來連黑暗大魔王都受不了無窮迴圈,而要遠遁地球,地球是因為無窮迴圈而得救的耶?!看來,這樣很多人都有拯救地球的潛力喔!

昨天生產力工具專題,大家覺得最有策略思維的...

微軟搶攻企業通訊市場, 得票率 37.8%,恭喜謝綸主筆!

«

»