大毛電腦科學筆記: 人工智慧

人工智慧在電腦科學的領域不是一個新主題，已經存在很長的時間．其目的是希望電腦可以做出接近人腦一樣的決策，甚至希望比人腦更好．從以前到現在曾試過了數種不同的方式，從 90 年代開始，機器學習成為了人工智慧裡主流的方式，革新了我們處理數據分析、自動化和決策的方式。這文章將討論機器學習的基礎概念，淺談其不同類型、訓練模型等．

機器學習是近二三十年來人工智慧裡流行的方法，專注於開發能夠基於數據的了解並做出預測或決策的演算法。它涉及創建模型和使用模型，這些模型可以找到模式、做出決策，並且隨著時間的推移提高其準確性。機器學習的廣泛分類可以分為 3 大類：監督學習 (supervised learning), 非監督學習 (non-supervised learning) 和半監督學習 (semi-supervised learning)。這一區分主要基於用在開發模型的訓練數據是否包含要預測的結果的答案。

在監督學習中，模型在標籤化的數據集上訓練，也就是說每一筆訓練資料都已經附上了正確答案，也就是標籤，這也代表了每一筆訓練資料都有正確輸入和輸出配對，通常來說，這是基於人類的決策來決定是否正確，所以早期的機器學習專案都需要依賴大量人力的介入來為每個數據給予正確答案，也就是標籤化的動作。模型學習從輸入數據中預測輸出答案，並且可以根據已知結果來衡量其性能。舉個例子，你要做一個能自動辦別貓或狗的程式，你收集了許多有關狗和貓的照片，假設超過了一萬張各式各樣的貓狗照片．並且每一個照片你都給出了正確答案，如第一張是貓，第二張是狗，第三張是貓等等．機器學習裡最重要的任務就是為你的程式產生出一個數學公式 (function)，公式的輸入數據就是照片, 公式的輸出結果是答案，貓或狗. 所以，機器學習就是要產生這樣的數學公式給你的程式來使用. 我們先跳過製作數學公式的細節過程，這個數學公式的行為是從現有的一萬張照片裡 “學習” 而來的，因此，你可以想成用過去的照片，找出一個模式，然後去預測未來的照片．因此，只要訓練時輸入的照片別太少，在預測的效果就不會太差. 預測準確率也是評估該數學公式表現好壞的重要指標，也常是用來衝量該數學公式的效果好壞. 所以，機器學習裡講的模型就是在訓練過程後產生的數學公式．因為每一張照片都搭配著正確答案，所以這種方式稱為監督學習，也就是說，每個訓練資料的輸入和輸出的關係都是由人類預先定義好．如果每張照片並沒有搭配著正確答案，這種方式則稱為非監督學習。如果訓練的數據裡有部份有標籤，而部份沒有，則這種方式稱為半監督學習。

既便你完全沒接觸過任何的機器學習演算法，單純地從上述的說明加上你對基本演算法的認識，你一定能推斷出監督學習和非監督學習是兩種完全不同的方式．監督學習的訓練資料已經有答案，所以你需要的演算法是在輸入 (照片) 和輸出 (貓狗) 之間找出關係，而非監督學習沒有答案，所以比較適合把 “類似” 的輸入聚合在一起，所謂的 "類似" 可依照功能來區別，讓人們可以很直覺地知道為何這些資料會被放一起．舉個例子，產品推薦功能，在現在許多電子商務或是影音平台網站上都會常見到這樣的功能，網站裡有許多的商品和影片，一開始沒人會知道你想買些什麼．一旦資料越來越多後，許多客戶隨著時間會建立出許多訂單，從訂單的產品裡可以整理出一套 “類似” 的規則．舉例，常買烤雞的客戶也常買牛排，常看搞笑影片的客戶比較少看知識型的影片，這些 “類似” 規則的建立就是非監督學習的成品.

從上面的說明你可以看到不論是那一種方式的機器學習方法都需要足夠多的資料，建立出來的模型也都是依照過去資料的累積而建立出來的，至少這個模型能不能拿來用在未來的預測上，這實在很難保證．舉例，貓狗照片的辦識應該沒太大問題，畢竟十年後二十年後，貓狗的長相都還是會一樣 (除非他們都成了變種貓狗了)，但同一家購物商店的商品推薦功能在十年後二十年後還能用嗎? 這沒人敢保證，畢竟商品推薦的模型是用過去數年的客戶訂單資料所建立出來的，裡面都是這些客戶的行為，如果整個社區的住戶全部都換了，你覺得你還能拿一樣的模型來用嗎 ? 答案可能可以，也可能不行．

在監督學習裡所建立出來的模型基本上都是依照你給的新輸入來算出預測的答案. 一般來說，會有兩種不同的情況，要看答案本身之間的關係．舉例，以貓狗照片辦識來說，輸入的數據是貓或狗或是其他動物的照片，模型的輸出是貓或狗或其他，答案本身是一種固定在三個值的變數，我們把這種答案稱為 “分類型” (Classification) ．舉另外一個例子，某公司下個月的銷售量預測，輸入的數據是每個月的銷售量，季節因素，經濟好壞等數據，而模型的輸出是一個預測銷售量數字，這些答案並不是固定在幾個固定值的變數，而且會隨著時間和許多其他不同因素變動時而變動的數字，我們把這種答案稱為 “回歸型” (Regression)．不同答案類型所需要的演算法或統計法也是不同的．同理也能用在非監督學習裡，答案也可分為 “群組型” (Cluster) 和 “資料探勘型” (Data mining)．其實，不論是那一種方法，都是在從你給的輸入數據裡依照你要的答案找出一個數學公式。我們要把輸入資料能 “座標化”，然後數學公式就是在這座標系統裡一個 n 維度的線或面，透過把輸入數據傳給該數學公式後就能推導出答案.

我們來用另一個例子, 假設我們得到十個病人的身高體重資料，而我們要的答案是從這些病人的資料來學習 (預測) 某一個人會不會有高血壓．假設，我們知道每一個病人有沒有高血壓，也就是說我們有答案，我們將身高體重座標化，體重是 x 軸，身高是 y 軸，呈現如下,

因為我們知道那些病人有高血壓 (紅色圈標記) ，因此，我們很容易能找一個能區分有高血壓和沒高血壓的直線或曲線. (線條的選擇或建立就是機器學習課本裡的重點．)

以上是透過 SVM 演算法所製作出來的直線，它就是一個數學公式．因此，當你有新的病人數據進入到這個直線時，我們就能知道這新病人是否有高血壓，因為只要看新輸入數據的座標是在直線的左邊或右邊就能得到答案，左邊沒有高血壓，右邊則有．以上只是一個單純的例子，真實情況下，病人的輸入參數絕對不會只有身高和體重，有意義且足夠多的參數才能幫助產生更好的預測．現在你知道機器學習模型就是在座標系統裡的一條線或是一個面．問題越複雜時，我們需要提供的參數將越多，也代表座標系統的維度越高．這些高維度的座標系統運算在數學上用矩陣來表示，方便閱讀，也方便寫程式，因此在執行機器學習專案時才會需要擅長矩陣運算的 GPU 來執行座標系統裡相關的計算.

另一種情況是我們不知道有那些病人有高血壓，這表示我們要採用非監督學習的方式. 例如，採用 K-means 並將 cluster 數量設定為 2，會得到以下的圖型，

K-means 演算法把十個病人分成兩群組, 5,6,1,7,3是一組, 9,2,8,10,4 是一種. 可想而知，這是一個失敗的數學公式，因為和真實答案相比有很高的錯誤率．在這例子裡會有這種情況是很正常的，畢竟資料太少，只有十個人，資料維度也不夠，只有身高和體重，所以很難在這麼少的數據下得到些結論. 從這個簡單的例子也可以知道有正確答案的監督學習是處在多麼有利的位置．所以，在建立機器學習模型前的資料數據整理和答案標記是對模型的建立和準確率有很大的幫助.

在監督學習和非監督學習之間存在一個灰色區域，稱為半監督學習，也就是指有部份的輸入數據有了正確答案，其中模型在部分標籤化的數據上訓練。當獲取數據的標籤昂貴或耗時時，這種方法很有用。舉個例子，當你有一萬張的動物照片時，你要建立一個機器學習模型能辦識出照片裡是那一種動物，為了讓模型得到最好的辦識結果，你希望採用監督學習方式進行，也就是要將正確答案準備好．但你可以沒有足夠的時間金錢或是其他原因導致無法將一萬張照片標示好正確答案，可能只有三千張照片能完成正確答案標示，另外七千張照片沒有正確答案．此時，可以用一個簡單的方法，將三千張有正確答案標示的照片先進行模型訓練，訓練後得到的模型用於七千張沒正確答案照片的預測，然後再將七千張照片的預測視為正確答案和三千張已有正確答案的照片再重新訓練出一個模型，半監督學習的方法有好幾種，這只是其中一種簡單好懂的．如果這個程過是循序漸進的，則模型還可以適時地改變，這樣就能漸漸地得到更好的模型，這也是所謂的增強學習 (reinforcement learning)。從這個方法延伸下去還可以有許多的理論和應用產生.

機器學習是一個動態且快速發展的領域，具有廣泛的應用範圍。理解不同類型的機器學習、如何訓練模型以及最新進展對於任何希望利用這項強大技術的人來說都至關重要。隨著機器學習繼續融入各個行業，它對社會的影響勢必增長，使其成為一個令人興奮的研究和創新領域。

閱讀全文

在大部份的科學領域裡都蠻注重分類 (Classification) 這件事．透過分類，它能幫助我們整理問題，也能整理答案，甚至在不同的問題集合裡找出通用的答案．在人工智慧的領域裡，有一門科目叫模式辨認 (pattern recognition)，它應用在影像辨識，人臉辨識，語言辨識等的範圍，其中需要一個重要的技能就是將所要辦認的物件做分類，然後在該分類裡找出合適的對應結果．在這過程中，k-nearest neighbor (KNN) 是一種相對古老且直覺的方法．方法簡單而且能有高準確率，並且不需要所謂的 “訓練”．在人工智慧的領域裡，簡單而言，做的事情就是收集資料，然後依這些資料整理出一個數學模型，未來有新資料出現時，就可以丟入這數學模型加以運算，得出來的結果就是此模型的預測結果．KNN 這方法並不需要所謂的 “訓練” ，也就是說你並不需要從舊資料裡整理出一個數學模型．

KNN 利用資料本身所具備的一些 “自然” 特性來達成辨認的目的．在網路上能找到最常見用來說明 KNN 的範例就是房價．房價的資料本身就是一個許多資訊的綜合結果，例如包含了環境好壞，面積大小，學區優劣，交通便利，文化觀點等等的因素所綜合起來的結果．想像一下，當你有一份房價資料，裡頭記錄了每一條街某一棟建築物的價格．當你用地圖的方式來呈現時，這在城市的地圖上你可以為已知道建築物標上價格標籤，然後還有許多的建築物尚未知道價格．即便你不懂房地產，當任意從城市的地圖上找到一棟建築物來猜測其價格時，你會怎麼做呢 ? 最簡單直覺的做法就是找附近類似條件的房價來做為參考價格．這也就是 KNN 所採用的概念．

在 KNN 的方法裡，K 是一個大於 0 的數字．以上述房價的例子來看，用來代表你要參考附近 (以距離來算) 多少個房價來做為預測新位置房價的對象．接下來，直接從 Wikipedia 上 KNN 例子的圖來做範例:

假設上圖是某個城市的房價分佈圖，用顏色來代表不同等級的房價．若採用 K=1 時的分類方法時，可以將地理區域劃出如下的區域:

這代表該區域內代表 KNN 方法在 K = 1 時所計算出來的房價．如果 K 值不同時，所得到的區域不會一樣．至於 K 值要取多少才能得到較好的預測結果，這需要更多對資料特性有實務經驗，才能找到適合的 K 值．因此，KNN 要用的好，除了找到一個適合算 “距離” 的公式外，還得對資料有許多實務經驗才行．

剛剛所談的算 “距離” 的公式，這是什麼呢 ? 以上述房價的例子而言，所謂的距離就是預測的房子與資料中最近房子的地理位置上的距離．你可以用直線距離或是真實道路距離來計算，完全依你的情境所需來決定．所以，不同的情況下，計算距離的方式是不一樣的．接下來舉個例子，車牌號碼的辨識已經在許多地方都派上用場了，例如高速公路收過路費，停車場進出入的車牌識別等．車牌識別用 KNN 的方法來進行，該怎麼做呢 ? 首先，我們的資料集合裡一定會有車牌會出現的所有符號，包含數字，英文字母或其他符號等．每一個符號都是一張圖案，而每一個符號在這圖案上所佔用的位置一定不一樣．如下圖是車牌數字的 7 :

當我們用一個 2D array 來代表 7 時，你可以把白色區域用 0 ，而黑色區域用 1，這樣一個 2D array 就可以表達出一個數字的 “長相” 了．會不會有其他的符號有一樣的長相呢 ? 在這個例子裡不會發生，因為每個符號都是不一樣，因此 2D array 裡的 0 ,1 也會不同．

接著，當一個欲辨識的符號進入時，我們怎麼算 “距離” 呢 ? 只要把欲辨識的符號用同樣的方式轉換成 2D array，然後再將這個 2D array 跟我們資料裡所有符號的 2D array 做一個 XOR 的運算 (或是檢查兩個值是否相等)．如下面簡單的程式碼 :

只要兩個 2D array 的某個元素不一樣時, diff 就會增加．卻辨識的符號會和所有的符號都進行一次算 “距離” 的運算，最後就選出 diff 最小的，那個就是我們找出的答案．

上述的方法是一個 K = 1 的 KNN 應用，我忽略了許多實作細節，但希望透過這樣簡單的說明能讓沒聽過 KNN 的朋友們知道 KNN 如何應用在車牌辨識上．如前面所說，透過 KNN 方法，我們不需要像 SVM (Support Vector Machine) , CNN (Convolutional Neural Networks) 那樣搞複雜的訓練模型過程就可以得到準確率還蠻高的結果．這樣說並不是說 KNN 比 SVM 或 CNN 強大，只是剛好在簡單的辨識情境裡 (如上述前的車牌辨識) KNN 在 K = 1 時能提供準確率相當高的結果，而且也不用事先訓練模型，也許這能算上是一種數學的奇蹟吧!

閱讀全文

大毛電腦科學筆記

#98 淺談機器學習

#82 K個最近鄰居演算法 (k-nearest neighbor algorithm, KNN)

標籤分類

熱門文章

日期分類