文章目錄

“More data beats clever algorithms, but better data beats more data.”
— Peter Norvig
機器學習的力量來自於它可以從大量數據中學習模式(Patterns)的能力,如”使機器變智慧的 7 件事”當中所提,機器如果沒有數據就無法工作,因此了解您的數據對於建構強大的機器學習系統非常重要。
但數據多了以後有可能散布著奇怪的值或是貼錯標籤,這些值會影響機器學習的訓練,因此我們在提供好的數據時,應該適當的清理數據集。而如果有一個好的工具,能協助初學者認識自己的數據,這將對學習機器學習 (Machine Learning)是非常棒的。
Google 發布了一種開源可視化工具 — Facets,幫助我們可視化自己的數據,讓大家對數據更為瞭解。
Facets 包含兩個強大的可視化功能,來幫助理解和分析機器學習數據集。
- Facets Overview:可以用來了解數據集每個特徵的形狀
- Facets Dive:探索一組單獨的觀察結果
現在就讓我們用一些範例來做介紹。
1. Facets Overview
Facets Overview 提供了數據集的概述,它的可視化功能提供一個或多個數據集的高級視覺圖,會自動快速了解數據中各種特徵值的分佈及特徵形狀的感覺,總結每個特徵的統計數據,也可以立即在訓練數據集和測試數據集中進行比較。
Facets Overview 工具可以向你顯示下面這些內容,藉此幫助我們發現數據集的一些問題。
- 數據統計 :最小值、最大值、中值、標準差。
- 缺失值: 顯示有多少列(row)沒有數據。
- 零值:數據為 0 的百分比。
- 訓練數據/測試數據拆分情況:如何在數據集中拆分訓練數據和測試數據之間的顯示圖。
讓我們來看一下UCI 人口普查收入數據集範例,它的目標是根據各種人口普查統計數據,來預測個人的年收入是否高於 5 萬美元。人口普查數據包含每個人的年齡、教育水平和職業等特徵。紅色數字表示可能的問題點,右側的直方圖可以讓您比較訓練數據(藍色)和測試數據(橙色)之間的分佈。

我們可以清楚地看到,Capital Gain 和 Capital Loss 都沒有包含太多資訊,因為它們大多數列都有 0 值(紅色字)。
我們還可以放大右邊的直方圖,觀察數據的分佈情況,它將有助於我們仔細檢查測試數據與訓練數據是否具有相似的分佈 ,因為我們不希望數據有偏差。

該工具可以非常簡潔清晰地顯示所有功能,讓我們輕易查看重要資訊。

2. Facets Dive
Facets Dive 可以使你更清楚瞭解數據集,並且可以一直放大來查看單個數據。它是一個可以互動式探索多達數萬個多維度數據點的工具,可以幫助使用者在高階瀏覽及低階細節中進行無縫切換,並可深入了解數據單個特徵及觀察結果,以及根據其特徵值來控制每個數據點的位置、顏色和視覺表示以獲取更多資訊。同時利用流暢的動畫縮放和過濾相結合,可以輕鬆發現複雜數據集中的模式和異常值,讓你更瞭解你的數據。

Facets Dive 介面主要分成 4 個部分:
A. 中心主要區域是數據可縮放顯示的地方。
B. 上方區域可以使用各種下拉式選單,來更改數據的排列方式。
C. 你可以點擊中間可視覺化區域的任何數據點,將可查看該特定數據點的詳細資訊。
D. 中間區域顯示的各種圖例。
我們試著先按年齡範圍拆分數據,並根據目標值對數據點進行顏色區隔,這裡藍色表示著小於等於 50K ( 5 萬美元),紅色表示大於 50K ( 5 萬美元)。

我們再透過每週工作時數來看到不同年齡層的情況,我們可以看到在 10~20 歲年齡區間,有很大一部分的人每周工作 20~30 個小時,有可能是暑假打工的情況。而隨著年紀愈大,每周工作 30~40 小時的人愈來愈少。右邊是單擊其中一個數據點的詳細資訊。

下圖則是將個別數據放大後的狀況。

3. Facets Dive x Quick, Draw!
我們也可以將 Quick, Draw! 數據視覺化,如果你想進一步探索Quick, Draw!的數據集,則可以使用 Facets 數據可視化平台來瞭解數據
看看不同國家所畫的臉及椅子是如何進行的,以及 AI 是否可以辨識的出來,同時數據可視化將可以讓你更瞭解你的數據!

有關 Quick, Draw! 這一部分大家可以參考下面這篇文章。
想瞭解更多這一方面知識,可以參考「Zero to AI – 人工智慧」
【好康推薦】最適合初學者的 AI 課程
《從 AI 到生成式 AI 》
40 個零程式的實作體驗,培養新世代人工智慧素養
帶您從觀念快速進入實際 AI 應用及活動,對 AI 更加瞭解
■ 優惠價:399 元 (原價 560 元)
■ 優惠期間:即日起~2024/10/31
>> 立即前往優惠

如果你喜歡這篇文章歡迎訂閱、分享(請載名出處)與追蹤,並持續關注最新文章。同時 FB 及 IG 也會不定期提供國內外教育與科技新知。