大部分程式語言的原生資料架構不出 array 或 object 這些,但是為了要資料處理更容易,通常都有一些開放的程式庫 (library),今天要聊的是如何使用 Python panda 選擇欄位,並創造出新的 DataFrame。 問題在哪? 首先我們先定義遇到的問題,就是,如何選擇欄位。今天如果沒有 DataFrame,而只是一個 list,我們要怎麼選擇欄位? 或許是先找出要選擇的欄位,如果資料是以 list 的方式呈現,那 index 為 0 就會代表所有欄位的名稱, 像是下面的 name'、age 跟 height 就是欄位名稱。 array = [["name","age","height"],["A",20,30],["B",20,30],["C",20,30]] 接下來找出相對應欄位名稱的 index,然後用幾個迴圈選出新的代表選擇後欄位的 array。 用 panda 的 DataFrame panda 的 DataFrame 有支援直接填入要選擇的欄位名稱進入一個 list,然後丟進去原來的 DataFrame 即可。 這個 kaggle 的例子可以看出端倪。 注意事項 使用 sklearn 的 DataFrame 選擇欄位要注意的事項為語法,語法是用方括弧 [],而不是圓形括弧 (),這點非常奇怪,因為 DataFrame 的原理應該是用某種 method 將輸入的 list 轉化成一個新的 DataFrame,怎麼是用方括弧呢?