大部分程式語言的原生資料架構不出 array 或 object
這些,但是為了要資料處理更容易,通常都有一些開放的程式庫
(library),今天要聊的是如何使用 Python panda 選擇欄位,並創造出新的
DataFrame。
問題在哪?
首先我們先定義遇到的問題,就是,如何選擇欄位。今天如果沒有
DataFrame,而只是一個 list,我們要怎麼選擇欄位?
或許是先找出要選擇的欄位,如果資料是以 list 的方式呈現,那 index 為 0
就會代表所有欄位的名稱, 像是下面的 name'、age 跟 height 就是欄位名稱。
array = [["name","age","height"],["A",20,30],["B",20,30],["C",20,30]]接下來找出相對應欄位名稱的 index,然後用幾個迴圈選出新的代表選擇後欄位的 array。
用 panda 的 DataFrame
panda 的 DataFrame 有支援直接填入要選擇的欄位名稱進入一個 list,然後丟進去原來的 DataFrame 即可。
這個 kaggle 的例子可以看出端倪。
注意事項
使用 sklearn 的 DataFrame 選擇欄位要注意的事項為語法,語法是用方括弧 [],而不是圓形括弧 (),這點非常奇怪,因為 DataFrame 的原理應該是用某種 method 將輸入的 list 轉化成一個新的 DataFrame,怎麼是用方括弧呢?

留言
發佈留言