【Python】 panda DataFrame 可以選擇欄位創造新的 DataFrame

大部分程式語言的原生資料架構不出 array 或 object 這些，但是為了要資料處理更容易，通常都有一些開放的程式庫 (library)，今天要聊的是如何使用 Python panda 選擇欄位，並創造出新的 DataFrame。

問題在哪？

首先我們先定義遇到的問題，就是，如何選擇欄位。今天如果沒有 DataFrame，而只是一個 list，我們要怎麼選擇欄位？

或許是先找出要選擇的欄位，如果資料是以 list 的方式呈現，那 index 為 0 就會代表所有欄位的名稱，像是下面的 name'、age 跟 height 就是欄位名稱。

array = [["name","age","height"],["A",20,30],["B",20,30],["C",20,30]]

接下來找出相對應欄位名稱的 index，然後用幾個迴圈選出新的代表選擇後欄位的 array。

panda 的 DataFrame 有支援直接填入要選擇的欄位名稱進入一個 list，然後丟進去原來的 DataFrame 即可。

這個 kaggle 的例子可以看出端倪。

使用 sklearn 的 DataFrame 選擇欄位要注意的事項為語法，語法是用方括弧 []，而不是圓形括弧 ()，這點非常奇怪，因為 DataFrame 的原理應該是用某種 method 將輸入的 list 轉化成一個新的 DataFrame，怎麼是用方括弧呢？