Veri Bilimi için Temel Python Kütüphaneleri 2–3: Pandas-Df-Sıralama-Gruplama-Filtreleme
Merhabalar, bir önceki yazımızda veri bilimi için temel python kütüphanelerinden Pandas DataFrame konusu ile giriş yapmıştık. Bu yazımızda da sıralama, gruplama ve filtreleme işlemleri ile devam ediyor olacağız.
1- DataFrame Konusuna Giriş
2- Sıralama, Gruplama, Filtreleme İşlemleri
3- String İşlemleri
4- Merge İşlemleri
Anlatım esnasında titanic.csv dosyasını kullanıyor olacağım. Buradan indirebilirsiniz.
titanic.csv dosyamızı okumayla başlayalım ve sıralama, gruplama, filtreleme İşlemlerini sırasıyla ele alalım.
import pandas as pd
df = pd.read_csv(“titanic.csv”)
Sıralama İşlemleri
Veri setimizde analiz yaparken verilerimizi sort_values() metodu ile sırayalayabiliriz.
df.Age.sort_values()
sort_values() metodu varsayılan olarak, en düşük değerden artan değere göre bir sıralama yöntemine sahiptir. Bu işlemin tersini yapmak istersek ascending=False ifadesini eklememiz gerekir.
df.Age.sort_values(ascending=False)
Birden fazla sütuna göre sıralama işlemi yapalım. Yaş ve Cinsiyet sütunlarına göre sıralama yapalım.
df.sort_values(by=[“Age”, “Sex”]).head(10)
Gruplama İşlemleri
Veri setimizde analiz yaparken verilerimizi groupby() metodu ile gruplayabilir ve ardından gruplanmış veriler üzerinde işlem yapabiliriz.
— Cinsiyet bazlı kaçar adet yolcu olduğunu bulalım
df.groupby(“Sex”).size()
Bu şekilde cinsiyet bazlı gruplamış olduk yolcuları.
— Şimdi de cinsiyet bazlı hayatta kalan yolcu bilgilerini analiz edelim.
df.groupby(“Sex”)[“Survived”].value_counts()
Bu şekilde cinsiyet ve yolcuların kaza sonrası hayatta kalma durumları baz alınarak gruplama işlemi yapmış olduk.
Groupby & Aggregate kullanımı
Veri seti üzerinde gruplama işlemi yapıp ardından grupladığımız bu veri üzerinde matematiksel işlemleri uygulayabiliriz.
— Cinsiyet bazlı yaş bilgisi üzerinde count, min, max ve mean değerlerini alalım.
df.groupby(“Sex”).Age.agg([“count”, “min”, “max”, “mean”])
Filtreleme İşlemleri
Veri setimizde analiz yaparken bazı kriterlere göre filtreleyip kriterlere uygun veriler üzerinde işlem yapabiliriz.
— Yaşı 30 dan büyük olan kadın yolcuları bulalım.
df[(df.Age > 30) & (df.Sex == “female”)]
Veri setimiz içerisinde yaşı 30dan büyük olan kadın yolcularımızı bu şekilde çekmiş olduk.
Evet arkadaşlar veri bilimi için temel Python kütüphanelerinden olan Pandas kütüphanesinde Sıralama-Gruplama-Filtreleme konusunu detaylıca ele almış olduk. Umarım hepiniz için faydalı olmuştur. Bir sonraki yazımızda Pandas -DataFrame String işlemleri konusunun anlatımıyla yine devam ediyor olacağız. Bir sonraki yazımızda görüşmek dileğiyle :)