Python Pandas Kullanımı

Python Pandas Kullanımı

Tarhi : 04-04-2023 11:03:57 | Yazar : ÇAĞLAR BOSTANCI

Panda çok büyü boyutlu dataların analizinde kullanılmaktadır. Pandas, numpy paketine göre farklı verilerin bir arada tutulması ve bu veriler içerisinde seçim yapma gibi özellikleri ile daha esnektir. Pandas paketketin de iki tip veri nesnesi bulunamaktadır. Bu veri nesneleri seirler ve veri çerçevlerdir. Bu sepepten pandas’ı iki boyutlu dizilerde diyebiliriz.

Pandas Python kurulumunda yüklü paketler arasında gelmektedir. Eğer sanal bir Environment oluştumuşsanı kurulum yapmanız gerekmektedir. Pandası pip üzerinden pip install pandas komutu ile yükleyebilirsiniz. Kurulum sonrasında paketin indiğini consola pip list komutunu yazdığınızda listelenen pakateler arasında olduğunu göreceksinizdir.

Python Pandas Paketi R veri dilinde olduğu gibi bir çok farklı türde veriyi barındıra bilmektedir. R dilinin en etkin özelliğini taşımaktadır.

Şimdi aşağıda örenek bir pandas serisi oluşuturalım öncelikli olarak python pandas paketini sayfamıza dahil edip pd kisa takma adını veriyoruz. Bu bir gelenektir

Pandas veri endeksleri 0 ‘dan başlayarak devam ederi. İstersek veri endekslerini aşağıdaki gibi bizlerde belirleyebiliriz

Pandas paketi içerisndeki bir seride belirli endekler arasındaki verileri aşağıdaki gibi alabilmekteyiz

Günlük hayatımızda çoğu veriyi exel veya csv gibi verilerde tutmaktayız. Bazen bu tip dosyadaki verilerin okuması ve istatistik veri oluşuturulması gerekmektedir. Pandas ise bu iş oluşturulmuştur. Bu işlem en çok dataFrame kullanılmaktadır. aşağıda illere göre kişilerin yaş,cinsiyet,boy,il bilgileri verilmektedir. Şimdi bu bilgilerin dataFrame’ini oluşuturalım

Tabi bütün veriler bizelere sözlük şeklinde gelmekmektedir. Bazen bu veriler parçalı bir şekilde geliyor. Bizler aşağıdaki gibi verileri ve sutunları zipleyip tekrar dataFrame ile oluşturuyoruz.

Tabi bu gibi işlemler sizinde bilgidiniz gibi bir kaç satırdan oluşmuyor. Bu verileri bir exel,csv gibi dosyalardan alıyoruz. Python Pandas Paketinde bu verileri almak içinde dosya okuma işlemi yapmamız gerekiyor. Bir öreneği aşağıda mevcuttur.

Önce kendizimize 100000 satırlık bir istatistik verisi oluturalım

şimdi bu dosyadan yazdığımız veriyi okuyalım

Yine Pythonda görmek istediğimiz satır sayısını .head() ile belirleyebirilirz. Aşağıda ilk on satırı getirmenis istedik

Bir python pandas verisindeki son satırları görmek içinse .tail() methodunu kullanırız.

Yine istersek python pandas verinin kaç satır ve sütündan oluşutuğunu .shape metodu ile öğrenebiliriz.

Pandas veri bloğundaki verilerin sütunlarını, tiplerini ve veri sayılarını .info() metodu ile öğrenebiliriz.

Yine aşağıdaki methodlar pandas verilerinin kullanımında çok iş yaramaktadır. .copy() : var olan verileri farklı bir değişkene aktarmamızı sağlar.

.values ile pandas verilerini bir nampy veri haline getirebilirsiniz.

Pandas paketi numpy pakati ile de kullanılabilmektedir. Sayısal verilerlerden oluşan bir tabloda, verilerin doğal logaritmasını almak istiyorsak burada numpy paketinde .log() methodu kullanılmaktadır.

Pandas veri tipinde ikiden fazla boyutlu verilerde oluşturulabilmektedir bunlara örnek verekcek olursak çift indeksli verileri örnek verebiliriz.

Yukarıda yazılım dillerin yıllara göre artış oranlarını verdik. İndekleri tuple veri tipinden oluşturduk ve ekrana baslık. Yine aşağıda belirli indeksler arasındaki verileride istediğimiz gibi basabiliriz.

Yine çoklu indekslerde mültiindex verisini istediğimiz gibi kullanabiliriz.

Yine yukarıdaki oluşturduğumuz veri çerçevesini .unstack() metodu ile tersine çevirebiliriz.

Tersine çevirdiğimiz veri çerçevsini .stack() metodu ile ile eskihaline alabiliriz.

Multix veri çerçeveleirni istersek farklı veri tiplerinde de oluşturabiliriz.

Satırlar için çoklu index oluşturduk. Şimdi ise sütünlar içinde çoklu index oluşturalım.

Yine istersek sütün ismini verekrek sade o süntünü listeleyebiliriz. Sütun adını belirtirken direk yazarasak bir panda serisipandas.core.series.Series verirken, eğer bu ismi bir veri[["Dönem 1"]] şeklinde verirsek de pandas.core.frame.DataFrame şeklinde verecektir.

Yine istersek birden fazla oluşan sütünlarda iki adet sütun getirmeyi aşağıdaki gibi iki köşeli parantez içerisinde belirtmemiz gerekmektedir.

Yine pandas verisi içerisinde yatayda belirli satırlar arasıdan ki verileri çekmek istiyorsak. İndeks numaraları ile veri[2:5] çağırmamız gerekmektedir. Yine sadece bir sütun içerisinde belirli satır aralıklarını istiyorsak veri["Dönem 1"][2:4] şeklinde kullanmamız gerekmektedir.

Yine pandas veri seçimi yaparken veri.loc["PHP"] .loc fonksiyonu ile yatada ve dikeyde verileri seçebilmekteyiz.

Python pandas veri seçiminde veri.loc[] metodunu kullanarak yatayda birden çok satır ve bir sütuna ait verileri listelemek istersek aşağıdaki örenteki gibi birden iki adet köşeli parantez içerisine almamız gerekmektedir.

Python veri seçiminde sütun isimlerini belirterek aşağıdaki gibide bir seçim yapmamız mümkündür.

Yine python pandas modülünde veriler seçilirken .iloc[] metodu ile index numaralarına görede seçim yapılabilmektedir.

Python’da veri analizi yapmak için kullandığımız hazır methodlar var bunlar:

.min()Minimum değer verir.
.max()Maximum değeri dönderir.
.mean()Ortalamasını alır.
.count()Toplam Sayısını Verir
.unique()Aynı verilerden bir tanesi getirir.Bir nevi kategorik değerleri bulur.
.describe()Verilen sütundaki özet bilgileri verir.(meain,std,m,n,max,25%,50%,75%,max)

Yine bunlarındışında sık kullanılan fonksiyonlar:

.mean()Ortamayı alır.
.std()Standart sapmasını hesaplar.
.median()Medyanını alır.
quantile(x)Yüzdelik dilimini alır (Belirlenen yüzdelik dilimde ortalama değeri dönderir)

Yine bir sütun için bir şartı belirleyerek uyup uymadığını kontrol edebiliriiz

Yine boy verimizde sadece erkeklerin verilerini seçmek istiyorsak aşağıdaki gibi bir şart belirleyip sadece erkek vatandaşlarımızı seçebiliriz.

Seçtiğimiz erkek vatandaşlarımızın verirleri üzerinden yeniden hesaplama yaptırabiliriz. Aşağıda maximum değerlerini almış bulunmaktayız.

Yine şart işlemimizi aşağıdaki gibide kullanabiliriz.

Yine istersek koşul şartımızı aşağıdaki gibi .contains ilede yapabiliriz.

Yine şart işlemlerinde birden fazla şartıda ekleyebiliriz. Mesela Kırşehirli 40 yaş altı bayanları seçelim.

Yine aşağıdaki örneğimizde hem Kırşehirli veya İzmirli 25 yaş verilerini listeleyelim.

Bu seferde 30 yaş 1.80 üzeri verilerimizi listeleyelim

Pandas modülünde bir çok fonksiyon bulunmaktadır. Bunlar içerisinde yine çok kullanılan aşağıdaki methodlarıda inceleyelim:

.all()Veri çerçevsinde sıfır içermeyen değerleri verir.
.any()Sıfırdan farklı değerleri görmemizi sağlar.
.isnull()NaN değeri içeren sütunları görmemizi sağlar.
.notnull()NaN değeri içermeyen verileri görmemizi sağlar.

Bu methodaları kullanmak için şimdi bir veri çerçevesi oluşturalım.