Veri Mühendisliği ve Tahminsel İstatistik Eğitimi
Genel tanım:
Bu eğitim, veri biliminin temellerinden başlayarak açıklayıcı, tahminsel ve kuralcı (prescriptive) istatistik yaklaşımlarını uygulamalı örneklerle ele alır. Katılımcılar; veri setlerini tanıma, özetleme, modelleme ve iş kararlarına dönüştürme süreçlerini endüstri standartlarında öğrenir ve uygulama becerisi kazanır.
Nedir?
- Veri Bilimi: Ham verinin toplanması, temizlenmesi, analizi ve içgörüye dönüştürülmesi süreci.
- Açıklayıcı İstatistik (Descriptive): Merkezi eğilim, dağılım ve veri yapısını özetler.
- Tahminsel İstatistik (Predictive): Geleceğe yönelik öngörüler için regresyon, sınıflandırma modelleri kurar.
- Kuralcı İstatistik (Prescriptive): Analiz sonuçlarına dayanarak en iyi aksiyon önerilerini ve optimizasyon stratejilerini üretir.
Kimler içindir?
Bu eğitim, aşağıdaki bireyler için uygundur:
- Veri Analistleri & Veri Bilimciler: Temel istatistik bilgilerini pekiştirmek ve ileri analiz metodlarını öğrenmek isteyenler
- İş Zekâsı (BI) Uzmanları: Raporlama ve dashboard tasarımında istatistiksel teknikleri etkin kullanmak isteyen profesyoneller
- Yazılım Mühendisleri & Geliştiriciler: Veri odaklı uygulamalara istatistik katmanı eklemek isteyen ekipler
- Ürün ve Proje Yöneticileri: Analiz sonuçlarına dayalı iş kararları almak ve ekipleri yönlendirmek isteyen liderler
- Dikey Uzmanlar (Finans, Sağlık, Pazarlama vb.): Kendi alanlarındaki veri analiz projelerinde istatistiksel metodolojileri uygulamak isteyen profesyoneller
Neden Veri Mühendisliği ve Tahminsel İstatistik Eğitimi?
- Veriye Dayalı Karar Mekanizmaları: Ölçülebilir KPI’lar oluşturarak karar verme süreçlerinde öznelliği minimize eder.
- Model Destekli Tahminler: Regresyon ve sınıflandırma modelleriyle talep/satış/operasyon tahminlerinde doğruluk artışı sağlar.
- Optimizasyon ve Kuralcı Yaklaşımlar: Kaynak dağılımı, stok yönetimi ve süreç optimizasyonu için eylem önerileri sunar.
- Etkili Hikâyeleştirme: Analiz sonuçlarını grafiklerle ve anlatımla birleştirerek paydaş ikna gücünü artırır.
- Endüstri Standart Araçlar: Python, R, SQL, Tableau, Power BI gibi yaygın teknolojilerde uygulamalı deneyim.
Eğitim İçeriği
1. Veri Bilimine Giriş & İstatistiksel Yaklaşımlar
- Amaç
- Veri bilimi yaşam döngüsünü ve analitik türlerini iş bağlamına oturtmak.
- Yaşam Döngüsü ve Süreçler
- Problem tanımı → hipotez → veri gereksinimi → toplama/entegrasyon → temizleme/özellik → analiz/modelleme → doğrulama → görselleştirme → karar/aksiyon → izleme.
- CRISP-DM aşamaları ve iş birimleriyle etkileşim (stakeholder mapping, RACI).
- Veri Kalitesi ve Yönetişim
- Boyutlar: doğruluk, bütünlük, tutarlılık, tekillik, gecikme/güncellik.
- Veri sözlüğü, şema yönetimi, veri soyu (lineage), kalite kuralları (expectations).
- KVKK/GDPR, PII maskeleme/anonimleştirme; rol tabanlı erişim (RBAC).
- Analitik Türleri ve Kullanım Senaryoları
- Açıklayıcı: KPI takibi, anomali tespiti, kök neden analizi (RCA).
- Tahminsel: talep/churn/satış/arıza; özelliğe dayalı segmentasyon.
- Kuralcı: bütçe/kapasite/rota optimizasyonu; senaryo/duyarlılık analizi.
- Ölçüm ve Deney Tasarımı
- KPI/OKR hiyerarşisi; öncü–ardıl metrik ayrımı.
- A/B, çok kollu bandit, sıralı test; örnek hacmi ve güç analizi.
- Araç Ekosistemi (yüksek seviye)
- Python (pandas, numpy, scipy, statsmodels), SQL, BI (Power BI/Tableau), not defterleri.
- Uygulama
- Mini EDA: veri tipleri, eksik değer, aykırı, özet istatistik; hızlı tek sayfa bulgu.
2. Uygulamalı İstatistik – I
- Özet ve Hedef
- Açıklayıcı istatistik, dağılım analizi ve temel testler ile sağlam EDA.
- Merkezi Eğilim ve Dağılım
- Ortalama, medyan, mod; robust ölçüler (trimmean).
- Varyans, σ, IQR, MAD; çarpıklık/basıklık; hataya duyarlılık.
- Dönüşümler ve Ölçekleme
- Log/Box-Cox/Yeo-Johnson; standardizasyon vs. min–max; robust scaling.
- Aykırı Değer Yönetimi
- Z-skor, IQR, robust z; Grubbs testi; iş kararlarına etkisi.
- Örnekleme ve Örnek Hacmi
- Basit/tabakalı/küme; örnek hacmi sezgisi, tasarım etkisi (design effect).
- Temel Hipotez Testleri
- Tek/çift örnek t-test, oran testleri; parametrik vs. non-parametrik (Mann–Whitney, Wilcoxon).
- Güven aralığı yorumu; p-değeri tuzakları; etki büyüklüğü (Cohen’s d).
- Görselleştirme
- Histogram, KDE, kutu/violin; QQ-plot ile normalite kontrolü.
- Uygulama
- Aykırı değerin regresyon eğimine etkisi; öncesi/sonrası karşılaştırma.
3. Uygulamalı İstatistik – II
- Özet ve Hedef
- İlişki analizi, doğrusal regresyon, ANOVA ve ki-kare ile çıkarım.
- Korelasyon ve İlişkiler
- Pearson/Spearman/Kendall; saçılım grafikleri; ısı haritası; kısmi korelasyon.
- Doğrusal Regresyon
- Basit/çoklu; etkileşim terimleri; kategorik değişkenler (one-hot/target encoding).
- Varsayımlar: doğrusallık, homoskedastisite (Breusch–Pagan/White), normallik, otokorelasyon (Durbin–Watson).
- Çoklu doğrusal bağlantı: VIF ve çözüm stratejileri (özellik seçimi/PCA).
- Model Değerlendirme
- R², düzeltilmiş R², MSE/RMSE/MAE; çapraz doğrulama (k-fold, nested CV).
- Zaman serisi ayrımı (TimeSeriesSplit) ve sızıntı (leakage) önleme.
- ANOVA ve Post-hoc
- Tek/iki yönlü ANOVA; Welch ANOVA; Tukey HSD; etki büyüklüğü (η², ω²).
- Ki-Kare Testleri
- Uygunluk ve bağımsızlık; beklenen frekans koşulları; kontenjans tablosu yorumları.
- Raporlama
- Artık (residual) analizi grafikleri; belirsizlik görselleştirme.
- Uygulama
- Çoklu regresyonda özellik seçimi (forward/backward/stepwise) + CV ile karşılaştırma.
4. Uygulamalı İstatistik – II (Gelişmiş)
- Özet ve Hedef
- Lojistik regresyon, dengesiz veri, çok değişkenli yöntemler, Bayes temelleri ve zaman serisine giriş.
- Lojistik Regresyon
- Olasılık/odds/log-odds; karar eşiği seçimi; L1/L2/ElasticNet; kalibrasyon (Platt/Isotonic).
- Sınıflandırma Metrikleri
- ROC–AUC vs. PR–AUC; F1/precision/recall; cost-sensitive karar; kaldırma eğrileri (lift/gain).
- Dengesiz Veri
- Sınıf ağırlığı, SMOTE/ADASYN/undersample; ayrık eşik ve iş maliyeti.
- Çok Değişkenli Analiz
- PCA: varyans açıklama, bileşen yorumu, biplot; faktör analizi: döndürme (varimax/promax).
- Kümeleme kısa dokunuş: K-means vs. hiyerarşik (yalnızca sezgi ve uyarılar).
- Bayesçi Temeller
- Öncel/ardıl; güven vs. inanç aralığı farkı; conjugate örnekler; küçük örneklem avantajı.
- Zaman Serisine Giriş
- Durağanlık (ADF/KPSS), ACF/PACF, mevsimsellik/trend; fark alma ve temel ARIMA/ETS sezgisi.
- Model Güvenilirliği
- Kalibrasyon eğrileri, Brier skoru; karar eğrisi analizi (DCA) sezgisi.
- Uygulama
- Dengesiz churn verisinde eşik optimizasyonu: gelir maksimize eden eşik.
5. Büyük Veri Teknolojileri ve Uygulamaları
- Özet ve Hedef
- Ölçeklenebilir veri işleme, dosya formatları, akış mimarileri ve Spark pratikleri.
- Hadoop ve Dosya Formatları
- HDFS, YARN, MapReduce; Parquet/ORC/Avro; sıkıştırma ve kolonarlık avantajları.
- Apache Spark
- Driver/executor, DAG, lazy evaluation; narrow vs. wide transformations.
- Performans: partitioning, cache/persist, broadcast join, skew mitigation.
- Spark SQL/DataFrame API; UDF/UDTF uyarıları; adaptif sorgu yürütme (AQE).
- MLlib Kısa Giriş
- Pipeline, özellik vektörizasyonu, standard scaler; grid/random search.
- NoSQL Ekosistemi
- MongoDB (belge), Cassandra (geniş sütun), Redis (KV); şema tasarım desenleri, TTL/sekans.
- Gerçek Zamanlı Akış
- Kafka: topic/partition/offset; consumer group; backpressure ve tam-semantikler.
- Structured Streaming: watermarking, windowed aggregation, exactly-once stratejileri.
- Mimari Örüntüler
- Lambda vs. Kappa; Lakehouse (Delta/Iceberg/Hudi) ve ACID tablolar.
- Uygulama
- 10–50M satırlık clickstream üzerinde Spark EDA + join + window fonksiyonları.
6. Veri Tabanı Yönetimi ve Büyük Veri
- Özet ve Hedef
- İlişkisel tasarım, sorgu performansı, dağıtık tutarlılık, ETL/ELT ve bulut DWH.
- Şema Tasarımı
- 3NF vs. denormalizasyon; boyutsal model: fact/dim, SCD (Type 1/2); surrogate key stratejileri.
- SQL Performansı
- İndeksler: B-tree, hash, BRIN; metin ve JSON için GIN/GiST (PostgreSQL).
- Sorgu planı/EXPLAIN; join sırası, filtre iteleme (predicate pushdown); window fonksiyonları.
- Tutarlılık ve Ölçek
- CAP teoremi; ACID vs. BASE; çok-bölge replikasyon, okuma/yazma gecikmesi.
- SQL vs. NoSQL Tercihi
- Erişim örüntüsü, gecikme/throughput, esneklik, şema evrimi, TCO değerlendirmesi.
- DWH/Lake/Lakehouse
- Bronz–gümüş–altın katmanları; veri doğrulama (great expectations vb.); metadata/katalog.
- ETL/ELT ve Orkestrasyon
- CDC (log-based), Airflow/Dagster; dbt ile modelleme ve testler; veri sürümleme.
- Bulut DWH Platformları
- Redshift, BigQuery, Synapse: maliyet kontrolü (slot/credit/billing), güvenlik (KMS/CMK), yönetişim.
- Uygulama
- OLTP → DWH modeline dönüşüm; günlük artımsal yükleme DAG taslağı.
7. Verilerle Hikâye Anlatmak ve Görselleştirmek
- Özet ve Hedef
- Bulgu → içgörü → eylem zincirini görsel anlatı ile güçlendirmek.
- Doğru Grafik Seçimi
- İlişki/karşılaştırma/bileşim/dağılım/yoğunluk; küçük çokluklar; sparklines/bullet chart.
- Tasarım İlkeleri
- Eksen/ölçek, boşluk kullanımı, tipografi; preattentive özellikler; açıklık ve etik görsel kullanım.
- Erişilebilirlik: renk körlüğü güvenli paletler; etiket/kontrast kuralları.
- Araç ve Üretime Geçiş
- Power BI/Tableau prototip → veri kaynağı yönetimi → yayınlama → veri yenileme.
- Python: matplotlib/Plotly; tema/şablon tutarlılığı; yeniden üretilebilirlik.
- Dashboard Tasarımı
- KPI hiyerarşisi, filtre/etkileşim, drill-down, uyarı/abonelik; kullanım izinleri.
- Anti-Paternler
- Eksen manipülasyonu, cherry-picking, 3D/gradient yanılsamalar, cut-off tuzakları.
- Uygulama
- “Tek sayfa yönetici özeti” çalışması: problem → metrik → bulgu → öneri.
8. Verilerle Hikâye Anlatmak ve Görselleştirmek (İleri)
- Özet ve Hedef
- İnteraktif ve ileri düzey görselleştirme, UX ve etki ölçümü.
- İnteraktif Çerçeveler
- D3.js, Dash/Streamlit; callback, state yönetimi; performans (virtualization, lazy load).
- Belirsizlik ve Güven
- Güven aralığı bantları, fan chart, posterior dağılım görselleştirmeleri.
- Coğrafi Görselleştirme
- Bölgesel yoğunluk, izohips, choropleth, akış haritaları; projeksiyon seçimi.
- UX ve Kullanılabilirlik
- Personae ve görev akışları; prototip → kullanıcı testi → iterasyon.
- Mobil/masaüstü kırılımı; yükleme süresi ve algısal performans.
- Sunum ve İkna
- “Önce problem” yaklaşımı; canlı demo akışı; beklenen sorulara görsel yanıt hazırlama.
- Etki Ölçümü
- Kullanım telemetrisi; A/B ile mizanpaj testleri; anket ve NPS ile nitel geri bildirim.
- Standartlaşma
- Kurumsal stil rehberi; bileşen kütüphanesi; versiyon ve değişiklik kayıtları.
- Uygulama
- Coğrafi satış paneli + belirsizlik bantları + kullanıcı testi döngüsü.