Machine Learning
Projekty predykcyjne wykorzystujące różne techniki Machine Learning: klasyfikacja, regresja, clustering oraz pełne pipeline'y od eksploracji danych po deployment modeli.
Przegląd Projektów
📈 Regresja
-
Half Marathon Prediction
Prognozowanie czasów w półmaratonie na podstawie danych treningowych.
-
House Price Regression
Predykcja cen nieruchomości na podstawie ich charakterystyk.
-
Prognoza Cen Ubezpieczeń
Model regresji przewidujący koszty ubezpieczeń zdrowotnych.
🎨 Clustering
-
Customer Segmentation
Segmentacja klientów przy użyciu algorytmów clusteringu.
🎯 Klasyfikacja
-
Titanic Classification
Klasyczny problem przewidywania przeżycia pasażerów Titanica.
🚀 Churn Prediction - Kompletny Pipeline
Seria projektów pokazująca pełny proces od analizy do wdrożenia:
-
1. Overfitting Analysis
Analiza i zapobieganie overfittingowi w modelach.
-
2. Model Tuning
Optymalizacja hiperparametrów modelu.
-
3. Recall & Threshold
Optymalizacja threshold dla lepszego recall.
-
4. Model Deployment
Wdrożenie modelu do produkcji.
-
5. Model Explainability
Interpretowalność modelu i SHAP values.
Technologie i Narzędzia
Biblioteki ML
- Scikit-learn - główna biblioteka ML
- XGBoost - gradient boosting
- LightGBM - szybki gradient boosting
- CatBoost - boosting dla danych kategorycznych
Preprocessing & Feature Engineering
- Pandas - manipulacja danymi
- NumPy - operacje numeryczne
- Category Encoders - kodowanie zmiennych kategorycznych
- Feature Engine - feature engineering
Model Evaluation
- Metrics - accuracy, precision, recall, F1, ROC-AUC
- Cross-validation - walidacja krzyżowa
- Confusion Matrix - macierz pomyłek
Interpretability
- SHAP - Shapley Additive Explanations
- LIME - Local Interpretable Model-agnostic Explanations
- Feature Importance - ważność cech
Deployment
- Pickle/Joblib - serializacja modeli
- Flask/FastAPI - API dla modeli
- Docker - konteneryzacja
- MLflow - tracking eksperymentów
Proces ML Pipeline
graph TD
A[Problem Definition] --> B[Data Collection]
B --> C[EDA]
C --> D[Data Preprocessing]
D --> E[Feature Engineering]
E --> F[Model Selection]
F --> G[Training]
G --> H[Evaluation]
H --> I{Good enough?}
I -->|No| J[Hyperparameter Tuning]
J --> G
I -->|Yes| K[Model Explainability]
K --> L[Deployment]
L --> M[Monitoring]
Rodzaje Problemów ML
Klasyfikacja
Przewidywanie kategorii (binarna lub wieloklasowa). Przykłady: spam/not spam, diagnoza chorób, ocena ryzyka kredytowego.
Regresja
Przewidywanie wartości ciągłych. Przykłady: ceny nieruchomości, temperatura, przychody.
Clustering
Grupowanie podobnych obiektów bez etykiet. Przykłady: segmentacja klientów, wykrywanie anomalii.
Time Series
Prognozowanie szeregów czasowych. Przykłady: sprzedaż, ceny akcji, popyt.
Metryki Ewaluacji
Klasyfikacja
- Accuracy - ogólna dokładność
- Precision - precyzja (ile z pozytywnych to prawdziwie pozytywne)
- Recall - czułość (ile prawdziwych pozytywnych złapaliśmy)
- F1-Score - średnia harmoniczna precision i recall
- ROC-AUC - pole pod krzywą ROC
Regresja
- MAE - Mean Absolute Error
- MSE - Mean Squared Error
- RMSE - Root Mean Squared Error
- R² - współczynnik determinacji
- MAPE - Mean Absolute Percentage Error
Każdy projekt w tym portfolio pokazuje różne aspekty pracy z Machine Learning - od podstawowych algorytmów, przez trenning modelu, tuning aż po deployment.