Machine Learning

Projekty predykcyjne wykorzystujące różne techniki Machine Learning: klasyfikacja, regresja, clustering oraz pełne pipeline'y od eksploracji danych po deployment modeli.

Przegląd Projektów

📈 Regresja

Half Marathon Prediction

Prognozowanie czasów w półmaratonie na podstawie danych treningowych.

Zobacz projekt
House Price Regression

Predykcja cen nieruchomości na podstawie ich charakterystyk.

Zobacz projekt
Prognoza Cen Ubezpieczeń

Model regresji przewidujący koszty ubezpieczeń zdrowotnych.

Zobacz projekt

🎨 Clustering

Customer Segmentation

Segmentacja klientów przy użyciu algorytmów clusteringu.

Zobacz projekt

🎯 Klasyfikacja

Titanic Classification

Klasyczny problem przewidywania przeżycia pasażerów Titanica.

Zobacz projekt

🚀 Churn Prediction - Kompletny Pipeline

Seria projektów pokazująca pełny proces od analizy do wdrożenia:

1. Overfitting Analysis

Analiza i zapobieganie overfittingowi w modelach.

Zobacz
2. Model Tuning

Optymalizacja hiperparametrów modelu.

Zobacz
3. Recall & Threshold

Optymalizacja threshold dla lepszego recall.

Zobacz
4. Model Deployment

Wdrożenie modelu do produkcji.

Zobacz
5. Model Explainability

Interpretowalność modelu i SHAP values.

Zobacz

Technologie i Narzędzia

Biblioteki ML

Scikit-learn - główna biblioteka ML
XGBoost - gradient boosting
LightGBM - szybki gradient boosting
CatBoost - boosting dla danych kategorycznych

Preprocessing & Feature Engineering

Pandas - manipulacja danymi
NumPy - operacje numeryczne
Category Encoders - kodowanie zmiennych kategorycznych
Feature Engine - feature engineering

Model Evaluation

Metrics - accuracy, precision, recall, F1, ROC-AUC
Cross-validation - walidacja krzyżowa
Confusion Matrix - macierz pomyłek

Interpretability

SHAP - Shapley Additive Explanations
LIME - Local Interpretable Model-agnostic Explanations
Feature Importance - ważność cech

Deployment

Pickle/Joblib - serializacja modeli
Flask/FastAPI - API dla modeli
Docker - konteneryzacja
MLflow - tracking eksperymentów

Proces ML Pipeline

graph TD
    A[Problem Definition] --> B[Data Collection]
    B --> C[EDA]
    C --> D[Data Preprocessing]
    D --> E[Feature Engineering]
    E --> F[Model Selection]
    F --> G[Training]
    G --> H[Evaluation]
    H --> I{Good enough?}
    I -->|No| J[Hyperparameter Tuning]
    J --> G
    I -->|Yes| K[Model Explainability]
    K --> L[Deployment]
    L --> M[Monitoring]

Rodzaje Problemów ML

Klasyfikacja

Przewidywanie kategorii (binarna lub wieloklasowa). Przykłady: spam/not spam, diagnoza chorób, ocena ryzyka kredytowego.

Regresja

Przewidywanie wartości ciągłych. Przykłady: ceny nieruchomości, temperatura, przychody.

Clustering

Grupowanie podobnych obiektów bez etykiet. Przykłady: segmentacja klientów, wykrywanie anomalii.

Time Series

Prognozowanie szeregów czasowych. Przykłady: sprzedaż, ceny akcji, popyt.

Metryki Ewaluacji

Klasyfikacja

Accuracy - ogólna dokładność
Precision - precyzja (ile z pozytywnych to prawdziwie pozytywne)
Recall - czułość (ile prawdziwych pozytywnych złapaliśmy)
F1-Score - średnia harmoniczna precision i recall
ROC-AUC - pole pod krzywą ROC

Regresja

MAE - Mean Absolute Error
MSE - Mean Squared Error
RMSE - Root Mean Squared Error
R² - współczynnik determinacji
MAPE - Mean Absolute Percentage Error

Każdy projekt w tym portfolio pokazuje różne aspekty pracy z Machine Learning - od podstawowych algorytmów, przez trenning modelu, tuning aż po deployment.