# Podstawowe biblioteki do pracy z danymi
import pandas as pd  # Do pracy z tabelami danych
import numpy as np  # Do operacji matematycznych
import os  # Do operacji na folderach i plikach
import shutil  # Do przenoszenia plików

# PyCaret - framework do machine learning
from pycaret.classification import *  # Funkcje do modeli klasyfikacyjnych

# SHAP - biblioteka do interpretacji modeli
import shap  # Główna biblioteka SHAP
shap.initjs()  # Inicjalizacja wizualizacji JavaScript dla SHAP

# Biblioteki do wizualizacji
import matplotlib.pyplot as plt  # Podstawowa biblioteka do wykresów
import seaborn as sns  # Ładniejsze wykresy

# Ustawienia estetyczne dla wykresów
sns.set_style('whitegrid')  # Styl z białym tłem i siatką
plt.rcParams['figure.figsize'] = (12, 6)  # Domyślny rozmiar wykresów

# Import metadanych modelu
import json  # Do wczytania informacji o modelu

# Utworzenie folderów na wyniki (jeśli nie istnieją)
os.makedirs('plots', exist_ok=True)  # Folder na wykresy
os.makedirs('data', exist_ok=True)  # Folder na dane eksportowane

print("✅ Wszystkie biblioteki zaimportowane!")
print("✅ Foldery plots/ i data/ utworzone/zweryfikowane!")

✅ Wszystkie biblioteki zaimportowane!

print("="*80)
print("📂 WCZYTYWANIE DANYCH I MODELU")
print("="*80)

# Wczytanie datasetu klientów telekomunikacyjnych
df = pd.read_csv('data/WA_Fn-UseC_-Telco-Customer-Churn.csv')
print(f"\n✅ Wczytano dane: {len(df)} klientów, {len(df.columns)} kolumn")

# Przygotowanie danych (takie same kroki jak podczas treningu)
df = df.drop('customerID', axis=1)  # Usunięcie kolumny ID (nie jest cechą predykcyjną)
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')  # Konwersja na liczby
df['TotalCharges'].fillna(0, inplace=True)  # Wypełnienie brakujących wartości zerem

print("✅ Dane przygotowane (usunięto ID, wypełniono braki)")

# Wyświetlenie pierwszych wierszy
print("\n📊 Pierwsze 3 wiersze danych:")
df.head(3)

================================================================================
📂 WCZYTYWANIE DANYCH I MODELU
================================================================================

✅ Wczytano dane: 7043 klientów, 21 kolumn
✅ Dane przygotowane (usunięto ID, wypełniono braki)

📊 Pierwsze 3 wiersze danych:

# Wczytanie metadanych modelu (informacje o tym, jak był trenowany)
with open('model/metadata.json', 'r', encoding='utf-8') as f:
    metadata = json.load(f)  # Wczytanie pliku JSON z informacjami o modelu

# Wyświetlenie informacji o modelu
print("\n📋 Informacje o modelu:")
print(f"  Typ modelu: {metadata['model_type']}")  # Jaki algorytm (np. Logistic Regression)
print(f"  Optymalizacja: {metadata['optimized_for']}")  # Pod którą metrykę optymalizowano
print(f"  Data treningu: {metadata['train_date']}")  # Kiedy model został wytrenowany
print(f"  Próg decyzyjny: {metadata['threshold']}")  # Próg klasyfikacji (0.5 = 50%)

📋 Informacje o modelu:
  Typ modelu: LogisticRegression
  Optymalizacja: recall
  Data treningu: 2026-01-07 20:26:39
  Próg decyzyjny: 0.5

print("="*80)
print("⚙️ KONFIGURACJA PYCARET")
print("="*80)

# Konfiguracja środowiska PyCaret (takie same ustawienia jak podczas treningu)
clf_setup = setup(
    data=df,  # Nasze dane
    target='Churn',  # Kolumna do przewidywania (Yes/No)
    session_id=123,  # Seed dla powtarzalności wyników
    train_size=0.8,  # 80% danych na trening, 20% na test
    fold=5,  # 5-krotna walidacja krzyżowa
    normalize=True,  # Normalizacja danych numerycznych
    verbose=False,  # Wyłączenie szczegółowych logów
    memory=False  # Wyłączenie cachowania (zapobiega problemom z kompatybilnością)
)

print("\n✅ PyCaret skonfigurowany (80/20 split, normalizacja włączona)")

================================================================================
⚙️ KONFIGURACJA PYCARET
================================================================================

✅ PyCaret skonfigurowany (80/20 split, normalizacja włączona)

# Wczytanie zapisanego modelu
print("\n💾 Wczytywanie modelu...")
loaded_model = load_model('model/churn_model')  # Ładowanie modelu z pliku .pkl

print(f"✅ Model wczytany: {type(loaded_model).__name__}")
print(f"\n📊 Szczegóły modelu:")
print(loaded_model)  # Wyświetlenie parametrów modelu

💾 Wczytywanie modelu...
Transformation Pipeline and Model Successfully Loaded
✅ Model wczytany: Pipeline

📊 Szczegóły modelu:
Pipeline(memory=Memory(location=None),
         steps=[('label_encoding',
                 TransformerWrapperWithInverse(exclude=None, include=None,
                                               transformer=LabelEncoder())),
                ('numerical_imputer',
                 TransformerWrapper(exclude=None,
                                    include=['SeniorCitizen', 'tenure',
                                             'MonthlyCharges', 'TotalCharges'],
                                    transformer=SimpleImputer(add_indicator=False,
                                                              copy=True,
                                                              fill_value=None,
                                                              keep_empty...
                 TransformerWrapper(exclude=None, include=None,
                                    transformer=StandardScaler(copy=True,
                                                               with_mean=True,
                                                               with_std=True))),
                ('trained_model',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=1000,
                                    multi_class='auto', n_jobs=None,
                                    penalty='l2', random_state=123,
                                    solver='lbfgs', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

print("="*80)
print("📊 ANALIZA WAŻNOŚCI CECH (FEATURE IMPORTANCE)")
print("="*80)

# Wyciągnięcie nazw wszystkich cech (kolumn) użytych w modelu
feature_names = get_config('X_train').columns.tolist()
print(f"\n📋 Liczba cech w modelu: {len(feature_names)}")

# Wyświetlenie feature importance przy użyciu PyCaret
print("\n🔍 Generowanie wykresu Feature Importance...\n")
plot_model(loaded_model, plot='feature')  # Wyświetlenie w notebooku

# Zapis wykresu do pliku
plot_model(loaded_model, plot='feature', save=True)  # Zapis do pliku (domyślnie w katalogu głównym)

# Przeniesienie pliku do folderu plots
import shutil
if os.path.exists('Feature Importance.png'):
    shutil.move('Feature Importance.png', 'plots/Feature Importance.png')
    print("\n✅ Wykres zapisany jako: plots/Feature Importance.png")
else:
    print("\n⚠️ Plik Feature Importance.png nie został znaleziony")

================================================================================
📊 ANALIZA WAŻNOŚCI CECH (FEATURE IMPORTANCE)
================================================================================

📋 Liczba cech w modelu: 19

🔍 Generowanie wykresu Feature Importance...

================================================================================
📊 ANALIZA WAŻNOŚCI CECH (FEATURE IMPORTANCE)
================================================================================

📋 Liczba cech w modelu: 19

🔍 Generowanie wykresu Feature Importance...

================================================================================
📊 ANALIZA WAŻNOŚCI CECH (FEATURE IMPORTANCE)
================================================================================

📋 Liczba cech w modelu: 19

🔍 Generowanie wykresu Feature Importance...

================================================================================
📊 ANALIZA WAŻNOŚCI CECH (FEATURE IMPORTANCE)
================================================================================

📋 Liczba cech w modelu: 19

🔍 Generowanie wykresu Feature Importance...

✅ Wykres zapisany jako: Feature Importance.png

print("="*80)
print("🎯 ANALIZA SHAP")
print("="*80)

# Przygotowanie danych do analizy SHAP - używamy danych PRZED transformacją
# PyCaret predict_model() automatycznie wykona transformacje
X_train = get_config('X_train')  # Dane oryginalne (przed encoding i normalizacją)
print(f"\n📊 Rozmiar danych treningowych: {X_train.shape[0]} wierszy, {X_train.shape[1]} kolumn")

# Dla większych zbiorów danych - użyjemy próbki (szybsze obliczenia)
sample_size = 500  # Liczba klientów do analizy
X_sample = X_train.sample(n=min(sample_size, len(X_train)), random_state=42)  # Losowa próbka
print(f"📋 Użyto próbki: {len(X_sample)} klientów (dla szybszych obliczeń)")
print(f"📋 Nazwy cech: {list(X_sample.columns)[:5]}... (pierwsze 5)")

================================================================================
🎯 ANALIZA SHAP
================================================================================

📊 Rozmiar danych treningowych: 5634 wierszy, 19 kolumn
📋 Użyto próbki: 500 klientów (dla szybszych obliczeń)
📋 Nazwy cech: ['gender', 'SeniorCitizen', 'Partner', 'Dependents', 'tenure']... (pierwsze 5)

# Utworzenie eksplanera SHAP dla Logistic Regression
print("\n🔄 Tworzenie eksplanera SHAP...")

# Funkcja pomocnicza dla PyCaret predict_model
def model_predict(data):
    preds = predict_model(loaded_model, data=pd.DataFrame(data, columns=X_sample.columns))
    return preds['prediction_score_1'].values if 'prediction_score_1' in preds.columns else preds['prediction_score'].values

# KernelExplainer - najlepszy dla modeli z mieszanymi typami danych
# Jest wolniejszy ale działa niezawodnie z danymi kategorycznymi i numerycznymi
explainer = shap.KernelExplainer(model_predict, shap.sample(X_sample, 100))
print("✅ KernelExplainer utworzony (kompatybilny z danymi kategorycznymi i numerycznymi)")

🔄 Tworzenie eksplanera SHAP...

✅ KernelExplainer utworzony (kompatybilny z danymi kategorycznymi i numerycznymi)

# Obliczenie wartości SHAP dla każdego klienta
print("\n🔄 Obliczanie wartości SHAP (to może potrwać 2-3 minuty)...")

# KernelExplainer używa metody shap_values()
shap_values = explainer.shap_values(X_sample)  # Obliczenie wpływu każdej cechy dla każdego klienta

print("✅ Wartości SHAP obliczone!")
print(f"📊 Kształt wyników: {shap_values.shape}")

🔄 Obliczanie wartości SHAP (to może potrwać 2-3 minuty)...

  0%|          | 0/500 [00:00<?, ?it/s]

✅ Wartości SHAP obliczone!
📊 Kształt wyników: (500, 19)

# Generowanie SHAP Summary Plot
print("="*80)
print("📊 SHAP SUMMARY PLOT")
print("="*80)

plt.figure(figsize=(12, 8))  # Większy wykres dla lepszej czytelności

# Uniwersalny Explainer zwraca wartości dla klasy pozytywnej
# Jeśli są 2 klasy, mamy kształ (n_samples, n_features)
shap_values_to_plot = shap_values

# Utworzenie wykresu SHAP
shap.summary_plot(
    shap_values_to_plot,  # Wartości SHAP (wpływ cech)
    X_sample,  # Dane (wartości cech)
    feature_names=X_sample.columns,  # Nazwy cech
    show=False  # Nie pokazuj od razu (zapiszemy do pliku)
)

# Dodanie tytułu i opisów
plt.title('SHAP Summary Plot - Wpływ cech na odejście klientów', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Wpływ na predykcję (SHAP value)\n← Zmniejsza ryzyko churn | Zwiększa ryzyko churn →', fontsize=12)
plt.tight_layout()  # Automatyczne dopasowanie layoutu

# Zapis wykresu
plt.savefig('plots/shap_summary_plot.png', dpi=300, bbox_inches='tight')  # Wysoka rozdzielczość
print("\n✅ Wykres zapisany jako: plots/shap_summary_plot.png")

plt.show()  # Wyświetlenie wykresu

================================================================================
📊 SHAP SUMMARY PLOT
================================================================================

✅ Wykres zapisany jako: plots/shap_summary_plot.png

================================================================================
📊 SHAP SUMMARY PLOT
================================================================================

✅ Wykres zapisany jako: plots/shap_summary_plot.png

print("="*80)
print("📊 SHAP BAR PLOT - RANKING CECH")
print("="*80)

plt.figure(figsize=(10, 6))  # Rozmiar wykresu

# Utworzenie bar plot (wykres słupkowy)
shap.summary_plot(
    shap_values_to_plot,  # Wartości SHAP
    X_sample,  # Dane
    feature_names=X_sample.columns,  # Nazwy cech
    plot_type='bar',  # Typ wykresu: słupkowy
    show=False  # Nie pokazuj od razu
)

# Dodanie tytułu
plt.title('Ranking ważności cech (średni absolutny wpływ SHAP)', fontsize=14, fontweight='bold', pad=15)
plt.xlabel('Średni absolutny wpływ na predykcję', fontsize=11)
plt.tight_layout()

# Zapis wykresu
plt.savefig('plots/shap_bar_plot.png', dpi=300, bbox_inches='tight')
print("\n✅ Wykres zapisany jako: plots/shap_bar_plot.png")

plt.show()

================================================================================
📊 SHAP BAR PLOT - RANKING CECH
================================================================================

✅ Wykres zapisany jako: plots/shap_bar_plot.png

================================================================================
📊 SHAP BAR PLOT - RANKING CECH
================================================================================

✅ Wykres zapisany jako: plots/shap_bar_plot.png

print("="*80)
print("🔍 ANALIZA POJEDYNCZEGO KLIENTA (FORCE PLOT)")
print("="*80)

# Wybierzmy klienta z wysokim ryzykiem churn
customer_idx = 0  # Indeks klienta (możesz zmienić na inny)

print(f"\n👤 Analiza klienta #{customer_idx}")
print(f"\n📊 Cechy tego klienta:")
print(X_sample.iloc[customer_idx])  # Wyświetlenie wszystkich cech klienta

================================================================================
🔍 ANALIZA POJEDYNCZEGO KLIENTA (FORCE PLOT)
================================================================================

👤 Analiza klienta #0

📊 Cechy tego klienta:
gender                                 Male
SeniorCitizen                             0
Partner                                  No
Dependents                               No
tenure                                   36
PhoneService                            Yes
MultipleLines                            No
InternetService                          No
OnlineSecurity          No internet service
OnlineBackup            No internet service
DeviceProtection        No internet service
TechSupport             No internet service
StreamingTV             No internet service
StreamingMovies         No internet service
Contract                           One year
PaperlessBilling                        Yes
PaymentMethod       Credit card (automatic)
MonthlyCharges                        20.35
TotalCharges                     695.849976
Name: 4113, dtype: object

# Utworzenie Force Plot dla tego klienta
print("\n🔄 Generowanie Force Plot...")

# Zwiększamy rozmiar wykresu dla lepszej czytelności
plt.figure(figsize=(20, 3))  # Szeroki wykres = więcej miejsca na etykiety

# Force plot wymaga specjalnej wizualizacji
shap.force_plot(
    explainer.expected_value,  # Base value (średnia predykcja)
    shap_values_to_plot[customer_idx],  # Wartości SHAP dla tego klienta
    X_sample.iloc[customer_idx],  # Cechy tego klienta
    matplotlib=True,  # Użycie matplotlib (zamiast JavaScript)
    show=False,  # Nie pokazuj od razu
    text_rotation=45  # Obrót etykiet dla lepszej czytelności
)

# Dostosowanie czcionki
plt.gcf().set_size_inches(20, 3)  # Potwierdzenie rozmiaru
plt.tight_layout()

# Zapis wykresu
plt.savefig(f'plots/shap_force_plot_customer_{customer_idx}.png', dpi=300, bbox_inches='tight')
print(f"\n✅ Force plot zapisany jako: plots/shap_force_plot_customer_{customer_idx}.png")

plt.show()

🔄 Generowanie Force Plot...

✅ Force plot zapisany jako: plots/shap_force_plot_customer_0.png

🔄 Generowanie Force Plot...

✅ Force plot zapisany jako: plots/shap_force_plot_customer_0.png

<Figure size 2000x300 with 0 Axes>

🔄 Generowanie Force Plot...

✅ Force plot zapisany jako: plots/shap_force_plot_customer_0.png

<Figure size 2000x300 with 0 Axes>

# Waterfall plot - bardziej czytelna alternatywa dla Force Plot
print("\n🌊 Generowanie Waterfall Plot (bardziej czytelny)...")

# Utworzenie obiektu Explanation dla Waterfall
shap_explanation_single = shap.Explanation(
    values=shap_values_to_plot[customer_idx],
    base_values=explainer.expected_value,
    data=X_sample.iloc[customer_idx].values,
    feature_names=X_sample.columns.tolist()
)

# Generowanie waterfall plot
plt.figure(figsize=(10, 8))
shap.waterfall_plot(shap_explanation_single, max_display=15, show=False)  # Pokaż top 15 cech
plt.tight_layout()

# Zapis
plt.savefig(f'plots/shap_waterfall_plot_customer_{customer_idx}.png', dpi=300, bbox_inches='tight')
print(f"✅ Waterfall plot zapisany jako: plots/shap_waterfall_plot_customer_{customer_idx}.png")

plt.show()

🌊 Generowanie Waterfall Plot (bardziej czytelny)...
✅ Waterfall plot zapisany jako: plots/shap_waterfall_plot_customer_0.png

🌊 Generowanie Waterfall Plot (bardziej czytelny)...
✅ Waterfall plot zapisany jako: plots/shap_waterfall_plot_customer_0.png

# Stworzenie tabeli z najważniejszymi cechami i ich wpływem
print("="*80)
print("📊 EKSPORT WYNIKÓW")
print("="*80)

# Obliczenie średniego absolutnego wpływu dla każdej cechy
feature_importance_shap = pd.DataFrame({
    'Feature': X_sample.columns,  # Nazwy cech
    'Mean_Absolute_SHAP': np.abs(shap_values_to_plot).mean(axis=0)  # Średni absolutny wpływ
})

# Sortowanie od najważniejszej do najmniej ważnej
feature_importance_shap = feature_importance_shap.sort_values('Mean_Absolute_SHAP', ascending=False)

# Zapis do CSV
feature_importance_shap.to_csv('data/feature_importance_shap.csv', index=False)
print("\n✅ Ranking cech zapisany do: feature_importance_shap.csv")

# Wyświetlenie top 10
print("\n🏆 TOP 10 najważniejszych cech:")
print(feature_importance_shap.head(10).to_string(index=False))

================================================================================
📊 EKSPORT WYNIKÓW
================================================================================

✅ Ranking cech zapisany do: feature_importance_shap.csv

🏆 TOP 10 najważniejszych cech:
         Feature  Mean_Absolute_SHAP
          tenure            0.077525
 InternetService            0.031021
        Contract            0.030508
    TotalCharges            0.020747
  MonthlyCharges            0.017204
 StreamingMovies            0.010742
     TechSupport            0.009715
  OnlineSecurity            0.008724
     StreamingTV            0.007491
PaperlessBilling            0.006097

	gender	Partner	Dependents	tenure	PhoneService	MultipleLines	InternetService	OnlineSecurity	OnlineBackup	DeviceProtection	TechSupport	StreamingTV	StreamingMovies	Contract	PaperlessBilling	PaymentMethod	MonthlyCharges	TotalCharges	Churn
0	Female	Yes	No	1	No	No phone service	DSL	No	Yes	No	No	No	No	Month-to-month	Yes	Electronic check	29.85	29.85	No
1	Male	No	No	34	Yes	No	DSL	Yes	No	Yes	No	No	No	One year	No	Mailed check	56.95	1889.50	No
2	Male	No	No	2	Yes	No	DSL	Yes	Yes	No	No	No	No	Month-to-month	Yes	Mailed check	53.85	108.15	Yes

📚 Krok 1: Import bibliotek¶

📂 Krok 2: Wczytanie danych i modelu¶

⚙️ Krok 3: Konfiguracja PyCaret i wczytanie modelu¶

📊 Krok 4: Feature Importance - Które cechy są najważniejsze?¶

💡 Jak to działa:¶

🎯 Co to oznacza dla biznesu:¶

📖 Jak interpretować Feature Importance:¶

🎯 Krok 5: SHAP - Głęboka analiza wpływu cech¶

🎯 Cele analizy:¶

📊 Wykresy które stworzymy:¶

📊 Krok 6: Szczegółowa analiza SHAP z biblioteką SHAP¶

💡 Dlaczego SHAP bezpośrednio?¶

📊 Krok 7: SHAP Summary Plot - Kompleksowa wizualizacja¶

📖 Jak czytać ten wykres:¶

💼 Krok 8: Interpretacja biznesowa - Konkretne wnioski¶

🎯 JAK CZYTAĆ WYKRES SHAP (BARDZO WAŻNE!):¶

📋 WNIOSKI Z NASZEGO WYKRESU:¶

🏆 1. tenure (czas bycia klientem) - NAJWAŻNIEJSZA CECHA!¶

💰 2. TotalCharges (łączne opłaty) - PARADOKS!¶

💵 3. MonthlyCharges (miesięczne opłaty)¶

🎯 PRIORYTETOWE DZIAŁANIA (na podstawie SHAP):¶

🚨 Profil NAJWYŻSZEGO ryzyka:¶

📋 Strategia retencyjna - 4 kroki:¶

📊 Krok 9: SHAP Bar Plot - Średni wpływ cech¶

💡 Różnica między Summary Plot a Bar Plot:¶

🔄 SHAP Bar Plot vs Feature Importance (Krok 4):¶

📖 Interpretacja Bar Plot:¶

🎯 Krok 10: Analiza pojedynczego klienta (Force Plot)¶

💡 Co pokazuje Force Plot:¶

📖 Jak czytać Force Plot:¶

📖 Jak czytać Waterfall Plot:¶

⚠️ BARDZO WAŻNE - Różnica między Summary Plot a Waterfall:¶

🎯 Przykład różnic (NORMALNE!):¶

💼 Praktyczna analiza - co zrobić z tym klientem?¶

💼 Praktyczna analiza - co zrobić z tym klientem?¶

🌊 Alternatywa: Waterfall Plot (bardziej czytelny!)¶

📋 Krok 11: Podsumowanie i wnioski końcowe¶

✅ Co zrobiliśmy:¶

🎁 Kluczowe wnioski:¶

💼 Konkretne działania biznesowe:¶

🚀 Następne kroki:¶

📚 Co dalej się uczyć:¶

🎉 Gratulacje!¶

📊 BONUS: Eksport wyników dla managementu¶