Data Science
Projekty analityczne skupiające się na eksploracyjnej analizie danych (EDA), wizualizacji i odkrywaniu insightów w danych.
Przegląd Projektów
-
Analiza EDA - Irisy
Klasyczna analiza zbioru danych Iris - podstawy EDA i wizualizacji.
-
Analiza EDA - Titanic
Eksploracyjna analiza danych pasażerów Titanica.
Czym jest EDA?
Exploratory Data Analysis (EDA) to proces wstępnej analizy danych mający na celu:
- 🔍 Poznanie struktury danych - typy zmiennych, rozmiar dataset
- 📊 Zrozumienie rozkładów - statystyki opisowe, histogramy
- 🔗 Znajdowanie relacji - korelacje między zmiennymi
- ❓ Identyfikacja problemów - braki danych, outliers, duplikaty
- 💡 Generowanie hipotez - wstępne insights do modelowania
Proces EDA
graph TD
A[Import Danych] --> B[Pierwszy Rzut Oka]
B --> C[Typy i Braki Danych]
C --> D[Statystyki Opisowe]
D --> E[Wizualizacje Rozkładów]
E --> F[Analiza Korelacji]
F --> G[Outliers Detection]
G --> H[Segmentacja i Grouping]
H --> I[Wnioski i Hipotezy]
Narzędzia i Technologie
Podstawowe Biblioteki
- Pandas - manipulacja i analiza danych
- NumPy - operacje numeryczne
- Jupyter Notebooks - interaktywna analiza
Wizualizacje
- Matplotlib - podstawowe wykresy
- Seaborn - zaawansowane wizualizacje statystyczne
- Plotly - interaktywne wykresy
- Missingno - wizualizacja braków danych
Analiza Statystyczna
- SciPy - testy statystyczne
- Statsmodels - modelowanie statystyczne
Rodzaje Analiz
1️⃣ Analiza Jednowymiarowa (Univariate)
Analiza pojedynczych zmiennych:
- Statystyki opisowe (mean, median, std, min, max)
- Rozkłady (histogramy, density plots)
- Outliers (box plots)
- Częstości dla zmiennych kategorycznych
2️⃣ Analiza Dwuwymiarowa (Bivariate)
Relacje między dwiema zmiennymi:
- Scatter plots dla zmiennych numerycznych
- Box plots dla kategorycznych vs numeryczne
- Bar plots dla dwóch kategorycznych
- Korelacje (Pearson, Spearman)
3️⃣ Analiza Wielowymiarowa (Multivariate)
Relacje między wieloma zmiennymi:
- Correlation matrices (heatmapy)
- Pair plots
- Parallel coordinates
- Dimensionality reduction (PCA, t-SNE)
Typowe Problemy w Danych
Braki Danych (Missing Values)
- Identyfikacja braków
- Analiza wzorców braków (MCAR, MAR, MNAR)
- Strategie uzupełniania (imputation)
Outliers
- Detekcja outliers (IQR, Z-score)
- Analiza czy to błędy czy prawdziwe wartości
- Decyzja o usunięciu lub transformacji
Duplikaty
- Identyfikacja duplikatów
- Analiza przyczyn duplikatów
- Usuwanie lub merge duplikatów
Niezbalansowane Klasy
- Analiza dystrybucji klas
- Wpływ na modelowanie
- Strategie balansowania
Kluczowe Wizualizacje EDA
Dla Zmiennych Numerycznych
# Histogram - rozkład
sns.histplot(data=df, x='age')
# Box plot - outliers
sns.boxplot(data=df, y='salary')
# Density plot - rozkład gładki
sns.kdeplot(data=df, x='score')
Dla Zmiennych Kategorycznych
# Count plot - częstości
sns.countplot(data=df, x='category')
# Pie chart - proporcje
df['status'].value_counts().plot(kind='pie')
Dla Relacji
# Scatter plot - relacja 2 zmiennych
sns.scatterplot(data=df, x='age', y='income')
# Correlation heatmap
sns.heatmap(df.corr(), annot=True)
# Pair plot - wszystkie relacje
sns.pairplot(df)
Etapy Typowego EDA
1. Załadowanie i Pierwszy Rzut
2. Statystyki Opisowe
3. Braki Danych
4. Wizualizacje
import seaborn as sns
import matplotlib.pyplot as plt
# Numeric distributions
df.hist(figsize=(15, 10))
# Correlations
sns.heatmap(df.corr(), annot=True)
5. Wnioski
Dokumentowanie insights i hipotez do dalszej pracy.
Best Practices
✅ Zawsze zacznij od df.info() i df.describe()
✅ Wizualizuj wszystkie zmienne - wzrok wyłapie wzorce
✅ Szukaj outliers i braków danych
✅ Analizuj korelacje między zmiennymi
✅ Dokumentuj wszystkie obserwacje
✅ Generuj hipotezy do testowania
✅ Nie wyciągaj pochopnych wniosków - weryfikuj statystycznie
EDA to fundament każdego projektu Data Science. Dobrze przeprowadzona eksploracja danych to klucz do sukcesu w modelowaniu!