In [None]:
# import of needed libraries

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

try:
    from ipywidgets import interact
except ImportError:
    !pip install ipywidgets
    from ipywidgets import interact

try:
    import statsmodels.api as sm
except ImportError:
    !pip install statsmodels
    import statsmodels.api as sm

try:
    from scipy import stats
except ImportError:
    !pip install scipy
    from scipy import stats

from scipy.stats import f
from scipy.stats import t

In [4]:
#Definition of the functions DO NOT MODIFY
def create_data():
    global data
    np.random.seed(0)

    # Generate random data

    n = 500
    x = np.random.lognormal(mean=0, sigma=.4, size=n) 

    y = 0.87 * x + np.sqrt(1 - 0.95**2)  * np.random.randn(n)  + 0.23


    # Create a DataFrame
    data = pd.DataFrame({'x': x, 'y': y})
    return data

def update_plot(a=0.0, b=0.0):
    global data
    plt.scatter(data['x'], data['y'])
    y_pred = a * data['x'] + b
    plt.plot(data['x'], y_pred, color='red')
    plt.title('Scatter plot of x and y')
    plt.xlabel('x')
    plt.ylabel('y')
    plt.xlim(data['x'].min(), data['x'].max())
    plt.ylim(data['y'].min(), data['y'].max())
    plt.show()
    
    # Calculate SSR
    ssr = np.sum((data['y'] - y_pred) ** 2)
    print(f"Error: {ssr}")

def sm_model():
    X,y = data['x'], data['y']
    # Add a constant to the independent variable matrix
    X_with_const = sm.add_constant(X)

    # Fit the regression model
    model = sm.OLS(y, X_with_const).fit()

    # Print the summary of the regression
    print(model.summary())

# Regression linéaire
## Manuelle
Dans les cellules suivantes vous allez essayer de reliez les deux données X and Y ensemble en utilisant le slider et l'erreur. 

- Arrivez vous à trouver la plus petit erreur ? 
- Est-ce vraiement la plus petite
- Est-ce efficace ? 


In [None]:
data = create_data()

interact(update_plot, a=(-2.0, 2.0), b=(-2.0, 2.0))

## Automatique  
Dans les cellules suivantes, créez un petit outil qui permet de trouver les meilleures combinaison de paramètres pour $y = ax + b$ (linéaire) qui minise $R$. Suivant se trouve la solution théorique, implementez la solution en python (pas besoin de faire toute la démonstration)

$$ R = \sum (y_i - y)^2 = \sum (y_i - (ax_i + b))^2 $$

Les dérivées partielles par rapport à $a$ et $b$: Pour minimiser $R$, nous devons trouver les dérivées partielles de $R$ par rapport à $a$ et $b$, et les mettre à zéro.

$$ \frac{\partial R}{\partial a} = \frac{\partial}{\partial a} \sum_{i=1}^n (y_i - (ax_i + b))^2 $$ 
$$\frac{\partial R}{\partial b} = \frac{\partial}{\partial b} \sum_{i=1}^n (y_i - (ax_i + b))^2 $$

Calculer les dérivées partielles: 
$$ \frac{\partial R}{\partial a} = \sum_{i=1}^n -2x_i(y_i - (ax_i + b)) $$ 
$$ \frac{\partial R}{\partial b} = \sum_{i=1}^n -2(y_i - (ax_i + b)) $$

Mettre les dérivées partielles à zéro: 
$$ \sum_{i=1}^n -2x_i(y_i - (ax_i + b)) = 0 $$
$$ \sum_{i=1}^n -2(y_i - (ax_i + b)) = 0 $$

Simplifier les équations: 
$$\sum_{i=1}^n x_i y_i - a \sum_{i=1}^n x_i^2 - b \sum_{i=1}^n x_i = 0 $$
 $$ \sum_{i=1}^n y_i - a \sum_{i=1}^n x_i - b n = 0 $$

Résoudre le système d'équations linéaires: Nous avons deux équations: 
$$ \sum_{i=1}^n x_i y_i = a \sum_{i=1}^n x_i^2 + b \sum_{i=1}^n x_i $$
$$ \sum_{i=1}^n y_i = a \sum_{i=1}^n x_i + b n $$

Soit ($ S_x = \sum_{i=1}^n x_i $), ($ S_y = \sum_{i=1}^n y_i$ ), ( $S_{xx} = \sum_{i=1}^n x_i^2$ ), ($ S_{xy} = \sum_{i=1}^n x_i y_i $), et ( n ) le nombre de points de données.

Les équations deviennent: $S_{xy} = a S_{xx} + b S_x  S_y = a S_x + b n $

Résoudre pour $a$ et $b$: 
$$ a = \frac{n S_{xy} - S_x S_y}{n S_{xx} - S_x^2}$$
$$ b = \frac{S_y - a S_x}{n} $$
Ainsi, les valeurs de $a$ et $b$ qui minimisent l'équation sont: 
$$ a = \frac{n \sum_{i=1}^n x_i y_i - (\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)}{n \sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2} $$
$$  b = \frac{\sum_{i=1}^n y_i - a \sum_{i=1}^n x_i}{n} $$

Où:
- $ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i $ est la moyenne de $ x $
- $ \bar{y} = \frac{1}{n} \sum_{i=1}^n y_i $ est la moyenne de $ y $

Ainsi, les équations peuvent également être écrites comme suit:
$$ a = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} $$
$$ b = \bar{y} - a \bar{x} $$



In [None]:
#Votre code ici Trouver a_best and b_best


a_best = ...
b_best = ...
print(f"Best fit line: y = {a_best:.2f}x + {b_best:.2f}")




## Trouver la valeur de R² en utilisant vos résultats

In [None]:
r_squared = ...

print(f"R²: {r_squared}")

## Faire une figure des résidus en fonction de y prédit
Commentez la figure

In [None]:
# Calculate the residuals
residuals = ...


fig,ax = plt.subplots(figsize=(10,5))

ax.plot(a_best * data['x'] + b_best, residuals, 'o')

ax.set(xlabel='Fitted values', ylabel='Residuals',
       title='Residuals vs Fitted values')

## Calculer les Moyennes des carrées de résidus (MCR) et les erreurs standards de a et b ($\hat{\sigma_a}$ et $\hat{\sigma_b}$) 

In [None]:
n = len(data)

# Calculez la  Moyennes des carrées de résidus (MCR) 
MCR = ...

# Calculez l'erreur standard pour a
SE_a = ...

# Calculez l'erreur standard pour a
SE_b = ...

print(f"Standard Error of a: {SE_a}")
print(f"Standard Error of b: {SE_b}")


## Testez pour a et b si l'hypothèse a=0 (b=0) peut être rejeté
Utiliser le test student plutot que Fisher

In [None]:


# Trouver le t-statistic pour a
t_statistic = ...

# Degrée de libertée
df = ...
# p_value pour le test de student
p_value = 2 * (1 - stats.t.cdf(abs(t_statistic), df))

print(f"t-statistic pour a: {t_statistic}")
print(f"p-valeur: {p_value}")

# Déterminer si nous rejetons l'hypothèse nulle
alpha = 0.05
if p_value < alpha:
    print("Rejeter l'hypothèse nulle: Il y a une relation significative entre x et y.")
else:
    print("Ne pas rejeter l'hypothèse nulle: Il n'y a pas de relation significative entre x et y.")

# Calculer le t-statistic pour b
t_statistic_b = ...

# Calculer la p-valeur pour b
p_value_b = 2 * (1 - stats.t.cdf(abs(t_statistic_b), df))
print('----------------------')
print(f"t-statistic pour b: {t_statistic_b}")
print(f"p-valeur pour b: {p_value_b}")

# Déterminer si nous rejetons l'hypothèse nulle pour l'intercept
if p_value_b < alpha:
    print("Rejeter l'hypothèse nulle pour b: L'intercept est significativement différent de zéro.")
else:
    print("Ne pas rejeter l'hypothèse nulle pour b: L'intercept n'est pas significativement différent de zéro.")


## Calculer F et testez l'hypothèse

In [None]:
k = 1  # nombre de prédicteurs

# Calculer la statistique F
F_statistic = ...

# Calculer la valeur critique de la distribution F
F_critical = f.ppf(1 - alpha, k, df)

print(f"Statistique F: {F_statistic}")
print(f"Valeur critique F: {F_critical}")

# Déterminer si nous rejetons l'hypothèse nulle
if F_statistic > F_critical:
    print("Rejeter l'hypothèse nulle: Le modèle est significatif.")
else:
    print("Ne pas rejeter l'hypothèse nulle: Le modèle n'est pas significatif.")


### Dessous se trouve intervalle de confiance de a et b, non expliqué dans les notes, en regardant le code, proposez une explication

In [None]:
# Calculer l'intervalle de confiance à 95% pour a
t_critical = stats.t.ppf(1 - alpha/2, df)
CI_a_lower = a_best - t_critical * SE_a
CI_a_upper = a_best + t_critical * SE_a

# Calculer l'intervalle de confiance à 95% pour b
CI_b_lower = b_best - t_critical * SE_b
CI_b_upper = b_best + t_critical * SE_b

print(f"Intervalle de confiance à 95% pour a: [{CI_a_lower}, {CI_a_upper}]")
print(f"Intervalle de confiance à 95% pour b: [{CI_b_lower}, {CI_b_upper}]")

In [None]:
sm_model()