Regression Discontinuity Design (RDD)

class: center, middle, inverse, title-slide

.title[
# Regression Discontinuity Design (RDD)
]
.subtitle[
## Pratiques de la Recherche en Économie
]
.author[
### Florentine Oliveira
]
.date[
### 2025-04-11
]

---

layout: true

---
# 1. Intuition et définitions

De nombreux traitements sont définis selon une **règle/un seuil**.

Par exemple:
- le revenu à partir duquel un individu peut bénéficier d'une prestation sociale
- l'âge d'entrée à l'école, âge légal pour avoir droit de vote, consommer de l'alcool (majorité)
- moyenne au bac requise pour pouvoir candidater à certaines écoles

La régression sur discontinuité, ou ***Regression Discontinuity Design***, exploite ce(s) seuil(s) pour estimer l'effet causal du traitement.

Intuition: **exogeneité locale**
- les individus proches du seuil sont raisonnablement comparables
- cependant ceux au-dessus du seuil sont traîtés alors que ceux en dessous ne le sont pas
- la discontinuité crée une **quasi-expérience** au voisinage du seuil de discontinuité 
 - autour du seuil, l'allocation au traitement est *as good as random*

---
# 1. Intuition & définitions

### Formellement

Si l'on revient au framework des outcomes potentiels:

`$$Y_i = Y_{1i} D_i + Y_{0i}(1-D_i)$$`

Maintenant,

`$$D_i = \mathbb{1}\{X_i \ge c\}$$`

où `$X_i$` est appelée ***running/forcing variable***, c'est à dire la variable (*continue*) sur laquelle s'applique le critère de sélection dans le traitement.

i.e. la probabilité pour l'individu `$i$` d'être traîté passe de 0 à 1 au seuil de discontinuité `$c$`

Deux types de régressions sur discontinuité:
- **sharp**: la probabilité de traitement devient certaine au seuil `$c$` (ex: la consommation légale d'alcool ( `$D_i$` ) à partir d'un certain âge ( `$X_i$` ))
- **fuzzy**: la probabilité de traitement augmente au seuil `$c$` mais ne passe pas nécessairement à 1 (ex:)

---
# 1. Intuition & définitions

&nbsp;

***Bandwith***: intervalle autour du seuil de discontinuité dans lequel on conserve les observations pour estimer l'effet du traitement. 
 `$\implies$` Arbitrage:
 - un bandwith trop étroit peut limiter le nombre d'observations
 - un bandwith trop large peut inclure des observations moins comparables

&nbsp;

***Forme fonctionnelle***: désigne la spécification de la relation entre l'outcome et la forcing variable dans le modèle de régression. Elle peut être linéaire, polynomiale, etc.

---
count:false
class: middle, center
background-color: #dd0747

# 2. Sharp RDD

---
# 2. Sharp RDD
## 2.1. Définition de l'estimateur

L'estimateur de l'effet causal du traitement `$D_i$` sur `$Y_i$` revient alors à comparer la moyenne de l'outcome `$Y_i$` de part et d'autre du seuil `$c$`:

`$$\begin{align} \beta_{\text{RDD}}^{\text{sharp}} &= \underset{x \rightarrow c^{+}}{\text{lim}} \mathbb{E}(Y_i | X_i = x) - \underset{x \rightarrow c^{-}}{\text{lim}} \mathbb{E}(Y_i | X_i = x) \\  &= \underset{x \rightarrow c^{+}}{\text{lim}} \mathbb{E}(\color{#9e5188}{Y_{1i}} | X_i = x) - \underset{x \rightarrow c^{-}}{\text{lim}} \mathbb{E}(\color{#27b072}{Y_{0i}} | X_i = x) \end{align}$$`

---
# 2. Sharp RDD
## 2.1. Définition de l'estimateur

L'estimateur de l'effet causal du traitement `$D_i$` sur `$Y_i$` revient alors à comparer la moyenne de l'outcome `$Y_i$` de part et d'autre du seuil `$c$`:

---
# 2. Sharp RDD
## 2.2. Hypothèse d'identification

&nbsp;

**Hypothèse d'identification: `$\color{#9933FF}{\mathbb{E}(Y_{1i} | X_i = x)}$` et `$\color{#9933FF}{\mathbb{E}(Y_{0i} | X_i = x)}$` sont continues en `$\color{#9933FF}{x}$`**

Donc. `$\beta_{\text{RDD}}^{\text{sharp}} =\mathbb{E}(Y_i | X_i = c) - \mathbb{E}(Y_i | X_i = c)  =  \mathbb{E}(\color{#eb9b34}{Y_{1i}} - \color{#aa6ff2}{Y_{0i}} | X_i = c)$`

&nbsp;

L'estimateur `$\beta_{\text{RDD}}^{\text{sharp}}$` est un estimateur local de l'effet moyen du traitement (***LATE***).

**NB**: on n'a pas fait l'hypothèse ici d'assignation aléatoire du traitement `$D_i$` (et donc `$X_i$`).

---
# 2. Sharp RDD
## 2.3. Exemples