Update reinforcement-learning.md

pull/1096/head
Ojaswi Chopra 2024-06-22 23:06:47 +05:30 zatwierdzone przez GitHub
rodzic d6f24246c7
commit 194fc52150
Nie znaleziono w bazie danych klucza dla tego podpisu
ID klucza GPG: B5690EEEBB952194
1 zmienionych plików z 1 dodań i 1 usunięć

Wyświetl plik

@ -113,7 +113,7 @@ Q-Learning is a model-free algorithm used in reinforcement learning to learn the
- Choose an action using an exploration strategy (e.g., epsilon-greedy).
- Take the action, observe the reward and the next state.
- Update the Q-value of the current state-action pair using the Bellman equation:
$$ Q(s, a) \leftarrow Q(s, a) + \alpha \left( r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right) $$
$$Q(s, a) \leftarrow Q(s, a) + \alpha \left( r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right)$$
where:
- $Q(s, a)$ is the Q-value of state $s$ and action $a$.