Agent, Environment, Reward

Reinforcement Learning (RL) में एक एजेंट को एक वातावरण (Environment) में रखा जाता है।
वो किसी स्थिति (State) में होता है, वहाँ से एक Action लेता है, और बदले में उसे Reward मिलता है।

सोचिए एक रोबोट का, जो maze से बाहर निकलने की कोशिश कर रहा है — उसे सही रास्ता सीखने के लिए कई बार try करना होगा।

🔑 Key Concepts:

Term	अर्थ (Meaning)
Agent	वह learner या decision-maker जो actions लेता है
Environment	बाहरी दुनिया जिससे agent interact करता है
State (S)	उस समय की स्थिति जहाँ agent है
Action (A)	agent द्वारा उठाया गया कदम या फैसला
Reward (R)	किसी action पर environment द्वारा दिया गया feedback
Policy (π)	Agent का strategy, जो बताती है किस state में कौनसा action लेना है
Value (V)	किसी स्थिति में मिलने वाले भविष्य के rewards का अनुमान
Episode	शुरू से लेकर एक goal तक का पूरा sequence

🔄 Agent-Environment Loop:

यह एक continuous feedback loop होता है:

(State s_t) --[action a_t]--> (Environment) --[Reward r_t, next state s_{t+1}]--> (Agent)

Diagram:

+-----------+        action a_t         +-------------+
|           | -----------------------> |             |
|  AGENT    |                          | ENVIRONMENT |
|           | <----------------------- |             |
+-----------+     r_t, s_{t+1}         +-------------+

🧠 उद्देश्य:

Agent का लक्ष्य होता है:

Maximum cumulative reward (return) प्राप्त करना

Return:

जहाँ

γ: Discount Factor (0 < γ ≤ 1)
Future rewards की importance को नियंत्रित करता है

🎮 उदाहरण:

Problem	Agent	Environment	Reward
गेम खेलना (e.g. Chess)	Chess AI	Chess board	जीतने पर +1, हारने पर -1
Self-driving car	Car controller	सड़क और ट्रैफिक	टकराने पर -ve, सही चलने पर +ve
Robo-navigation	Robot	Maze/Grid	Exit मिलने पर +10

🧮 Formal Definition (Markov Decision Process – MDP):

Reinforcement Learning को formal रूप में एक MDP से दर्शाया जा सकता है: MDP=(S,A,P,R,γ)

जहाँ:

S: States का सेट
A: Actions का सेट
P: Transition probabilities
R: Reward function
γ: Discount factor

✅ Python Code Example (Gym Environment):

import gym

# Environment
env = gym.make("CartPole-v1")
state = env.reset()

for _ in range(10):
    env.render()
    action = env.action_space.sample()  # Random action
    next_state, reward, done, info = env.step(action)
    print("Reward:", reward)
    if done:
        break

env.close()

🎯 Summary Table:

Term	Description
Agent	Decision-maker (e.g., robot, AI model)
Environment	External system (e.g., game, world)
State	Current situation or context
Action	Agent का निर्णय या प्रयास
Reward	पर्यावरण का response, जो सीखने में मदद करता
Policy	नियम जो बताता है क्या करना है
Goal	Total reward को maximize करना

📝 Practice Questions:

Reinforcement Learning में Agent और Environment क्या भूमिका निभाते हैं?
Reward और Return में क्या अंतर है?
Discount factor (γ\gammaγ) क्या है और इसका महत्व क्या है?
RL में Policy और Value function का क्या कार्य होता है?
कोई real-life उदाहरण दीजिए जहाँ RL model प्रयोग हो सकता है।