Agent, Environment, Reward

Reinforcement Learning (RL) में एक एजेंट को एक वातावरण (Environment) में रखा जाता है।
वो किसी स्थिति (State) में होता है, वहाँ से एक Action लेता है, और बदले में उसे Reward मिलता है।

सोचिए एक रोबोट का, जो maze से बाहर निकलने की कोशिश कर रहा है — उसे सही रास्ता सीखने के लिए कई बार try करना होगा।


🔑 Key Concepts:

Termअर्थ (Meaning)
Agentवह learner या decision-maker जो actions लेता है
Environmentबाहरी दुनिया जिससे agent interact करता है
State (S)उस समय की स्थिति जहाँ agent है
Action (A)agent द्वारा उठाया गया कदम या फैसला
Reward (R)किसी action पर environment द्वारा दिया गया feedback
Policy (π)Agent का strategy, जो बताती है किस state में कौनसा action लेना है
Value (V)किसी स्थिति में मिलने वाले भविष्य के rewards का अनुमान
Episodeशुरू से लेकर एक goal तक का पूरा sequence

🔄 Agent-Environment Loop:

यह एक continuous feedback loop होता है:

(State s_t) --[action a_t]--> (Environment) --[Reward r_t, next state s_{t+1}]--> (Agent)

Diagram:

+-----------+        action a_t         +-------------+
| | -----------------------> | |
| AGENT | | ENVIRONMENT |
| | <----------------------- | |
+-----------+ r_t, s_{t+1} +-------------+

🧠 उद्देश्य:

Agent का लक्ष्य होता है:

Maximum cumulative reward (return) प्राप्त करना

Return:

जहाँ

  • γ: Discount Factor (0 < γ ≤ 1)
  • Future rewards की importance को नियंत्रित करता है

🎮 उदाहरण:

ProblemAgentEnvironmentReward
गेम खेलना (e.g. Chess)Chess AIChess boardजीतने पर +1, हारने पर -1
Self-driving carCar controllerसड़क और ट्रैफिकटकराने पर -ve, सही चलने पर +ve
Robo-navigationRobotMaze/GridExit मिलने पर +10

🧮 Formal Definition (Markov Decision Process – MDP):

Reinforcement Learning को formal रूप में एक MDP से दर्शाया जा सकता है: MDP=(S,A,P,R,γ)

जहाँ:

  • S: States का सेट
  • A: Actions का सेट
  • P: Transition probabilities
  • R: Reward function
  • γ: Discount factor

✅ Python Code Example (Gym Environment):

import gym

# Environment
env = gym.make("CartPole-v1")
state = env.reset()

for _ in range(10):
env.render()
action = env.action_space.sample() # Random action
next_state, reward, done, info = env.step(action)
print("Reward:", reward)
if done:
break

env.close()

🎯 Summary Table:

TermDescription
AgentDecision-maker (e.g., robot, AI model)
EnvironmentExternal system (e.g., game, world)
StateCurrent situation or context
ActionAgent का निर्णय या प्रयास
Rewardपर्यावरण का response, जो सीखने में मदद करता
Policyनियम जो बताता है क्या करना है
GoalTotal reward को maximize करना

📝 Practice Questions:

  1. Reinforcement Learning में Agent और Environment क्या भूमिका निभाते हैं?
  2. Reward और Return में क्या अंतर है?
  3. Discount factor (γ\gammaγ) क्या है और इसका महत्व क्या है?
  4. RL में Policy और Value function का क्या कार्य होता है?
  5. कोई real-life उदाहरण दीजिए जहाँ RL model प्रयोग हो सकता है।