i think i hav repaired for current stuff

2023-01-13 09:21:23 +01:00
parent ee444cb56c
commit 200bb5da79
5 changed files with 27 additions and 21 deletions
--- a/main.py
+++ b/main.py
@@ -209,13 +209,14 @@ baseEconWrapper=BaseEconWrapper(econ)
 baseEconWrapper.run()
 mobileRecieverEconWrapper=RecieverEconWrapper(base_econ=baseEconWrapper,agent_classname="BasicMobileAgent")
 sb3Converter=SB3EconConverter(mobileRecieverEconWrapper,econ,"BasicMobileAgent")
-obs=sb3Converter.reset()
-vecenv=EconVecEnv(env_config=env_config)
+#obs=sb3Converter.reset()
+#vecenv=EconVecEnv(env_config=env_config)

-monenv=VecMonitor(venv=vecenv,info_keywords=["social/productivity","trend/productivity"])
-normenv=VecNormalize(monenv,norm_reward=False,clip_obs=1)
-stackenv=vec_frame_stack.VecFrameStack(venv=monenv,n_stack=10)
-obs=stackenv.reset()
+monenv=VecMonitor(venv=sb3Converter,info_keywords=["social/productivity","trend/productivity"])
+
+#normenv=VecNormalize(sb3Converter,norm_reward=False,clip_obs=1)
+#stackenv=vec_frame_stack.VecFrameStack(venv=monenv,n_stack=10)
+obs=monenv.reset()



@@ -224,8 +225,8 @@ obs=stackenv.reset()
 runname="run_{}".format(int(np.random.rand()*100))

 model = PPO("MlpPolicy",n_steps=int(env_config['episode_length']*2),ent_coef=0.1, vf_coef=0.8 ,gamma=0.95, learning_rate=5e-3,env=monenv, verbose=1,device="cuda",tensorboard_log="./log")
-
-total_required_for_episode=env_config['n_agents']*env_config['episode_length']
+n_agents=econ.n_agents
+total_required_for_episode=n_agents*env_config['episode_length']
 print("this is run {}".format(runname))
 while True:
    # Create Eval ENV
@@ -237,7 +238,7 @@ while True:
  
    #Train
    model=model.learn(total_timesteps=total_required_for_episode*50,progress_bar=True,reset_num_timesteps=False,tb_log_name=runname,callback=TensorboardCallback(econ=econ))
-    normenv.save("temp-normalizer.ai")
+    #normenv.save("temp-normalizer.ai")