Cleaned config

ansi-code · ansi-code · commit b5521ab9f29a · 2020-02-07T00:50:24.000+01:00
diff --git a/src/main/java/com/secureai/DQNMain.java b/src/main/java/com/secureai/DQNMain.java
@@ -12,6 +12,8 @@
 import com.secureai.utils.RLStatTrainingListener;
 import com.secureai.utils.YAML;
 import org.apache.log4j.BasicConfigurator;
+import org.deeplearning4j.optimize.listeners.PerformanceListener;
+import org.deeplearning4j.optimize.listeners.ScoreIterationListener;
 import org.deeplearning4j.rl4j.learning.sync.qlearning.QLearning;
 import org.deeplearning4j.rl4j.learning.sync.qlearning.discrete.QLearningDiscreteDense;
 import org.deeplearning4j.rl4j.network.dqn.DQN;
@@ -32,26 +34,26 @@ public static void main(String... args) throws IOException {
         ActionSet actionSet = YAML.parse(String.format("data/action-sets/action-set-%s.yml", argsMap.getOrDefault("actionSet", "paper")), ActionSet.class);
 
         QLearning.QLConfiguration qlConfiguration = new QLearning.QLConfiguration(
-                Integer.parseInt(argsMap.getOrDefault("seed", "123")),                //Random seed
+                Integer.parseInt(argsMap.getOrDefault("seed", "123")),                 //Random seed
                 Integer.parseInt(argsMap.getOrDefault("maxEpochStep", "1000")),        //Max step By epoch
-                Integer.parseInt(argsMap.getOrDefault("maxStep", "4000")),           //Max step
-                Integer.parseInt(argsMap.getOrDefault("expRepMaxSize", "15000")),     //Max size of experience replay
-                Integer.parseInt(argsMap.getOrDefault("batchSize", "64")),           //size of batches
+                Integer.parseInt(argsMap.getOrDefault("maxStep", "40000")),             //Max step
+                Integer.parseInt(argsMap.getOrDefault("expRepMaxSize", "15000")),      //Max size of experience replay
+                Integer.parseInt(argsMap.getOrDefault("batchSize", "64")),             //size of batches
                 Integer.parseInt(argsMap.getOrDefault("targetDqnUpdateFreq", "2000")), //target update (hard)
-                Integer.parseInt(argsMap.getOrDefault("updateStart", "10")),         //num step noop warmup
-                Double.parseDouble(argsMap.getOrDefault("rewardFactor", "1")),        //reward scaling
-                Double.parseDouble(argsMap.getOrDefault("gamma", "0.75")),               //gamma
+                Integer.parseInt(argsMap.getOrDefault("updateStart", "10")),           //num step noop warmup
+                Double.parseDouble(argsMap.getOrDefault("rewardFactor", "1")),         //reward scaling
+                Double.parseDouble(argsMap.getOrDefault("gamma", "0.75")),             //gamma
                 Double.parseDouble(argsMap.getOrDefault("errorClamp", "0.9")),         //td-error clipping
-                Float.parseFloat(argsMap.getOrDefault("minEpsilon", "0.1f")),         //min epsilon
-                Integer.parseInt(argsMap.getOrDefault("epsilonNbStep", "1000")),      //num step for eps greedy anneal
-                Boolean.parseBoolean(argsMap.getOrDefault("doubleDQN", "false"))      //double DQN
+                Float.parseFloat(argsMap.getOrDefault("minEpsilon", "0.1")),           //min epsilon
+                Integer.parseInt(argsMap.getOrDefault("epsilonNbStep", "15000")),      //num step for eps greedy anneal
+                Boolean.parseBoolean(argsMap.getOrDefault("doubleDQN", "false"))       //double DQN
         );
 
         SystemEnvironment mdp = new SystemEnvironment(topology, actionSet);
         FilteredMultiLayerNetwork nn = new NNBuilder().build(mdp.getObservationSpace().size(), mdp.getActionSpace().getSize(), Integer.parseInt(argsMap.getOrDefault("layers", "3")));
         nn.setMultiLayerNetworkPredictionFilter(input -> mdp.getActionSpace().actionsMask(input));
-        //nn.setListeners(new ScoreIterationListener(100));
-        //nn.setListeners(new PerformanceListener(1, true, true));
+        nn.setListeners(new ScoreIterationListener(100));
+        nn.setListeners(new PerformanceListener(1, true, true));
         System.out.println(nn.summary());
 
         String dqnType = argsMap.getOrDefault("dqn", "standard");
diff --git a/src/main/java/com/secureai/DynDQNMain.java b/src/main/java/com/secureai/DynDQNMain.java
@@ -115,19 +115,19 @@ public static void setup() {
         ActionSet actionSet = YAML.parse(String.format("data/action-sets/action-set-%s.yml", actionSetId), ActionSet.class);
 
         QLearning.QLConfiguration qlConfiguration = new QLearning.QLConfiguration(
-                Integer.parseInt(argsMap.getOrDefault("seed", "123")),                //Random seed
-                Integer.parseInt(argsMap.getOrDefault("maxEpochStep", "200")),        //Max step By epoch
-                Integer.parseInt(argsMap.getOrDefault("maxStep", "8000")),           //Max step
-                Integer.parseInt(argsMap.getOrDefault("expRepMaxSize", "150000")),     //Max size of experience replay
-                Integer.parseInt(argsMap.getOrDefault("batchSize", "32")),           //size of batches
-                Integer.parseInt(argsMap.getOrDefault("targetDqnUpdateFreq", "500")), //target update (hard)
-                Integer.parseInt(argsMap.getOrDefault("updateStart", "10")),         //num step noop warmup
-                Double.parseDouble(argsMap.getOrDefault("rewardFactor", "1")),        //reward scaling
-                Double.parseDouble(argsMap.getOrDefault("gamma", "5")),               //gamma
-                Double.parseDouble(argsMap.getOrDefault("errorClamp", ".8")),         //td-error clipping
-                Float.parseFloat(argsMap.getOrDefault("minEpsilon", "0.1f")),         //min epsilon
-                Integer.parseInt(argsMap.getOrDefault("epsilonNbStep", "10000")),      //num step for eps greedy anneal
-                Boolean.parseBoolean(argsMap.getOrDefault("doubleDQN", "false"))      //double DQN
+                Integer.parseInt(argsMap.getOrDefault("seed", "123")),                 //Random seed
+                Integer.parseInt(argsMap.getOrDefault("maxEpochStep", "1000")),        //Max step By epoch
+                Integer.parseInt(argsMap.getOrDefault("maxStep", "40000")),             //Max step
+                Integer.parseInt(argsMap.getOrDefault("expRepMaxSize", "15000")),      //Max size of experience replay
+                Integer.parseInt(argsMap.getOrDefault("batchSize", "64")),             //size of batches
+                Integer.parseInt(argsMap.getOrDefault("targetDqnUpdateFreq", "2000")), //target update (hard)
+                Integer.parseInt(argsMap.getOrDefault("updateStart", "10")),           //num step noop warmup
+                Double.parseDouble(argsMap.getOrDefault("rewardFactor", "1")),         //reward scaling
+                Double.parseDouble(argsMap.getOrDefault("gamma", "0.75")),             //gamma
+                Double.parseDouble(argsMap.getOrDefault("errorClamp", "0.9")),         //td-error clipping
+                Float.parseFloat(argsMap.getOrDefault("minEpsilon", "0.1")),           //min epsilon
+                Integer.parseInt(argsMap.getOrDefault("epsilonNbStep", "15000")),      //num step for eps greedy anneal
+                Boolean.parseBoolean(argsMap.getOrDefault("doubleDQN", "false"))       //double DQN
         );
 
         SystemEnvironment newMdp = new SystemEnvironment(topology, actionSet);
diff --git a/src/main/java/com/secureai/QNMain.java b/src/main/java/com/secureai/QNMain.java
@@ -27,12 +27,12 @@ public static void main(String... args) throws IOException {
 
         QLearning.QNConfiguration qnConfiguration = new QLearning.QNConfiguration(
                 Integer.parseInt(argsMap.getOrDefault("seed", "123")),              //Random seed
-                Integer.parseInt(argsMap.getOrDefault("episodes", "80000")),       //episodes
-                Integer.parseInt(argsMap.getOrDefault("maxEpochStep", "128")),      //max step
+                Integer.parseInt(argsMap.getOrDefault("episodes", "40000")),        //episodes
+                Integer.parseInt(argsMap.getOrDefault("maxEpisodeStep", "400")),    //max step
                 Double.parseDouble(argsMap.getOrDefault("learningRate", "0.9")),    //alpha
                 Double.parseDouble(argsMap.getOrDefault("discountFactor", "0.75")), //gamma
-                Float.parseFloat(argsMap.getOrDefault("minEpsilon", "0.1f")),       //min epsilon
-                Integer.parseInt(argsMap.getOrDefault("epsilonNbStep", "50000"))     //num step for eps greedy anneal
+                Float.parseFloat(argsMap.getOrDefault("minEpsilon", "0.1")),        //min epsilon
+                Integer.parseInt(argsMap.getOrDefault("epsilonNbStep", "15000"))    //num step for eps greedy anneal
         );
 
         FilteredDynamicQTable qTable = new FilteredDynamicQTable(mdp.getActionSpace().getSize());
diff --git a/src/main/java/com/secureai/VIMain.java b/src/main/java/com/secureai/VIMain.java
@@ -27,8 +27,8 @@ public static void main(String... args) throws IOException {
 
         ValueIteration.VIConfiguration viConfiguration = new ValueIteration.VIConfiguration(
                 Integer.parseInt(argsMap.getOrDefault("seed", "123")),      //Random seed
-                Integer.parseInt(argsMap.getOrDefault("iterations", "10")),  //iterations
-                Double.parseDouble(argsMap.getOrDefault("gamma", ".5")),    //gamma
+                Integer.parseInt(argsMap.getOrDefault("iterations", "10")), //iterations
+                Double.parseDouble(argsMap.getOrDefault("gamma", "0.5")),   //gamma
                 Double.parseDouble(argsMap.getOrDefault("epsilon", "1e-5")) //epsilon
         );
 
diff --git a/src/main/java/com/secureai/rl/qn/QLearning.java b/src/main/java/com/secureai/rl/qn/QLearning.java
@@ -65,7 +65,7 @@ public void train() {
             O state = this.mdp.reset();
             double rewards = 0;
             int j = 0;
-            for (; j < this.conf.maxEpochStep && !this.mdp.isDone(); j++) { // batches
+            for (; j < this.conf.maxEpisodeStep && !this.mdp.isDone(); j++) { // batches
                 StepReply<O> step = this.trainStep(state);
                 state = step.getObservation();
 
@@ -108,7 +108,7 @@ public double evaluate(int episodes) {
     public static class QNConfiguration {
         int seed;
         int episodes;
-        int maxEpochStep;
+        int maxEpisodeStep;
         double learningRate;
         double discountFactor;
         float minEpsilon;
diff --git a/src/main/java/com/secureai/system/SystemRewardFunction.java b/src/main/java/com/secureai/system/SystemRewardFunction.java
@@ -23,7 +23,7 @@ public SystemRewardFunction(SystemEnvironment environment) {
 
     @Override
     public double reward(SystemState oldState, SystemAction systemAction, SystemState currentState) {
-        if (oldState.equals(currentState)) return -2;
+        if (oldState.equals(currentState)) return -2; // This is the reward if the policy choose an action that cannot be run or keep the system in the same state
         Action action = this.environment.getActionSet().getActions().get(systemAction.getActionId());
         return -(Config.TIME_WEIGHT * (action.getExecutionTime() / this.maxExecutionTime) + Config.COST_WEIGHT * (action.getExecutionCost() / this.maxExecutionCost));
     }

Original file line number	Diff line number	Diff line change
`@@ -23,7 +23,7 @@ public SystemRewardFunction(SystemEnvironment environment) {`
`23`	`23`
`24`	`24`	`@Override`
`25`	`25`	`public double reward(SystemState oldState, SystemAction systemAction, SystemState currentState) {`
`26`		`- if (oldState.equals(currentState)) return -2;`
	`26`	`+ if (oldState.equals(currentState)) return -2; // This is the reward if the policy choose an action that cannot be run or keep the system in the same state`
`27`	`27`	`Action action = this.environment.getActionSet().getActions().get(systemAction.getActionId());`
`28`	`28`	`return -(Config.TIME_WEIGHT * (action.getExecutionTime() / this.maxExecutionTime) + Config.COST_WEIGHT * (action.getExecutionCost() / this.maxExecutionCost));`
`29`	`29`	`}`