go

b3eb2a1a · Wen Yao Jin · 876cc25c · b3eb2a1a · b3eb2a1a
Commit b3eb2a1a authored Mar 16, 2017 by Wen Yao Jin
--- a/__pycache__/agent.cpython-35.pyc
+++ b/__pycache__/agent.cpython-35.pyc
--- a/agent.py
+++ b/agent.py
@@ -30,8 +30,8 @@ class RandomAgent():
        pass

 class qLearningAgent:
-    def __init__(self, mat, TD_lambda = 0.8, alpha = 0.05, gamma = 0.9, epsilon = 0.01):
-        self.state_per_tile = 11
+    def __init__(self, mat, TD_lambda = 0.8, alpha = 0.05, gamma = 0.95, epsilon = 0.005):
+        self.state_per_tile = 12
        self.alpha = alpha
        self.gamma = gamma
        self.epsilon = epsilon # e-greedy
@@ -161,7 +161,7 @@ class qLearningAgent:
                n[k] += tr[k]
                index = np.where(n[k]!=0)# can't divide by zeros :/
                # print(n[k])
-                w[k][index] += target*tr[k][index]/n[k][index]
+                w[k][index] += target*tr[k][index]/np.sqrt(n[k][index])
                # w[k] += target*tr[k]
                # print(w[k])
        # print(self._target(next_state,reward) \