go

d7f9c8b7 · Wen Yao Jin · a1ba0170 · d7f9c8b7 · d7f9c8b7
Commit d7f9c8b7 authored Mar 7, 2017 by Wen Yao Jin
--- a/__pycache__/agent.cpython-35.pyc
+++ b/__pycache__/agent.cpython-35.pyc
--- a/agent.py
+++ b/agent.py
@@ -36,10 +36,7 @@ class qLearningAgent:
        self.gamma = gamma
        self.epsilon = epsilon # e-greedy
        self.TD_lambda = TD_lambda # TD(lamdba)
-        self.tuple = [[(0,0),(1,0),(2,0),(3,0)],\
-                    [(0,1),(1,1),(2,1),(3,1)],\
-                    [(0,1),(1,1),(2,1),(0,2),(1,2),(2,2)],\
-                    [(0,2),(1,2),(2,2),(0,3),(1,3),(2,3)]]
+        self.tuple = self._tuple()
        self.W = self._generate_dict()
        print(sum([len(w.keys()) for w in self.W]))
        self.feature_size = sum([self.state_per_tile**len(k) for k in self.tuple])
@@ -47,6 +44,30 @@ class qLearningAgent:
        print(self.feature_size)
        self.reset()

+    # [[(0,0),(1,0),(2,0),(3,0)],\
+    #                 [(0,1),(1,1),(2,1),(3,1)],\
+    #                 [(0,1),(1,1),(2,1),(0,2),(1,2),(2,2)],\
+    #                 [(0,2),(1,2),(2,2),(0,3),(1,3),(2,3)]]
+
+    def _tuple(self):
+        list=[]
+        for i in range(4):
+            l = []
+            for j in range(4):
+                l+=[(i,j)]
+            list+=[l]
+        for i in range(4):
+            l = []
+            for j in range(4):
+                l+=[(j,i)]
+            list+=[l]
+        for i in range(3):
+            for j in range(3):
+                l = [(i,j),(i,j+1),(i+1,j),(i+1,j+1)]
+                list += [l]
+        print(list)
+        return list
+        
    def reset(self):
        self._reset_trace() #eligibility trace
        self.first_step = True# used to avoid update the first time