added exam exercise 06

2019-02-25 13:05:55 +01:00 · 2019-02-25 13:05:55 +01:00 · 166414197b
commit 166414197b
parent 4e2e417e5b
5 changed files with 354 additions and 0 deletions
--- a/exam/ex06/finite_state_machine.py
+++ b/exam/ex06/finite_state_machine.py
@ -0,0 +1,36 @@
+
+
+class FiniteStateMachine(object):
+	def __init__(self, start: int, valid: list, default: int, transitions: dict):
+		self._start = start
+		self._valid = valid
+
+		self._transitions = dict()
+		for state, trans in transitions.items():
+			self._transitions[state] = dict()
+			for words, target in trans.items():
+				for word in words:
+					self._transitions[state][word] = target
+
+		self._default = default
+		self._state = start
+
+	def reset(self):
+		self._state = self._start
+
+	def make_transition(self, word):
+		if(not self._state in self._transitions):
+			self._state = self._default
+		if(not word in self._transitions[self._state]):
+			self._state = self._default
+			return
+
+		self._state = self._transitions[self._state][word]
+
+	def check(self, sequence):
+		for word in sequence:
+			self.make_transition(word)
+		is_valid = self._state in self._valid
+		self.reset()
+		return is_valid
+
--- a/exam/ex06/main.py
+++ b/exam/ex06/main.py
@ -0,0 +1,16 @@
+from io import StringIO
+
+from parser import Parser
+from tokenio import TokenStream
+from tokens import NumberTokenParser
+
+texts = ["one plus one"
+	, "one plus two"
+	, "thirtytwo plus eleven"
+	, "four times four"
+	, "(eight plus eleven) times two"
+	, "twohundred through eleven"]
+
+for text in texts:
+	print(text, "=", Parser(TokenStream(StringIO(text))).parse())
+
--- a/exam/ex06/parser.py
+++ b/exam/ex06/parser.py
@ -0,0 +1,91 @@
+from collections import deque
+
+from tokens import NumberTokenParser, OperatorTokenParser
+
+class ParsingException(Exception): 
+	pass
+
+class Parser(object):
+	def __init__(self, token_stream):
+		self._token_stream = token_stream
+		self._stack = deque()
+		self._current_list = deque()
+
+	def parse(self):
+		state = 0
+		while True:
+			token = self._token_stream.get_token()
+			if(token == "("):
+				if(state == 1):
+					raise ParsingException(
+							"expected operator, not parenthesis: {} (near '{}')".format(
+								self._token_stream._offset
+								, token))
+				
+				self._stack.append(self._current_list)
+				continue
+
+			if(NumberTokenParser.can_parse(token)):
+				if(state == 1):
+					raise ParsingException(
+							"expected operator, not number: {} (near '{}')".format(
+								self._token_stream._offset
+								, token))
+				self._current_list.append(NumberTokenParser(token).parse())
+				state = 1
+				continue
+
+			if(OperatorTokenParser.can_parse(token)):
+				if(state != 1):
+					raise ParsingException(
+							"expected number or parenthesis, not operator: {} (near '{}')".format(
+								self._token_stream._offset
+								, token))
+
+				self._current_list.append(OperatorTokenParser(token).parse())
+				state = 0
+				continue
+			
+			if(token == ")"):
+				#if(state == 1):
+				#	raise ParsingException(
+				#			"expected operator, not parenthesis: {} (near '{}')".format(
+				#				self._token_stream._offset
+				#				, token))
+				state = 1
+
+				result = self.execute_branch(self._current_list)
+				self._current_list = self._stack.pop()
+				continue
+			
+			if(not token):
+				if(self._stack):
+					raise ParsingException("unexpected EOF while parsing")
+				return self.execute_branch(self._current_list)
+
+			raise ParsingException("unknown token: {} (near '{}')".format(self._token_stream._offset, token))
+
+		return self.execute_branch(self._current_list)
+
+	def execute_branch(self, branch):
+		result = None
+		current_operator = None
+
+		for element in branch:
+			if(result is None):
+				result = element
+				continue
+
+			if(not isinstance(element, (float, int, complex))):
+				# Operator
+				current_operator = element
+				continue
+
+			if(current_operator):
+				result = current_operator(result, element)
+				current_operator = None
+		return result
+
+				
+
+
--- a/exam/ex06/tokenio.py
+++ b/exam/ex06/tokenio.py
@ -0,0 +1,56 @@
+from collections import deque
+
+base_chars = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
+end_of_token_chars = "() \t"
+whitespace_chars = " \t"
+
+class UnexpectedCharacterException(Exception): 
+	def __init__(self, msg, offset, char, *args):
+		Exception.__init__(self, *args)
+		self._msg = msg
+		self._offset = offset
+		self._char = char
+
+
+class TokenStream(object):
+	def __init__(self, file_):
+		self._file = file_
+		self._file.seek(0, 0)
+		self._offset = 0
+
+	def _getc(self):
+		c = self._file.read(1)
+		if(c):
+			self._offset += 1
+		return c
+	def _ungetc(self):
+		self._file.seek(self._offset - 1, 0)
+		self._offset -= 1
+
+	def get_token(self):
+		result = deque()
+		while True:
+			c = self._getc()
+			if(not c):
+				# EOF.
+				break
+			if(c in base_chars):
+				result.append(c)
+				continue
+			if(c in end_of_token_chars):
+				if(not result):
+					# We are not inside a token.
+					if(c in whitespace_chars):
+						# Some whitespace. Ignore it.
+						continue
+					# A parenthesis.
+					return c
+
+				# End of token.
+				self._ungetc()
+				break
+			raise UnexpectedCharacterException("Unexpected character while tokenizing", self._offset, c)
+		return "".join(result)
+
+	
+
--- a/exam/ex06/tokens.py
+++ b/exam/ex06/tokens.py
@ -0,0 +1,155 @@
+from collections import deque
+from abc import ABCMeta, abstractmethod
+
+from finite_state_machine import FiniteStateMachine
+
+BASE_NUMBER_TOKENS = {"one": 1
+			, "two": 2
+			, "three": 3
+			, "four": 4
+			, "five": 5
+			, "six": 6
+			, "seven": 7
+			, "eight": 8
+			, "nine": 9}
+DECI_NUMBER_TOKENS = {"twenty": 20
+			, "thirty": 30
+			, "fourty": 40
+			, "fifty": 50
+			, "sixty": 60
+			, "secenty": 70
+			, "eigthy": 80
+			, "ninety": 90}
+TEEN_NUMBER_TOKENS = {"ten": 10
+			, "eleven": 11
+			, "twelve": 12
+			, "thirteen": 13
+			, "fourteen": 14
+			, "fifteen": 15
+			, "sixteen": 16
+			, "seventeen": 17
+			, "eighteen": 18
+			, "nineteen": 19}
+HUNDRED_NUMBER_TOKENS = {"hundred": 100}
+ZERO_NUMBER_TOKENS = {"zero": 0
+			, "null": 0}
+
+OPERATOR_TOKENS = { "plus": lambda x,y: x + y
+			, "minus": lambda x,y: x - y
+			, "times": lambda x,y: x * y
+			, "through": lambda x,y: x / y}
+
+transitions = {
+	0: { tuple(ZERO_NUMBER_TOKENS) + tuple(TEEN_NUMBER_TOKENS): 1
+		, tuple(DECI_NUMBER_TOKENS): 2
+		, tuple(BASE_NUMBER_TOKENS): 3}
+	, 2: {tuple(BASE_NUMBER_TOKENS): 1}
+	, 3: {tuple(HUNDRED_NUMBER_TOKENS): 4}
+	, 4: {tuple(DECI_NUMBER_TOKENS): 2}
+}
+valid_states = [1, 2, 3, 4]
+default_transition = -1
+		
+
+
+class TokenParsingException(Exception): 
+	pass
+class SubtokenizingException(TokenParsingException): 
+	pass
+
+
+class TokenParser(metaclass = ABCMeta):
+	@classmethod
+	def can_parse(cls, token):
+		try:
+			cls(token).parse()
+			return True
+		except TokenParsingException:
+			return False
+	@abstractmethod
+	def parse(self):
+		pass
+
+class NumberTokenParser(TokenParser):
+	def __init__(self, token):
+		self._token = token.lower()
+		self._token_length = len(token)
+		
+		self._finite_state_machine = FiniteStateMachine(0, valid_states, default_transition, transitions)
+
+	def get_token_of_class_or_none(self, offset, token_class):
+		for token in token_class:
+			if(len(token) + offset > self._token_length):
+				continue
+
+			if(self._token[offset: offset + len(token)] == token):
+				return token
+		return None
+
+	def get_next_token_part(self, offset):
+		token_classes = [ZERO_NUMBER_TOKENS
+				, HUNDRED_NUMBER_TOKENS
+				, TEEN_NUMBER_TOKENS
+				, DECI_NUMBER_TOKENS
+				, BASE_NUMBER_TOKENS]
+
+		result = None
+		for token_class in token_classes:
+			result = self.get_token_of_class_or_none(offset, token_class)
+			if(result):
+				break
+
+		return result
+
+	def subtokenize(self):
+		token_parts = deque()
+
+		offset = 0
+		while(True):
+			subtoken = self.get_next_token_part(offset)
+			if(subtoken is None):
+				if(offset != self._token_length):
+					raise SubtokenizingException("part of the token is dangling: '{}'".format(self._token[offset:]))
+				return list(token_parts)
+
+			offset += len(subtoken)
+			token_parts.append(subtoken)
+
+	def parse(self):
+		token_parts = self.subtokenize()
+
+		if(not self._finite_state_machine.check(token_parts)):
+			raise TokenParsingException("token '{}' is invalid".format(self._token))
+
+
+		# This is ugly but it works.
+		result = 0
+		for subtoken in token_parts:
+			if(subtoken in BASE_NUMBER_TOKENS):
+				result += BASE_NUMBER_TOKENS[subtoken]
+			if(subtoken in TEEN_NUMBER_TOKENS):
+				result += TEEN_NUMBER_TOKENS[subtoken]
+			if(subtoken in DECI_NUMBER_TOKENS):
+				result += DECI_NUMBER_TOKENS[subtoken]
+
+			if(subtoken in HUNDRED_NUMBER_TOKENS):
+				result *= HUNDRED_NUMBER_TOKENS[subtoken]
+
+
+		return result
+
+
+
+class OperatorTokenParser(TokenParser):
+	def __init__(self, token):
+		self._token = token.lower()
+
+	def parse(self):
+		if(not self._token in OPERATOR_TOKENS):
+			raise TokenParsingException("token '{}' is not an operator".format(self._token))
+		return OPERATOR_TOKENS[self._token]
+
+
+
+
+