Work: Rust parser being updated (Tokenizer worksTM)

2024-03-25 16:42:49 +01:00 · 2024-03-25 16:42:49 +01:00 · 8e8791e99f
commit 8e8791e99f
parent 26ab7ff8b1
1 changed files with 91 additions and 11 deletions
--- a/rust/parser/src/main.rs
+++ b/rust/parser/src/main.rs
@ -90,9 +90,22 @@ struct TokenizerState<'input> {
    remaining: &'input str,
 }
 impl<'input> TokenizerState<'input> {
    fn new(input: &'input str) -> Self {
        Self {
            current_pos: 0,
            remaining: input,
            input,
        }
    }
 }
 #[derive(Debug, Clone)]
 enum Token<'input> {
    Thingy { val: &'input str, start_pos: usize },
    SingleQuote { val: &'input str, start_pos: usize },
    DoubleQuote { val: &'input str, start_pos: usize },
    WhiteSpace { val: &'input str, start_pos: usize },
    Word { val: &'input str, start_pos: usize },
 }
 fn tokenizer<'state, 'input: 'state>(
@ -103,34 +116,101 @@ fn tokenizer<'state, 'input: 'state>(
        let state = &mut *state;
        let mut chars = state.remaining.chars().peekable();
        let mut len = 1;
        let mut escaped = false;
        let Some(chr) = chars.next() else {
            return None;
        };
        match chr {
            '\'' => {
-                while chars.peek().copied() != Some('\'') {
+                while let Some(s) = chars.peek().copied() {
                    if s == '\'' {
                        break;
                    }
                    len += 1;
                    chars.next();
                }
                let skip = chars.peek() == Some(&'\'');
                let old_current = state.current_pos;
                state.current_pos += len;
                let old_remaining = state.remaining;
                state.remaining = &state.remaining[(len + skip as usize)..];
                return Some(Token::SingleQuote {
                    val: &old_remaining[1..len],
                    start_pos: old_current,
                });
            }
            '"' => {
                while let Some(s) = chars.peek().copied() {
                    if !escaped && s == '\"' {
                        break;
                    }
                    len += 1;
                    escaped = chars.next() == Some('\\');
                }
                let skip = chars.peek() == Some(&'\"');
                let old_current = state.current_pos;
                state.current_pos += len;
                let old_remaining = state.remaining;
                state.remaining = &state.remaining[(len + skip as usize)..];
                return Some(Token::DoubleQuote {
                    val: &old_remaining[1..len],
                    start_pos: old_current,
                });
            }
            _ => {}
        }
        let was_whitespace = chr.is_ascii_whitespace();
        while let Some(&chr) = chars.peek() {
            if chr.is_ascii_whitespace() && !escaped && !was_whitespace {
                dbg!(state.current_pos);
                let old_current = state.current_pos;
                state.current_pos += len;
                let old_remaining = state.remaining;
                state.remaining = &state.remaining[len..];
                return Some(Token::Word {
                    val: &old_remaining[..len],
                    start_pos: old_current,
                });
            } else if !chr.is_ascii_whitespace() && was_whitespace {
                let old_current = state.current_pos;
                state.current_pos += len;
                let old_remaining = state.remaining;
                state.remaining = &state.remaining[len..];
                return Some(Token::WhiteSpace {
                    val: &old_remaining[..len],
                    start_pos: old_current,
                });
            }
            len += 1;
            escaped = chars.next() == Some('\\');
        }
        let old_current = state.current_pos;
        state.current_pos += len;
        let old_remaining = state.remaining;
        state.remaining = &state.remaining[len..];
-                return (Some(Token::SingleQuote {
+        Some(if was_whitespace {
            Token::WhiteSpace {
                val: &old_remaining[..len],
                start_pos: old_current,
                }));
            }
-            '"' => {}
+        } else {
-            _ => {}
+            Token::Word {
                val: &old_remaining[..len],
                start_pos: old_current,
            }
        Some(Token::Thingy {
            val: state.input,
            start_pos: 0,
        })
    })
 }
-fn main() {}
+fn main() {
    for line in std::io::stdin().lines() {
        let line = line.unwrap();
        let mut state = TokenizerState::new(&line);
        println!("line is = '{line}'");
        println!(
            "token are = {:?}",
            tokenizer(&mut state).collect::<Vec<_>>()
        );
    }
 }