WIP

CMCDragonkai · CMCDragonkai · commit 5050a47c63fc · 2017-11-15T03:07:42.000+11:00
diff --git a/lib/configLexer.js b/lib/configLexer.js
@@ -1,30 +1,39 @@
 import { Token, Lexer } from 'chevrotain';
 
-// \s without \n
-const lineSpaceRegex = '[ \f\r\t\v\u00a0\u1680\u2000-\u200a\u2028\u2029\u202f\u205f\u3000\ufeff]';
-
-const lexingSpec = {
+const lexicalGrammar = {
   defaultMode: 'initMode',
   modes: {}
 };
 
 class WhiteSpaceT extends Token {
-  static PATTERN = /\s+/;
+  static PATTERN = /[^\S\r\n]+/;
   static GROUP = Lexer.SKIPPED;
+}
+
+class EndOfLineT extends Token {
+  static PATTERN = /(?:\r\n|\n)+/;
   static LINE_BREAKS = true;
+  static GROUP = Lexer.SKIPPED;
+}
+
+class CommentT extends Token {
+  static PATTERN = /[#;].*/;
+  static GROUP = Lexer.SKIPPED;
 }
 
-class InitLSquareT extends Token {
+class HeaderEnterT extends Token {
   static PATTERN = /\[/;
   static PUSH_MODE = 'headerMode';
 }
 
-lexingSpec.modes.initMode = [
+lexicalGrammar.modes.initMode = [
   WhiteSpaceT,
-  InitLSquareT
+  EndOfLineT,
+  CommentT,
+  HeaderEnterT
 ];
 
-class RSquareT extends Token {
+class BodyEnterT extends Token {
   static PATTERN = /]/;
   static PUSH_MODE = 'bodyMode';
 }
@@ -44,80 +53,73 @@ class HeaderIncludeT extends Token {
 }
 
 class HeaderSubNameT extends Token {
-  static PATTERN = /"(?:[^\\"\n]|\\[bnt"\\])*"/;
+  static PATTERN = /"(?:[^\\"\r\n)]|\\[bnt"\\])*"/;
 }
 
-lexingSpec.modes.headerMode = [
+lexicalGrammar.modes.headerMode = [
   WhiteSpaceT,
-  RSquareT,
+  BodyEnterT,
   HeaderIncludeIfT,
   HeaderIncludeT,
   HeaderNameT,
   HeaderSubNameT
 ];
 
-class LSquareT extends Token {
+class BodyExitT extends Token {
   static PATTERN = /\[/;
   static POP_MODE = true;
 }
 
-// must ignore leading spaces
-class BodyEqualT extends Token {
-  static PATTERN = new RegExp('=' + lineSpaceRegex + '*');
-  static PUSH_MODE = 'valueMode';
-}
-
 class BodyKeyT extends Token {
   static PATTERN = /[a-zA-Z][a-zA-Z0-9-]*/;
 }
 
-lexingSpec.modes.bodyMode = [
+class ValueEnterT extends Token {
+  static PATTERN = /=[^\S\r\n]*/;
+  static PUSH_MODE = 'valueMode';
+}
+
+lexicalGrammar.modes.bodyMode = [
   WhiteSpaceT,
-  LSquareT,
+  EndOfLineT,
+  CommentT,
+  BodyExitT,
   BodyKeyT,
-  BodyEqualT
+  ValueEnterT
 ];
 
 class ValueLineContinuationT extends Token {
-  static PATTERN = /\\\n/;
+  static PATTERN = /(?:\\\r\n|\\\n)/;
   static LINE_BREAKS = true;
 }
 
-class NewlineT extends Token {
-  static PATTERN = /\n/;
+class ValueExitT extends Token {
+  static PATTERN = /(?:\r\n|\n)+/;
   static POP_MODE = true;
   static LINE_BREAKS = true;
 }
 
 class ValueSpaceT extends Token {
-  static PATTERN = new RegExp(lineSpaceRegex + '+');
-}
-
-class ValueTrailingSpaceT extends Token {
-  static PATTERN = new RegExp(lineSpaceRegex + '+(?=\n)');
-  static GROUP = Lexer.SKIPPED;
+  static PATTERN = /[^\S\r\n]+(?=\b|"|\\)/;
 }
 
 class ValueStringT extends Token {
   static PATTERN = /(?:[^\\"\s]|\\[bnt"\\])+/;
 }
 
 class ValueQuotedStringT extends Token {
-  static PATTERN = /"(?:[^\\"\n]|\\[bnt"\\\n])*"/;
+  static PATTERN = /"(?:[^\\"\r\n]|\\(?:\r\n|[bnt"\\\n]))*"/;
   static LINE_BREAKS = true;
 }
 
-lexingSpec.modes.valueMode = [
-  ValueLineContinuationT,
-  NewlineT,
-  ValueTrailingSpaceT,
+lexicalGrammar.modes.valueMode = [
+  CommentT,
   ValueSpaceT,
+  WhiteSpaceT,
+  ValueLineContinuationT,
+  ValueExitT,
   ValueStringT,
   ValueQuotedStringT
 ];
 
-const lexer = new Lexer(lexingSpec, {
-  debug: true
-});
-
-export default lexer;
+export default lexicalGrammar;
diff --git a/test.js b/test.js
@@ -1,129 +1,20 @@
 import fs from 'fs';
-import { Token, Lexer, Parser } from 'chevrotain';
+import { Lexer } from 'chevrotain';
+import lexingGrammar from './lib/configLexer.js';
 
-// \s without \n
-const lineSpaceRegex = '[ \f\r\t\v\u00a0\u1680\u2000-\u200a\u2028\u2029\u202f\u205f\u3000\ufeff]';
-
-const lexingSpec = {
-  defaultMode: 'initMode',
-  modes: {}
-};
-
-class WhiteSpaceT extends Token {
-  static PATTERN = /\s+/;
-  static GROUP = Lexer.SKIPPED;
-  static LINE_BREAKS = true;
-}
-
-class InitLSquareT extends Token {
-  static PATTERN = /\[/;
-  static PUSH_MODE = 'headerMode';
-}
-
-lexingSpec.modes.initMode = [
-  WhiteSpaceT,
-  InitLSquareT
-];
-
-class RSquareT extends Token {
-  static PATTERN = /]/;
-  static PUSH_MODE = 'bodyMode';
-}
-
-class HeaderNameT extends Token {
-  static PATTERN = /[0-9a-zA-Z.-]+/;
-}
-
-class HeaderIncludeIfT extends Token {
-  static PATTERN = /includeIf/;
-  static LONGER_ALT = HeaderNameT;
-}
-
-class HeaderIncludeT extends Token {
-  static PATTERN = /include/;
-  static LONGER_ALT = HeaderNameT;
-}
-
-class HeaderSubNameT extends Token {
-  static PATTERN = /"(?:[^\\"\n]|\\[bnt"\\])*"/;
-}
-
-lexingSpec.modes.headerMode = [
-  WhiteSpaceT,
-  RSquareT,
-  HeaderIncludeIfT,
-  HeaderIncludeT,
-  HeaderNameT,
-  HeaderSubNameT
-];
-
-class LSquareT extends Token {
-  static PATTERN = /\[/;
-  static POP_MODE = true;
-}
-
-// must ignore leading spaces
-class BodyEqualT extends Token {
-  static PATTERN = new RegExp('=' + lineSpaceRegex + '*');
-  static PUSH_MODE = 'valueMode';
-}
-
-class BodyKeyT extends Token {
-  static PATTERN = /[a-zA-Z][a-zA-Z0-9-]*/;
-}
-
-lexingSpec.modes.bodyMode = [
-  WhiteSpaceT,
-  LSquareT,
-  BodyKeyT,
-  BodyEqualT
-];
-
-class ValueLineContinuation extends Token {
-  static PATTERN = /\\\n/;
-  static LINE_BREAKS = true;
-}
-
-class NewlineT extends Token {
-  static PATTERN = /\n/;
-  static POP_MODE = true;
-  static LINE_BREAKS = true;
-}
-
-class ValueSpaceT extends Token {
-  static PATTERN = new RegExp(lineSpaceRegex + '+');
-}
-
-class ValueTrailingSpaceT extends Token {
-  static PATTERN = new RegExp(lineSpaceRegex + '+(?=\n)');
-  static GROUP = Lexer.SKIPPED;
-}
-
-class ValueStringT extends Token {
-  static PATTERN = /(?:[^\\"\s]|\\[bnt"\\])+/;
-}
-
-class ValueQuotedStringT extends Token {
-  static PATTERN = /"(?:[^\\"\n]|\\[bnt"\\\n])*"/;
-  static LINE_BREAKS = true;
-}
-
-lexingSpec.modes.valueMode = [
-  ValueLineContinuation,
-  NewlineT,
-  ValueTrailingSpaceT,
-  ValueSpaceT,
-  ValueStringT,
-  ValueQuotedStringT
-];
-
-const lexer = new Lexer(lexingSpec, {
+const lexer = new Lexer(lexingGrammar, {
   debug: true
 });
 
-const result = lexer.tokenize(fs.readFileSync('./test.config', 'utf8'));
+const text = fs.readFileSync('./test.config', 'utf8');
+const results = lexer.tokenize(text);
+
+results.tokens = results.tokens.map((token) => {
+  return [token.image, token.tokenClassName];
+});
 
-console.log(result);
+console.log(text);
+console.log(results);
 
 // class CommentT extends Token {
 //   static NAME = "CommentT";
diff --git a/test/configLexing.js b/test/configLexing.js
@@ -0,0 +1,24 @@
+import test from 'ava';
+
+// test tests require a common language, and we are testing its token vector actually
+// so instead of testing against the class name, we can check against the token image itself
+
+test('section headers', t => {
+
+});
+
+test('subsection headers', t => {
+
+});
+
+test('trailing whitespace', t => {
+
+});
+
+test('comments', t => {
+
+});
+
+test('newline and carriage returns', t => {
+
+});