lexer.go 23 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732733734735736737738739740741742743744745746747748749750751752753754755756757758759760761762763764765766767768769770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811812813814815816817818819820821822823824825826827828829830831832833834835836837838839840841842843844845846847848849850851852853854855856857858859860861862863864865866867868869870871872873874875876877878879880881882883884885886887888889890891892893894895896897898899900901902903904905906907908909910911912913914915916917918919920921922923924925926927928929930931932933934935936937938939940941942943944945946947948949950951952953954955956957958959960961962963964965966967968969970971972973974975976977978979980981982983984985986987988989990991992993994995996997998999100010011002100310041005100610071008100910101011101210131014101510161017101810191020102110221023102410251026102710281029103010311032103310341035103610371038103910401041104210431044104510461047104810491050105110521053105410551056105710581059106010611062106310641065106610671068106910701071107210731074107510761077107810791080108110821083108410851086108710881089109010911092109310941095109610971098109911001101110211031104110511061107110811091110111111121113111411151116111711181119112011211122112311241125112611271128112911301131113211331134113511361137113811391140114111421143114411451146114711481149115011511152115311541155115611571158115911601161116211631164116511661167116811691170117111721173117411751176
  1. // Package jlexer contains a JSON lexer implementation.
  2. //
  3. // It is expected that it is mostly used with generated parser code, so the interface is tuned
  4. // for a parser that knows what kind of data is expected.
  5. package jlexer
  6. import (
  7. "encoding/base64"
  8. "encoding/json"
  9. "errors"
  10. "fmt"
  11. "io"
  12. "strconv"
  13. "unicode"
  14. "unicode/utf16"
  15. "unicode/utf8"
  16. )
  17. // tokenKind determines type of a token.
  18. type tokenKind byte
  19. const (
  20. tokenUndef tokenKind = iota // No token.
  21. tokenDelim // Delimiter: one of '{', '}', '[' or ']'.
  22. tokenString // A string literal, e.g. "abc\u1234"
  23. tokenNumber // Number literal, e.g. 1.5e5
  24. tokenBool // Boolean literal: true or false.
  25. tokenNull // null keyword.
  26. )
  27. // token describes a single token: type, position in the input and value.
  28. type token struct {
  29. kind tokenKind // Type of a token.
  30. boolValue bool // Value if a boolean literal token.
  31. byteValue []byte // Raw value of a token.
  32. delimValue byte
  33. }
  34. // Lexer is a JSON lexer: it iterates over JSON tokens in a byte slice.
  35. type Lexer struct {
  36. Data []byte // Input data given to the lexer.
  37. start int // Start of the current token.
  38. pos int // Current unscanned position in the input stream.
  39. token token // Last scanned token, if token.kind != tokenUndef.
  40. firstElement bool // Whether current element is the first in array or an object.
  41. wantSep byte // A comma or a colon character, which need to occur before a token.
  42. UseMultipleErrors bool // If we want to use multiple errors.
  43. fatalError error // Fatal error occurred during lexing. It is usually a syntax error.
  44. multipleErrors []*LexerError // Semantic errors occurred during lexing. Marshalling will be continued after finding this errors.
  45. }
  46. // FetchToken scans the input for the next token.
  47. func (r *Lexer) FetchToken() {
  48. r.token.kind = tokenUndef
  49. r.start = r.pos
  50. // Check if r.Data has r.pos element
  51. // If it doesn't, it mean corrupted input data
  52. if len(r.Data) < r.pos {
  53. r.errParse("Unexpected end of data")
  54. return
  55. }
  56. // Determine the type of a token by skipping whitespace and reading the
  57. // first character.
  58. for _, c := range r.Data[r.pos:] {
  59. switch c {
  60. case ':', ',':
  61. if r.wantSep == c {
  62. r.pos++
  63. r.start++
  64. r.wantSep = 0
  65. } else {
  66. r.errSyntax()
  67. }
  68. case ' ', '\t', '\r', '\n':
  69. r.pos++
  70. r.start++
  71. case '"':
  72. if r.wantSep != 0 {
  73. r.errSyntax()
  74. }
  75. r.token.kind = tokenString
  76. r.fetchString()
  77. return
  78. case '{', '[':
  79. if r.wantSep != 0 {
  80. r.errSyntax()
  81. }
  82. r.firstElement = true
  83. r.token.kind = tokenDelim
  84. r.token.delimValue = r.Data[r.pos]
  85. r.pos++
  86. return
  87. case '}', ']':
  88. if !r.firstElement && (r.wantSep != ',') {
  89. r.errSyntax()
  90. }
  91. r.wantSep = 0
  92. r.token.kind = tokenDelim
  93. r.token.delimValue = r.Data[r.pos]
  94. r.pos++
  95. return
  96. case '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '-':
  97. if r.wantSep != 0 {
  98. r.errSyntax()
  99. }
  100. r.token.kind = tokenNumber
  101. r.fetchNumber()
  102. return
  103. case 'n':
  104. if r.wantSep != 0 {
  105. r.errSyntax()
  106. }
  107. r.token.kind = tokenNull
  108. r.fetchNull()
  109. return
  110. case 't':
  111. if r.wantSep != 0 {
  112. r.errSyntax()
  113. }
  114. r.token.kind = tokenBool
  115. r.token.boolValue = true
  116. r.fetchTrue()
  117. return
  118. case 'f':
  119. if r.wantSep != 0 {
  120. r.errSyntax()
  121. }
  122. r.token.kind = tokenBool
  123. r.token.boolValue = false
  124. r.fetchFalse()
  125. return
  126. default:
  127. r.errSyntax()
  128. return
  129. }
  130. }
  131. r.fatalError = io.EOF
  132. return
  133. }
  134. // isTokenEnd returns true if the char can follow a non-delimiter token
  135. func isTokenEnd(c byte) bool {
  136. return c == ' ' || c == '\t' || c == '\r' || c == '\n' || c == '[' || c == ']' || c == '{' || c == '}' || c == ',' || c == ':'
  137. }
  138. // fetchNull fetches and checks remaining bytes of null keyword.
  139. func (r *Lexer) fetchNull() {
  140. r.pos += 4
  141. if r.pos > len(r.Data) ||
  142. r.Data[r.pos-3] != 'u' ||
  143. r.Data[r.pos-2] != 'l' ||
  144. r.Data[r.pos-1] != 'l' ||
  145. (r.pos != len(r.Data) && !isTokenEnd(r.Data[r.pos])) {
  146. r.pos -= 4
  147. r.errSyntax()
  148. }
  149. }
  150. // fetchTrue fetches and checks remaining bytes of true keyword.
  151. func (r *Lexer) fetchTrue() {
  152. r.pos += 4
  153. if r.pos > len(r.Data) ||
  154. r.Data[r.pos-3] != 'r' ||
  155. r.Data[r.pos-2] != 'u' ||
  156. r.Data[r.pos-1] != 'e' ||
  157. (r.pos != len(r.Data) && !isTokenEnd(r.Data[r.pos])) {
  158. r.pos -= 4
  159. r.errSyntax()
  160. }
  161. }
  162. // fetchFalse fetches and checks remaining bytes of false keyword.
  163. func (r *Lexer) fetchFalse() {
  164. r.pos += 5
  165. if r.pos > len(r.Data) ||
  166. r.Data[r.pos-4] != 'a' ||
  167. r.Data[r.pos-3] != 'l' ||
  168. r.Data[r.pos-2] != 's' ||
  169. r.Data[r.pos-1] != 'e' ||
  170. (r.pos != len(r.Data) && !isTokenEnd(r.Data[r.pos])) {
  171. r.pos -= 5
  172. r.errSyntax()
  173. }
  174. }
  175. // fetchNumber scans a number literal token.
  176. func (r *Lexer) fetchNumber() {
  177. hasE := false
  178. afterE := false
  179. hasDot := false
  180. r.pos++
  181. for i, c := range r.Data[r.pos:] {
  182. switch {
  183. case c >= '0' && c <= '9':
  184. afterE = false
  185. case c == '.' && !hasDot:
  186. hasDot = true
  187. case (c == 'e' || c == 'E') && !hasE:
  188. hasE = true
  189. hasDot = true
  190. afterE = true
  191. case (c == '+' || c == '-') && afterE:
  192. afterE = false
  193. default:
  194. r.pos += i
  195. if !isTokenEnd(c) {
  196. r.errSyntax()
  197. } else {
  198. r.token.byteValue = r.Data[r.start:r.pos]
  199. }
  200. return
  201. }
  202. }
  203. r.pos = len(r.Data)
  204. r.token.byteValue = r.Data[r.start:]
  205. }
  206. // findStringLen tries to scan into the string literal for ending quote char to determine required size.
  207. // The size will be exact if no escapes are present and may be inexact if there are escaped chars.
  208. func findStringLen(data []byte) (hasEscapes bool, length int) {
  209. delta := 0
  210. for i := 0; i < len(data); i++ {
  211. switch data[i] {
  212. case '\\':
  213. i++
  214. delta++
  215. if i < len(data) && data[i] == 'u' {
  216. delta++
  217. }
  218. case '"':
  219. return (delta > 0), (i - delta)
  220. }
  221. }
  222. return false, len(data)
  223. }
  224. // getu4 decodes \uXXXX from the beginning of s, returning the hex value,
  225. // or it returns -1.
  226. func getu4(s []byte) rune {
  227. if len(s) < 6 || s[0] != '\\' || s[1] != 'u' {
  228. return -1
  229. }
  230. var val rune
  231. for i := 2; i < len(s) && i < 6; i++ {
  232. var v byte
  233. c := s[i]
  234. switch c {
  235. case '0', '1', '2', '3', '4', '5', '6', '7', '8', '9':
  236. v = c - '0'
  237. case 'a', 'b', 'c', 'd', 'e', 'f':
  238. v = c - 'a' + 10
  239. case 'A', 'B', 'C', 'D', 'E', 'F':
  240. v = c - 'A' + 10
  241. default:
  242. return -1
  243. }
  244. val <<= 4
  245. val |= rune(v)
  246. }
  247. return val
  248. }
  249. // processEscape processes a single escape sequence and returns number of bytes processed.
  250. func (r *Lexer) processEscape(data []byte) (int, error) {
  251. if len(data) < 2 {
  252. return 0, fmt.Errorf("syntax error at %v", string(data))
  253. }
  254. c := data[1]
  255. switch c {
  256. case '"', '/', '\\':
  257. r.token.byteValue = append(r.token.byteValue, c)
  258. return 2, nil
  259. case 'b':
  260. r.token.byteValue = append(r.token.byteValue, '\b')
  261. return 2, nil
  262. case 'f':
  263. r.token.byteValue = append(r.token.byteValue, '\f')
  264. return 2, nil
  265. case 'n':
  266. r.token.byteValue = append(r.token.byteValue, '\n')
  267. return 2, nil
  268. case 'r':
  269. r.token.byteValue = append(r.token.byteValue, '\r')
  270. return 2, nil
  271. case 't':
  272. r.token.byteValue = append(r.token.byteValue, '\t')
  273. return 2, nil
  274. case 'u':
  275. rr := getu4(data)
  276. if rr < 0 {
  277. return 0, errors.New("syntax error")
  278. }
  279. read := 6
  280. if utf16.IsSurrogate(rr) {
  281. rr1 := getu4(data[read:])
  282. if dec := utf16.DecodeRune(rr, rr1); dec != unicode.ReplacementChar {
  283. read += 6
  284. rr = dec
  285. } else {
  286. rr = unicode.ReplacementChar
  287. }
  288. }
  289. var d [4]byte
  290. s := utf8.EncodeRune(d[:], rr)
  291. r.token.byteValue = append(r.token.byteValue, d[:s]...)
  292. return read, nil
  293. }
  294. return 0, errors.New("syntax error")
  295. }
  296. // fetchString scans a string literal token.
  297. func (r *Lexer) fetchString() {
  298. r.pos++
  299. data := r.Data[r.pos:]
  300. hasEscapes, length := findStringLen(data)
  301. if !hasEscapes {
  302. r.token.byteValue = data[:length]
  303. r.pos += length + 1
  304. return
  305. }
  306. r.token.byteValue = make([]byte, 0, length)
  307. p := 0
  308. for i := 0; i < len(data); {
  309. switch data[i] {
  310. case '"':
  311. r.pos += i + 1
  312. r.token.byteValue = append(r.token.byteValue, data[p:i]...)
  313. i++
  314. return
  315. case '\\':
  316. r.token.byteValue = append(r.token.byteValue, data[p:i]...)
  317. off, err := r.processEscape(data[i:])
  318. if err != nil {
  319. r.errParse(err.Error())
  320. return
  321. }
  322. i += off
  323. p = i
  324. default:
  325. i++
  326. }
  327. }
  328. r.errParse("unterminated string literal")
  329. }
  330. // scanToken scans the next token if no token is currently available in the lexer.
  331. func (r *Lexer) scanToken() {
  332. if r.token.kind != tokenUndef || r.fatalError != nil {
  333. return
  334. }
  335. r.FetchToken()
  336. }
  337. // consume resets the current token to allow scanning the next one.
  338. func (r *Lexer) consume() {
  339. r.token.kind = tokenUndef
  340. r.token.delimValue = 0
  341. }
  342. // Ok returns true if no error (including io.EOF) was encountered during scanning.
  343. func (r *Lexer) Ok() bool {
  344. return r.fatalError == nil
  345. }
  346. const maxErrorContextLen = 13
  347. func (r *Lexer) errParse(what string) {
  348. if r.fatalError == nil {
  349. var str string
  350. if len(r.Data)-r.pos <= maxErrorContextLen {
  351. str = string(r.Data)
  352. } else {
  353. str = string(r.Data[r.pos:r.pos+maxErrorContextLen-3]) + "..."
  354. }
  355. r.fatalError = &LexerError{
  356. Reason: what,
  357. Offset: r.pos,
  358. Data: str,
  359. }
  360. }
  361. }
  362. func (r *Lexer) errSyntax() {
  363. r.errParse("syntax error")
  364. }
  365. func (r *Lexer) errInvalidToken(expected string) {
  366. if r.fatalError != nil {
  367. return
  368. }
  369. if r.UseMultipleErrors {
  370. r.pos = r.start
  371. r.consume()
  372. r.SkipRecursive()
  373. switch expected {
  374. case "[":
  375. r.token.delimValue = ']'
  376. r.token.kind = tokenDelim
  377. case "{":
  378. r.token.delimValue = '}'
  379. r.token.kind = tokenDelim
  380. }
  381. r.addNonfatalError(&LexerError{
  382. Reason: fmt.Sprintf("expected %s", expected),
  383. Offset: r.start,
  384. Data: string(r.Data[r.start:r.pos]),
  385. })
  386. return
  387. }
  388. var str string
  389. if len(r.token.byteValue) <= maxErrorContextLen {
  390. str = string(r.token.byteValue)
  391. } else {
  392. str = string(r.token.byteValue[:maxErrorContextLen-3]) + "..."
  393. }
  394. r.fatalError = &LexerError{
  395. Reason: fmt.Sprintf("expected %s", expected),
  396. Offset: r.pos,
  397. Data: str,
  398. }
  399. }
  400. func (r *Lexer) GetPos() int {
  401. return r.pos
  402. }
  403. // Delim consumes a token and verifies that it is the given delimiter.
  404. func (r *Lexer) Delim(c byte) {
  405. if r.token.kind == tokenUndef && r.Ok() {
  406. r.FetchToken()
  407. }
  408. if !r.Ok() || r.token.delimValue != c {
  409. r.consume() // errInvalidToken can change token if UseMultipleErrors is enabled.
  410. r.errInvalidToken(string([]byte{c}))
  411. } else {
  412. r.consume()
  413. }
  414. }
  415. // IsDelim returns true if there was no scanning error and next token is the given delimiter.
  416. func (r *Lexer) IsDelim(c byte) bool {
  417. if r.token.kind == tokenUndef && r.Ok() {
  418. r.FetchToken()
  419. }
  420. return !r.Ok() || r.token.delimValue == c
  421. }
  422. // Null verifies that the next token is null and consumes it.
  423. func (r *Lexer) Null() {
  424. if r.token.kind == tokenUndef && r.Ok() {
  425. r.FetchToken()
  426. }
  427. if !r.Ok() || r.token.kind != tokenNull {
  428. r.errInvalidToken("null")
  429. }
  430. r.consume()
  431. }
  432. // IsNull returns true if the next token is a null keyword.
  433. func (r *Lexer) IsNull() bool {
  434. if r.token.kind == tokenUndef && r.Ok() {
  435. r.FetchToken()
  436. }
  437. return r.Ok() && r.token.kind == tokenNull
  438. }
  439. // Skip skips a single token.
  440. func (r *Lexer) Skip() {
  441. if r.token.kind == tokenUndef && r.Ok() {
  442. r.FetchToken()
  443. }
  444. r.consume()
  445. }
  446. // SkipRecursive skips next array or object completely, or just skips a single token if not
  447. // an array/object.
  448. //
  449. // Note: no syntax validation is performed on the skipped data.
  450. func (r *Lexer) SkipRecursive() {
  451. r.scanToken()
  452. var start, end byte
  453. if r.token.delimValue == '{' {
  454. start, end = '{', '}'
  455. } else if r.token.delimValue == '[' {
  456. start, end = '[', ']'
  457. } else {
  458. r.consume()
  459. return
  460. }
  461. r.consume()
  462. level := 1
  463. inQuotes := false
  464. wasEscape := false
  465. for i, c := range r.Data[r.pos:] {
  466. switch {
  467. case c == start && !inQuotes:
  468. level++
  469. case c == end && !inQuotes:
  470. level--
  471. if level == 0 {
  472. r.pos += i + 1
  473. return
  474. }
  475. case c == '\\' && inQuotes:
  476. wasEscape = !wasEscape
  477. continue
  478. case c == '"' && inQuotes:
  479. inQuotes = wasEscape
  480. case c == '"':
  481. inQuotes = true
  482. }
  483. wasEscape = false
  484. }
  485. r.pos = len(r.Data)
  486. r.fatalError = &LexerError{
  487. Reason: "EOF reached while skipping array/object or token",
  488. Offset: r.pos,
  489. Data: string(r.Data[r.pos:]),
  490. }
  491. }
  492. // Raw fetches the next item recursively as a data slice
  493. func (r *Lexer) Raw() []byte {
  494. r.SkipRecursive()
  495. if !r.Ok() {
  496. return nil
  497. }
  498. return r.Data[r.start:r.pos]
  499. }
  500. // IsStart returns whether the lexer is positioned at the start
  501. // of an input string.
  502. func (r *Lexer) IsStart() bool {
  503. return r.pos == 0
  504. }
  505. // Consumed reads all remaining bytes from the input, publishing an error if
  506. // there is anything but whitespace remaining.
  507. func (r *Lexer) Consumed() {
  508. if r.pos > len(r.Data) || !r.Ok() {
  509. return
  510. }
  511. for _, c := range r.Data[r.pos:] {
  512. if c != ' ' && c != '\t' && c != '\r' && c != '\n' {
  513. r.AddError(&LexerError{
  514. Reason: "invalid character '" + string(c) + "' after top-level value",
  515. Offset: r.pos,
  516. Data: string(r.Data[r.pos:]),
  517. })
  518. return
  519. }
  520. r.pos++
  521. r.start++
  522. }
  523. }
  524. func (r *Lexer) unsafeString() (string, []byte) {
  525. if r.token.kind == tokenUndef && r.Ok() {
  526. r.FetchToken()
  527. }
  528. if !r.Ok() || r.token.kind != tokenString {
  529. r.errInvalidToken("string")
  530. return "", nil
  531. }
  532. bytes := r.token.byteValue
  533. ret := bytesToStr(r.token.byteValue)
  534. r.consume()
  535. return ret, bytes
  536. }
  537. // UnsafeString returns the string value if the token is a string literal.
  538. //
  539. // Warning: returned string may point to the input buffer, so the string should not outlive
  540. // the input buffer. Intended pattern of usage is as an argument to a switch statement.
  541. func (r *Lexer) UnsafeString() string {
  542. ret, _ := r.unsafeString()
  543. return ret
  544. }
  545. // UnsafeBytes returns the byte slice if the token is a string literal.
  546. func (r *Lexer) UnsafeBytes() []byte {
  547. _, ret := r.unsafeString()
  548. return ret
  549. }
  550. // String reads a string literal.
  551. func (r *Lexer) String() string {
  552. if r.token.kind == tokenUndef && r.Ok() {
  553. r.FetchToken()
  554. }
  555. if !r.Ok() || r.token.kind != tokenString {
  556. r.errInvalidToken("string")
  557. return ""
  558. }
  559. ret := string(r.token.byteValue)
  560. r.consume()
  561. return ret
  562. }
  563. // Bytes reads a string literal and base64 decodes it into a byte slice.
  564. func (r *Lexer) Bytes() []byte {
  565. if r.token.kind == tokenUndef && r.Ok() {
  566. r.FetchToken()
  567. }
  568. if !r.Ok() || r.token.kind != tokenString {
  569. r.errInvalidToken("string")
  570. return nil
  571. }
  572. ret := make([]byte, base64.StdEncoding.DecodedLen(len(r.token.byteValue)))
  573. len, err := base64.StdEncoding.Decode(ret, r.token.byteValue)
  574. if err != nil {
  575. r.fatalError = &LexerError{
  576. Reason: err.Error(),
  577. }
  578. return nil
  579. }
  580. r.consume()
  581. return ret[:len]
  582. }
  583. // Bool reads a true or false boolean keyword.
  584. func (r *Lexer) Bool() bool {
  585. if r.token.kind == tokenUndef && r.Ok() {
  586. r.FetchToken()
  587. }
  588. if !r.Ok() || r.token.kind != tokenBool {
  589. r.errInvalidToken("bool")
  590. return false
  591. }
  592. ret := r.token.boolValue
  593. r.consume()
  594. return ret
  595. }
  596. func (r *Lexer) number() string {
  597. if r.token.kind == tokenUndef && r.Ok() {
  598. r.FetchToken()
  599. }
  600. if !r.Ok() || r.token.kind != tokenNumber {
  601. r.errInvalidToken("number")
  602. return ""
  603. }
  604. ret := bytesToStr(r.token.byteValue)
  605. r.consume()
  606. return ret
  607. }
  608. func (r *Lexer) Uint8() uint8 {
  609. s := r.number()
  610. if !r.Ok() {
  611. return 0
  612. }
  613. n, err := strconv.ParseUint(s, 10, 8)
  614. if err != nil {
  615. r.addNonfatalError(&LexerError{
  616. Offset: r.start,
  617. Reason: err.Error(),
  618. Data: s,
  619. })
  620. }
  621. return uint8(n)
  622. }
  623. func (r *Lexer) Uint16() uint16 {
  624. s := r.number()
  625. if !r.Ok() {
  626. return 0
  627. }
  628. n, err := strconv.ParseUint(s, 10, 16)
  629. if err != nil {
  630. r.addNonfatalError(&LexerError{
  631. Offset: r.start,
  632. Reason: err.Error(),
  633. Data: s,
  634. })
  635. }
  636. return uint16(n)
  637. }
  638. func (r *Lexer) Uint32() uint32 {
  639. s := r.number()
  640. if !r.Ok() {
  641. return 0
  642. }
  643. n, err := strconv.ParseUint(s, 10, 32)
  644. if err != nil {
  645. r.addNonfatalError(&LexerError{
  646. Offset: r.start,
  647. Reason: err.Error(),
  648. Data: s,
  649. })
  650. }
  651. return uint32(n)
  652. }
  653. func (r *Lexer) Uint64() uint64 {
  654. s := r.number()
  655. if !r.Ok() {
  656. return 0
  657. }
  658. n, err := strconv.ParseUint(s, 10, 64)
  659. if err != nil {
  660. r.addNonfatalError(&LexerError{
  661. Offset: r.start,
  662. Reason: err.Error(),
  663. Data: s,
  664. })
  665. }
  666. return n
  667. }
  668. func (r *Lexer) Uint() uint {
  669. return uint(r.Uint64())
  670. }
  671. func (r *Lexer) Int8() int8 {
  672. s := r.number()
  673. if !r.Ok() {
  674. return 0
  675. }
  676. n, err := strconv.ParseInt(s, 10, 8)
  677. if err != nil {
  678. r.addNonfatalError(&LexerError{
  679. Offset: r.start,
  680. Reason: err.Error(),
  681. Data: s,
  682. })
  683. }
  684. return int8(n)
  685. }
  686. func (r *Lexer) Int16() int16 {
  687. s := r.number()
  688. if !r.Ok() {
  689. return 0
  690. }
  691. n, err := strconv.ParseInt(s, 10, 16)
  692. if err != nil {
  693. r.addNonfatalError(&LexerError{
  694. Offset: r.start,
  695. Reason: err.Error(),
  696. Data: s,
  697. })
  698. }
  699. return int16(n)
  700. }
  701. func (r *Lexer) Int32() int32 {
  702. s := r.number()
  703. if !r.Ok() {
  704. return 0
  705. }
  706. n, err := strconv.ParseInt(s, 10, 32)
  707. if err != nil {
  708. r.addNonfatalError(&LexerError{
  709. Offset: r.start,
  710. Reason: err.Error(),
  711. Data: s,
  712. })
  713. }
  714. return int32(n)
  715. }
  716. func (r *Lexer) Int64() int64 {
  717. s := r.number()
  718. if !r.Ok() {
  719. return 0
  720. }
  721. n, err := strconv.ParseInt(s, 10, 64)
  722. if err != nil {
  723. r.addNonfatalError(&LexerError{
  724. Offset: r.start,
  725. Reason: err.Error(),
  726. Data: s,
  727. })
  728. }
  729. return n
  730. }
  731. func (r *Lexer) Int() int {
  732. return int(r.Int64())
  733. }
  734. func (r *Lexer) Uint8Str() uint8 {
  735. s, b := r.unsafeString()
  736. if !r.Ok() {
  737. return 0
  738. }
  739. n, err := strconv.ParseUint(s, 10, 8)
  740. if err != nil {
  741. r.addNonfatalError(&LexerError{
  742. Offset: r.start,
  743. Reason: err.Error(),
  744. Data: string(b),
  745. })
  746. }
  747. return uint8(n)
  748. }
  749. func (r *Lexer) Uint16Str() uint16 {
  750. s, b := r.unsafeString()
  751. if !r.Ok() {
  752. return 0
  753. }
  754. n, err := strconv.ParseUint(s, 10, 16)
  755. if err != nil {
  756. r.addNonfatalError(&LexerError{
  757. Offset: r.start,
  758. Reason: err.Error(),
  759. Data: string(b),
  760. })
  761. }
  762. return uint16(n)
  763. }
  764. func (r *Lexer) Uint32Str() uint32 {
  765. s, b := r.unsafeString()
  766. if !r.Ok() {
  767. return 0
  768. }
  769. n, err := strconv.ParseUint(s, 10, 32)
  770. if err != nil {
  771. r.addNonfatalError(&LexerError{
  772. Offset: r.start,
  773. Reason: err.Error(),
  774. Data: string(b),
  775. })
  776. }
  777. return uint32(n)
  778. }
  779. func (r *Lexer) Uint64Str() uint64 {
  780. s, b := r.unsafeString()
  781. if !r.Ok() {
  782. return 0
  783. }
  784. n, err := strconv.ParseUint(s, 10, 64)
  785. if err != nil {
  786. r.addNonfatalError(&LexerError{
  787. Offset: r.start,
  788. Reason: err.Error(),
  789. Data: string(b),
  790. })
  791. }
  792. return n
  793. }
  794. func (r *Lexer) UintStr() uint {
  795. return uint(r.Uint64Str())
  796. }
  797. func (r *Lexer) UintptrStr() uintptr {
  798. return uintptr(r.Uint64Str())
  799. }
  800. func (r *Lexer) Int8Str() int8 {
  801. s, b := r.unsafeString()
  802. if !r.Ok() {
  803. return 0
  804. }
  805. n, err := strconv.ParseInt(s, 10, 8)
  806. if err != nil {
  807. r.addNonfatalError(&LexerError{
  808. Offset: r.start,
  809. Reason: err.Error(),
  810. Data: string(b),
  811. })
  812. }
  813. return int8(n)
  814. }
  815. func (r *Lexer) Int16Str() int16 {
  816. s, b := r.unsafeString()
  817. if !r.Ok() {
  818. return 0
  819. }
  820. n, err := strconv.ParseInt(s, 10, 16)
  821. if err != nil {
  822. r.addNonfatalError(&LexerError{
  823. Offset: r.start,
  824. Reason: err.Error(),
  825. Data: string(b),
  826. })
  827. }
  828. return int16(n)
  829. }
  830. func (r *Lexer) Int32Str() int32 {
  831. s, b := r.unsafeString()
  832. if !r.Ok() {
  833. return 0
  834. }
  835. n, err := strconv.ParseInt(s, 10, 32)
  836. if err != nil {
  837. r.addNonfatalError(&LexerError{
  838. Offset: r.start,
  839. Reason: err.Error(),
  840. Data: string(b),
  841. })
  842. }
  843. return int32(n)
  844. }
  845. func (r *Lexer) Int64Str() int64 {
  846. s, b := r.unsafeString()
  847. if !r.Ok() {
  848. return 0
  849. }
  850. n, err := strconv.ParseInt(s, 10, 64)
  851. if err != nil {
  852. r.addNonfatalError(&LexerError{
  853. Offset: r.start,
  854. Reason: err.Error(),
  855. Data: string(b),
  856. })
  857. }
  858. return n
  859. }
  860. func (r *Lexer) IntStr() int {
  861. return int(r.Int64Str())
  862. }
  863. func (r *Lexer) Float32() float32 {
  864. s := r.number()
  865. if !r.Ok() {
  866. return 0
  867. }
  868. n, err := strconv.ParseFloat(s, 32)
  869. if err != nil {
  870. r.addNonfatalError(&LexerError{
  871. Offset: r.start,
  872. Reason: err.Error(),
  873. Data: s,
  874. })
  875. }
  876. return float32(n)
  877. }
  878. func (r *Lexer) Float32Str() float32 {
  879. s, b := r.unsafeString()
  880. if !r.Ok() {
  881. return 0
  882. }
  883. n, err := strconv.ParseFloat(s, 32)
  884. if err != nil {
  885. r.addNonfatalError(&LexerError{
  886. Offset: r.start,
  887. Reason: err.Error(),
  888. Data: string(b),
  889. })
  890. }
  891. return float32(n)
  892. }
  893. func (r *Lexer) Float64() float64 {
  894. s := r.number()
  895. if !r.Ok() {
  896. return 0
  897. }
  898. n, err := strconv.ParseFloat(s, 64)
  899. if err != nil {
  900. r.addNonfatalError(&LexerError{
  901. Offset: r.start,
  902. Reason: err.Error(),
  903. Data: s,
  904. })
  905. }
  906. return n
  907. }
  908. func (r *Lexer) Float64Str() float64 {
  909. s, b := r.unsafeString()
  910. if !r.Ok() {
  911. return 0
  912. }
  913. n, err := strconv.ParseFloat(s, 64)
  914. if err != nil {
  915. r.addNonfatalError(&LexerError{
  916. Offset: r.start,
  917. Reason: err.Error(),
  918. Data: string(b),
  919. })
  920. }
  921. return n
  922. }
  923. func (r *Lexer) Error() error {
  924. return r.fatalError
  925. }
  926. func (r *Lexer) AddError(e error) {
  927. if r.fatalError == nil {
  928. r.fatalError = e
  929. }
  930. }
  931. func (r *Lexer) AddNonFatalError(e error) {
  932. r.addNonfatalError(&LexerError{
  933. Offset: r.start,
  934. Data: string(r.Data[r.start:r.pos]),
  935. Reason: e.Error(),
  936. })
  937. }
  938. func (r *Lexer) addNonfatalError(err *LexerError) {
  939. if r.UseMultipleErrors {
  940. // We don't want to add errors with the same offset.
  941. if len(r.multipleErrors) != 0 && r.multipleErrors[len(r.multipleErrors)-1].Offset == err.Offset {
  942. return
  943. }
  944. r.multipleErrors = append(r.multipleErrors, err)
  945. return
  946. }
  947. r.fatalError = err
  948. }
  949. func (r *Lexer) GetNonFatalErrors() []*LexerError {
  950. return r.multipleErrors
  951. }
  952. // JsonNumber fetches and json.Number from 'encoding/json' package.
  953. // Both int, float or string, contains them are valid values
  954. func (r *Lexer) JsonNumber() json.Number {
  955. if r.token.kind == tokenUndef && r.Ok() {
  956. r.FetchToken()
  957. }
  958. if !r.Ok() {
  959. r.errInvalidToken("json.Number")
  960. return json.Number("")
  961. }
  962. switch r.token.kind {
  963. case tokenString:
  964. return json.Number(r.String())
  965. case tokenNumber:
  966. return json.Number(r.Raw())
  967. case tokenNull:
  968. r.Null()
  969. return json.Number("")
  970. default:
  971. r.errSyntax()
  972. return json.Number("")
  973. }
  974. }
  975. // Interface fetches an interface{} analogous to the 'encoding/json' package.
  976. func (r *Lexer) Interface() interface{} {
  977. if r.token.kind == tokenUndef && r.Ok() {
  978. r.FetchToken()
  979. }
  980. if !r.Ok() {
  981. return nil
  982. }
  983. switch r.token.kind {
  984. case tokenString:
  985. return r.String()
  986. case tokenNumber:
  987. return r.Float64()
  988. case tokenBool:
  989. return r.Bool()
  990. case tokenNull:
  991. r.Null()
  992. return nil
  993. }
  994. if r.token.delimValue == '{' {
  995. r.consume()
  996. ret := map[string]interface{}{}
  997. for !r.IsDelim('}') {
  998. key := r.String()
  999. r.WantColon()
  1000. ret[key] = r.Interface()
  1001. r.WantComma()
  1002. }
  1003. r.Delim('}')
  1004. if r.Ok() {
  1005. return ret
  1006. } else {
  1007. return nil
  1008. }
  1009. } else if r.token.delimValue == '[' {
  1010. r.consume()
  1011. var ret []interface{}
  1012. for !r.IsDelim(']') {
  1013. ret = append(ret, r.Interface())
  1014. r.WantComma()
  1015. }
  1016. r.Delim(']')
  1017. if r.Ok() {
  1018. return ret
  1019. } else {
  1020. return nil
  1021. }
  1022. }
  1023. r.errSyntax()
  1024. return nil
  1025. }
  1026. // WantComma requires a comma to be present before fetching next token.
  1027. func (r *Lexer) WantComma() {
  1028. r.wantSep = ','
  1029. r.firstElement = false
  1030. }
  1031. // WantColon requires a colon to be present before fetching next token.
  1032. func (r *Lexer) WantColon() {
  1033. r.wantSep = ':'
  1034. r.firstElement = false
  1035. }