syncthing · bt90 · Jan 23, 2024 · Jan 23, 2024 · Jan 23, 2024 · Jan 23, 2024
diff --git a/lib/fs/folding.go b/lib/fs/folding.go
@@ -9,41 +9,75 @@ package fs
 import (
  "strings"
  "unicode"
- "unicode/utf8"
 
  "golang.org/x/text/unicode/norm"
 )
 
 // UnicodeLowercaseNormalized returns the Unicode lower case variant of s,
 // having also normalized it to normalization form C.
 func UnicodeLowercaseNormalized(s string) string {
- i := firstCaseChange(s)
- if i == -1 {
- return norm.NFC.String(s)
+ if isASCII, isLower := isASCII(s); isASCII {
+ if isLower {
+ return s
+ }
+ return toLowerASCII(s)
  }
 
- var rs strings.Builder
- // WriteRune always reserves utf8.UTFMax bytes for non-ASCII runes,
- // even if it doesn't need all that space. Overallocate now to prevent
- // it from ever triggering a reallocation.
- rs.Grow(utf8.UTFMax - 1 + len(s))
- rs.WriteString(s[:i])
+ return toLowerUnicode(s)
+}
 
- for _, r := range s[i:] {
- rs.WriteRune(unicode.ToLower(unicode.ToUpper(r)))
+func isASCII(s string) (bool, bool) {
+ isLower := true
+ for i := 0; i < len(s); i++ {
+ c := s[i]
+ if c > unicode.MaxASCII {
+ return false, isLower
+ }
+ if 'A' <= c && c <= 'Z' {
+ isLower = false
+ }
  }
- return norm.NFC.String(rs.String())
+ return true, isLower
 }
 
-// Byte index of the first rune r s.t. lower(upper(r)) != r.
-func firstCaseChange(s string) int {
- for i, r := range s {
- if r <= unicode.MaxASCII && (r < 'A' || r > 'Z') {
+func toLowerASCII(s string) string {
+ var (
+ b strings.Builder
+ pos int
+ )
+ b.Grow(len(s))
+ for i := 0; i < len(s); i++ {
+ c := s[i]
+ if c < 'A' || 'Z' < c {
  continue
  }
- if unicode.ToLower(unicode.ToUpper(r)) != r {
- return i
+ if pos < i {
+ b.WriteString(s[pos:i])
+ }
+ pos = i + 1
+ c += 'a' - 'A'
+ b.WriteByte(c)
+ }
+ if pos != len(s) {
+ b.WriteString(s[pos:])
+ }
+ return b.String()
+}
+
+func toLowerUnicode(s string) string {
+ s = strings.Map(toLower, s)
+ return norm.NFC.String(s)
+}
+
+func toLower(r rune) rune {
+ if r <= unicode.MaxASCII {
+ if r < 'A' || 'Z' < r {
+ return r
  }
+ return r + 'a' - 'A'
+ }
+ if r <= unicode.MaxLatin1 && r != 'µ' {
+ return unicode.To(unicode.LowerCase, r)
  }
- return -1
+ return unicode.To(unicode.LowerCase, unicode.To(unicode.UpperCase, r))
 }
diff --git a/lib/fs/folding_test.go b/lib/fs/folding_test.go
@@ -49,6 +49,14 @@ var caseCases = [][2]string{
  {"a\xCC\x88", "\xC3\xA4"}, // ä
 }
 
+var benchmarkCases = [][2]string{
+ {"img_202401241010.jpg", "ASCII lowercase"},
+ {"IMG_202401241010.jpg", "ASCII mixedcase"},
+ {"übernahme angebot.xlsx", "Unicode lowercase"},
+ {"Übernahme Angebot.xlsx", "Unicode mixedcase"},
+ {"ウェブの国際化.html", "Unicode multibyte"},
+}
+
 func TestUnicodeLowercaseNormalized(t *testing.T) {
  for _, tc := range caseCases {
  res := UnicodeLowercaseNormalized(tc[0])
@@ -58,22 +66,13 @@ func TestUnicodeLowercaseNormalized(t *testing.T) {
  }
 }
 
-func BenchmarkUnicodeLowercaseMaybeChange(b *testing.B) {
- b.ReportAllocs()
-
- for i := 0; i < b.N; i++ {
- for _, s := range caseCases {
- UnicodeLowercaseNormalized(s[0])
- }
- }
-}
-
-func BenchmarkUnicodeLowercaseNoChange(b *testing.B) {
- b.ReportAllocs()
-
- for i := 0; i < b.N; i++ {
- for _, s := range caseCases {
- UnicodeLowercaseNormalized(s[1])
- }
+func BenchmarkUnicodeLowercase(b *testing.B) {
+ for _, c := range benchmarkCases {
+ b.Run(c[1], func(b *testing.B) {
+ b.ReportAllocs()
+ for i := 0; i < b.N; i++ {
+ UnicodeLowercaseNormalized(c[0])
+ }
+ })
  }
 }