BurntSushi · BurntSushi · Jul 21, 2019 · Jul 17, 2019 · Jul 18, 2019 · Jul 20, 2019
diff --git a/bench/Cargo.lock b/bench/Cargo.lock
diff --git a/bench/src/bench.rs b/bench/src/bench.rs
@@ -269,4 +269,6 @@ criterion_group!(g8, trim);
 criterion_group!(g9, search::find_iter);
 criterion_group!(g10, search::rfind_iter);
 criterion_group!(g11, search::find_char);
-criterion_main!(g1, g2, g3, g4, g5, g6, g7, g8, g9, g10, g11);
+criterion_group!(g12, search::find_byteset);
+criterion_group!(g13, search::find_not_byteset);
+criterion_main!(g1, g2, g3, g4, g5, g6, g7, g8, g9, g10, g11, g12, g13);
diff --git a/bench/src/search.rs b/bench/src/search.rs
@@ -121,6 +121,137 @@ pub fn find_char(c: &mut Criterion) {
     });
 }
 
+pub fn find_byteset(c: &mut Criterion) {
+    let corpus = SUBTITLE_EN_SMALL;
+    define(c, "bstr/find_byteset/1", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.find_byteset(b"\0"));
+        });
+    });
+    define(c, "bstr/find_byteset/2", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.find_byteset(b"\0\xff"));
+        });
+    });
+    define(c, "bstr/find_byteset/3", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.find_byteset(b"\0\xff\xee"));
+        });
+    });
+    define(c, "bstr/find_byteset/4", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.find_byteset(b"\0\xff\xee\xdd"));
+        });
+    });
+    define(c, "bstr/find_byteset/10", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.find_byteset(b"0123456789"));
+        });
+    });
+
+    define(c, "bstr/rfind_byteset/1", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_byteset(b"\0"));
+        });
+    });
+    define(c, "bstr/rfind_byteset/2", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_byteset(b"\0\xff"));
+        });
+    });
+    define(c, "bstr/rfind_byteset/3", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_byteset(b"\0\xff\xee"));
+        });
+    });
+    define(c, "bstr/rfind_byteset/4", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_byteset(b"\0\xff\xee\xdd"));
+        });
+    });
+    define(c, "bstr/rfind_byteset/10", "en-small-ascii", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_byteset(b"0123456789"));
+        });
+    });
+}
+
+pub fn find_not_byteset(c: &mut Criterion) {
+    let corpus = REPEATED_RARE_SMALL;
+    define(c, "bstr/find_not_byteset/1", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(Some(1000), corpus.find_not_byteset(b"z"));
+        })
+    });
+    define(c, "bstr/find_not_byteset/2", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(Some(1000), corpus.find_not_byteset(b"zy"));
+        });
+    });
+    define(c, "bstr/find_not_byteset/3", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(Some(1000), corpus.find_not_byteset(b"zyx"));
+        });
+    });
+    define(c, "bstr/find_not_byteset/4", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(Some(1000), corpus.find_not_byteset(b"zyxw"));
+        });
+    });
+    define(c, "bstr/find_not_byteset/10", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(Some(1000), corpus.find_not_byteset(b"zyxwv12345"));
+        });
+    });
+
+    define(c, "bstr/rfind_not_byteset/1", "repeated-rare-small", corpus, move |b| {
+        // This file ends in \n, breaking our benchmark.... TODO find a better dataset...
+        let corpus = &corpus.as_bytes()[..(corpus.len()-1)];
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_not_byteset(b"z"));
+        });
+    });
+    define(c, "bstr/rfind_not_byteset/2", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_not_byteset(b"z\n"));
+        });
+    });
+    define(c, "bstr/rfind_not_byteset/3", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_not_byteset(b"zy\n"));
+        });
+    });
+    define(c, "bstr/rfind_not_byteset/4", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_not_byteset(b"zyx\n"));
+        });
+    });
+    define(c, "bstr/rfind_not_byteset/10", "repeated-rare-small", corpus, move |b| {
+        let corpus = corpus.as_bytes();
+        b.iter(|| {
+            assert_eq!(None, corpus.rfind_not_byteset(b"zyxwv1234\n"));
+        });
+    });
+}
+
 fn define_find_iter(
     c: &mut Criterion,
     group_name: &str,

diff --git a/src/byteset/mod.rs b/src/byteset/mod.rs
@@ -0,0 +1,115 @@
+use memchr::{memchr, memchr2, memchr3, memrchr, memrchr2, memrchr3};
+mod scalar;
+
+#[inline]
+fn build_table(byteset: &[u8]) -> [u8; 256] {
+    let mut table = [0u8; 256];
+    for &b in byteset {
+        table[b as usize] = 1;
+    }
+    table
+}
+
+#[inline]
+pub(crate) fn find(haystack: &[u8], byteset: &[u8]) -> Option<usize> {
+    match byteset.len() {
+        0 => return None,
+        1 => memchr(byteset[0], haystack),
+        2 => memchr2(byteset[0], byteset[1], haystack),
+        3 => memchr3(byteset[0], byteset[1], byteset[2], haystack),
+        _ => {
+            let table = build_table(byteset);
+            scalar::forward_search_bytes(haystack, |b| table[b as usize] != 0)
+        }
+    }
+}
+
+#[inline]
+pub(crate) fn rfind(haystack: &[u8], byteset: &[u8]) -> Option<usize> {
+    match byteset.len() {
+        0 => return None,
+        1 => memrchr(byteset[0], haystack),
+        2 => memrchr2(byteset[0], byteset[1], haystack),
+        3 => memrchr3(byteset[0], byteset[1], byteset[2], haystack),
+        _ => {
+            let table = build_table(byteset);
+            scalar::reverse_search_bytes(haystack, |b| table[b as usize] != 0)
+        }
+    }
+}
+
+#[inline]
+pub(crate) fn find_not(haystack: &[u8], byteset: &[u8]) -> Option<usize> {
+    if haystack.is_empty() {
+        return None;
+    }
+    match byteset.len() {
+        0 => return Some(0),
+        1 => scalar::inv_memchr(byteset[0], haystack),
+        2 => scalar::forward_search_bytes(haystack, |b| {
+            b != byteset[0] && b != byteset[1]
+        }),
+        3 => scalar::forward_search_bytes(haystack, |b| {
+            b != byteset[0] && b != byteset[1] && b != byteset[2]
+        }),
+        _ => {
+            let table = build_table(byteset);
+            scalar::forward_search_bytes(haystack, |b| table[b as usize] == 0)
+        }
+    }
+}
+#[inline]
+pub(crate) fn rfind_not(haystack: &[u8], byteset: &[u8]) -> Option<usize> {
+    if haystack.is_empty() {
+        return None;
+    }
+    match byteset.len() {
+        0 => return Some(haystack.len() - 1),
+        1 => scalar::inv_memrchr(byteset[0], haystack),
+        2 => scalar::reverse_search_bytes(haystack, |b| {
+            b != byteset[0] && b != byteset[1]
+        }),
+        3 => scalar::reverse_search_bytes(haystack, |b| {
+            b != byteset[0] && b != byteset[1] && b != byteset[2]
+        }),
+        _ => {
+            let table = build_table(byteset);
+            scalar::reverse_search_bytes(haystack, |b| table[b as usize] == 0)
+        }
+    }
+}
+
+#[cfg(test)]
+mod tests {
+
+    quickcheck! {
+        fn qc_byteset_forward_matches_naive(
+            haystack: Vec<u8>,
+            needles: Vec<u8>
+        ) -> bool {
+            super::find(&haystack, &needles)
+                == haystack.iter().position(|b| needles.contains(b))
+        }
+        fn qc_byteset_backwards_matches_naive(
+            haystack: Vec<u8>,
+            needles: Vec<u8>
+        ) -> bool {
+            super::rfind(&haystack, &needles)
+                == haystack.iter().rposition(|b| needles.contains(b))
+        }
+        fn qc_byteset_forward_not_matches_naive(
+            haystack: Vec<u8>,
+            needles: Vec<u8>
+        ) -> bool {
+            super::find_not(&haystack, &needles)
+                == haystack.iter().position(|b| !needles.contains(b))
+        }
+        fn qc_byteset_backwards_not_matches_naive(
+            haystack: Vec<u8>,
+            needles: Vec<u8>
+        ) -> bool {
+            super::rfind_not(&haystack, &needles)
+                == haystack.iter().rposition(|b| !needles.contains(b))
+        }
+    }
+}