[ZIPT Benchmark] Z3 c3 branch — 2026-03-29 #9160

2026-03-29T01:29:41Z

github-actions[bot]
bot Mar 29, 2026

Date: 2026-03-29
Branch: c3
Benchmark set: QF_S (200 randomly selected files from tests/QF_S.tar.zst, drawn from 22,172 total)
Timeouts: seq -T:5 (5 s wall clock cap inside Z3, 7 s outer); nseq -T:5; ZIPT -t:5000 (5 s)
Build type: Debug (assertions active, tracing enabled)

Summary

Metric	seq solver	nseq solver	ZIPT solver
sat	79	94	105
unsat	61	65	64
unknown	57	32	5
timeout	0	0	0
bug/crash	3 *	9 **	26 ***
Total time (s)	261.899	54.335	102.742
Avg time/benchmark (s)	1.309	0.272	0.514

* seq "bug" entries (instance05732, query5169, instance08172) were likely spurious — re-running them manually returns correct sat/unsat. Probably caused by trace output interleaving during the sequential benchmark run.

** nseq "bug" entries include genuine assertion violations (ASSERTION VIOLATION at src/smt/seq/seq_nielsen.cpp:1505, ext) on not-contains-* and diseq-* families. instance05732, query5169, instance08172 appear spurious (same issue as seq above).

*** ZIPT crashes are primarily "Unsupported feature" errors (e.g. str.replace_all) on the benchmark_XXXX, pcp_instance_*, and wildcard-matching-* families.

Soundness disagreements (any two solvers return conflicting sat/unsat): 1

Notable Issues

🚨 Soundness Disagreement (Critical)

File	seq	nseq	ZIPT	Declared :status
`noodles-unsat-4.smt2`	unsat	unsat	sat	unsat

Both seq and nseq correctly return unsat for the noodles word-equation instance (derived from "Word Equations in Synergy with Regular Constraints"). ZIPT incorrectly returns sat. This is a soundness bug in ZIPT on the parikh branch.

The instance:

(assert (= (str.++ z y x) (str.++ x x z)))
(assert (str.in_re x (re.+ (str.to_re "1111"))))
(assert (str.in_re y (str.to_re "11")))
(assert (str.in_re z (re.+ (str.to_re "111"))))

⚠️ nseq Assertion Violations

The following files trigger ASSERTION VIOLATION at src/smt/seq/seq_nielsen.cpp:1505 (ext) in nseq. ZIPT solves them correctly as sat:

not-contains-1-3-5-135.smt2
not-contains-1-3-6-113.smt2
not-contains-1-4-6-118.smt2
not-contains-1-5-5-100.smt2
not-contains-1-5-5-102.smt2
diseq-1-5-5-110.smt2

These expose a bug in nseq's Nielsen graph extension logic (ext constraint handling at seq_nielsen.cpp:1505).

⚠️ ZIPT Unsupported Features / Crashes (26 files)

benchmark_XXXX.smt2 (RNA family): Use str.replace_all — not yet implemented in ZIPT.
pcp_instance_*.smt2 / unsolved_pcp_instance_*.smt2: Post Correspondence Problem instances expose unsupported constructs.
wildcard-matching-regex-*.smt2: Complex regex queries crash ZIPT.
slog_stranger_2884_sink.smt2: ZIPT crashes on an instance both seq and nseq solve as sat.

🐢 Slow Benchmarks (> 8 s for any solver)

File	seq (s)	nseq (s)	ZIPT (s)
`sub-matching-sat-1.smt2`	5.014 (timeout)	5.008 (timeout)	12.011 (timeout)
`wildcard-matching-regex-62.smt2`	5.008 (timeout)	0.417	12.010 (crash)
`diseq-1-5-5-110.smt2`	5.008 (timeout)	0.097 (crash)	12.016 (timeout)

Trace Analysis: seq-fast / nseq-slow Hypotheses

No seq-fast / nseq-slow cases were observed. The pattern is uniformly reversed: nseq is consistently faster than seq, often by 10–100×. seq timed out on 57 benchmarks that nseq solved quickly. The 4.8× speedup in total time (261.9 s vs. 54.3 s) and 25 additional solved benchmarks confirm nseq is the more effective engine here.

Why is seq slower than nseq?

Analysis of seq traces for representative slow files:

instance00662.smt2 (seq=timeout, nseq=sat in 52 ms) — The trace records 3,462 assign_eh calls, 1,840 simplify_eq invocations, and 1,149 add_axiom steps before timing out. The benchmark contains str.in_re with re.allchar (wildcard), which forces seq's automata-based regex propagation engine to enumerate a large product automaton over character sequences. Each assign_eh step generates new seq.unit Char[N] axioms for every character class boundary, causing combinatorial explosion. nseq uses the Nielsen graph with length arithmetic, assigning |X| = k and picking a satisfying string without character enumeration.

instance00825.smt2 (seq=3.266 s, nseq=52 ms) — The trace records 21,444 assign_eh calls and 303 reduce_ne/solve_ne steps. The benchmark uses re.comp (complement) and re.opt operators. seq inlines regex complement via automata complement, which exponentially blows up the NFA state space, then drives SAT search over NFA transitions. The 5.9 MB trace confirms exponential character-level unrolling. nseq avoids this via the Parikh image: regex membership becomes a linear arithmetic formula over character counts and length, which the arithmetic solver handles efficiently without automaton blowup.

General pattern: seq's regex engine is automaton-based and character-exact, leading to exponential blowup on complex patterns (wildcards, complements, loops). nseq's Nielsen-graph / Parikh-constraint approach reduces string problems to word-equation + integer-arithmetic problems that the SMT solver handles far more efficiently.

Per-File Results

Click to expand full per-file results (200 rows)

#	File	seq verdict	seq time (s)	nseq verdict	nseq time (s)	ZIPT verdict	ZIPT time (s)	Notes
1	`instance04470.smt2`	unknown	5.028	sat	.061	sat	.342
2	`benchmark_0109.smt2`	unknown	1.066	unknown	.227	bug	.132
3	`instance14435.smt2`	unsat	.268	unsat	.079	unsat	.401
4	`instance00727.smt2`	sat	.122	sat	.033	sat	.277
5	`instance15378.smt2`	unsat	.053	unsat	.022	unsat	.388
6	`benchmark_0184.smt2`	unknown	1.302	unknown	.224	bug	.187
7	`instance02950.smt2`	sat	.168	sat	.046	sat	.280
8	`sub-matching-sat-1.smt2`	unknown	5.014	unknown	5.008	unknown	12.011
9	`instance00825.smt2`	sat	3.266	sat	.052	sat	.245
10	`instance09773.smt2`	sat	.298	sat	.051	sat	.403
11	`instance02837.smt2`	sat	.069	sat	.028	sat	.206
12	`slog_stranger_4392_sink.smt2`	unknown	5.010	unknown	5.008	sat	.489
13	`pcp_instance_332.smt2`	unknown	.359	unknown	.191	bug	.193
14	`slog_stranger_2538_sink.smt2`	unsat	.031	unsat	.028	unsat	.321
15	`instance09503.smt2`	sat	.222	sat	.047	sat	.346
16	`instance10044.smt2`	sat	.669	sat	.050	sat	.320
17	`instance03431.smt2`	sat	.976	sat	.027	sat	.307
18	`instance09357.smt2`	sat	1.906	sat	.058	sat	.259
19	`instance15076.smt2`	unknown	5.008	unsat	.078	unsat	.250
20	`instance11331.smt2`	sat	.049	sat	.023	sat	.370
21	`instance10161.smt2`	unsat	.283	unsat	.078	unsat	.306
22	`unsolved_pcp_instance_302.smt2`	unknown	.363	unknown	.186	bug	.199
23	`benchmark_0489.smt2`	unknown	1.467	unknown	.225	bug	.170
24	`instance00662.smt2`	unknown	5.013	sat	.052	sat	.243
25	`instance00542.smt2`	sat	.128	sat	.033	sat	.244
26	`not-contains-1-3-5-135.smt2`	unknown	5.008	bug	.073	sat	.179
27	`instance10684.smt2`	unsat	.099	unsat	.029	unsat	.263
28	`pcp_instance_73.smt2`	unknown	.375	unknown	.193	bug	.131
29	`slog_stranger_1608_sink.smt2`	unsat	.033	unsat	.023	unsat	.396
30	`instance00221.smt2`	sat	.168	sat	.038	sat	.504
31	`instance11133.smt2`	unsat	.592	unsat	.054	unsat	.379
32	`slog_stranger_2168_sink.smt2`	unsat	.127	unsat	.056	unsat	.596
33	`instance03672.smt2`	sat	.105	sat	.031	sat	.241
34	`instance09386.smt2`	sat	.035	sat	.023	sat	.329
35	`instance13969.smt2`	unsat	.512	unsat	.052	unsat	.372
36	`instance12248.smt2`	unsat	.162	unsat	.057	unsat	.313
37	`instance13926.smt2`	unsat	.035	unsat	.026	unsat	.307
38	`instance11924.smt2`	unsat	.055	unsat	.023	unsat	.496
39	`slog_stranger_2357_sink.smt2`	unsat	.025	unsat	.021	unsat	.218
40	`instance08134.smt2`	sat	1.299	sat	.037	sat	.365
41	`instance04094.smt2`	sat	.095	sat	.027	sat	.259
42	`instance01961.smt2`	sat	.128	sat	.037	sat	.252
43	`instance01066.smt2`	sat	.072	sat	.026	sat	.206
44	`instance14210.smt2`	unsat	.042	unsat	.022	unsat	.422
45	`instance12836.smt2`	sat	.049	sat	.026	sat	.375
46	`wildcard-matching-regex-126.smt2`	unknown	5.008	unknown	.233	bug	1.681
47	`instance05732.smt2`	bug	.006	bug	.006	unknown	.046
48	`benchmark_0360.smt2`	unknown	1.016	unknown	.200	bug	.169
49	`instance07158.smt2`	sat	.048	sat	.032	sat	.624
50	`not-contains-1-3-6-113.smt2`	unknown	5.009	bug	.211	sat	.181
51	`instance09003.smt2`	unsat	3.309	unsat	.525	unsat	1.195
52	`slog_stranger_153_sink.smt2`	unknown	5.009	sat	.109	bug	.160
53	`wildcard-matching-regex-62.smt2`	unknown	5.008	unknown	.417	bug	12.010
54	`query5169.smt2`	bug	.006	bug	.006	unknown	.045
55	`instance14033.smt2`	unsat	.619	unsat	.050	unsat	.371
56	`instance11383.smt2`	unsat	.172	unsat	.034	unsat	.317
57	`instance02278.smt2`	sat	.443	sat	.032	sat	.208
58	`unsolved_pcp_instance_277.smt2`	unknown	.372	unknown	.191	bug	.194
59	`instance09433.smt2`	unsat	.055	unsat	.035	unsat	.577
60	`instance15986.smt2`	unknown	5.010	sat	.146	sat	.276
61	`instance15201.smt2`	sat	.048	sat	.023	sat	.394
62	`slog_stranger_1438_sink.smt2`	unsat	.037	unsat	.022	unsat	.335
63	`dining-cryptographers_sat_non_incre_equiv_init_0_14.smt2`	unknown	5.008	unsat	.483	unsat	.342
64	`instance12661.smt2`	unsat	.065	unsat	.024	unsat	.527
65	`instance09816.smt2`	sat	.092	sat	.030	sat	.211
66	`instance11823.smt2`	unsat	.137	unsat	.035	unsat	.342
67	`slog_stranger_2485_sink.smt2`	unsat	.027	unsat	.022	unsat	.235
68	`instance12542.smt2`	sat	1.951	sat	.069	sat	.348
69	`instance01596.smt2`	sat	.092	sat	.030	sat	.238
70	`not-contains-1-4-6-118.smt2`	unknown	5.007	bug	.089	sat	.177
71	`eqdist_lstar_non_incre_equiv_init_0_24.smt2`	unsat	.097	unsat	.039	unsat	.266
72	`instance01004.smt2`	sat	.817	sat	.039	sat	.221
73	`instance12554.smt2`	sat	.196	sat	.041	sat	.299
74	`instance01671.smt2`	sat	.139	sat	.031	sat	.279
75	`noodles-unsat-4.smt2`	unsat	.074	unsat	.030	sat	.255	⚠️ SOUNDNESS
76	`slog_stranger_3439_sink.smt2`	sat	.470	sat	.035	sat	.242
77	`instance08307.smt2`	sat	.084	sat	.029	sat	.211
78	`slog_stranger_5228_sink.smt2`	unknown	5.011	unknown	5.010	sat	2.537
79	`03_track_148.smt2`	sat	3.727	sat	.054	sat	.247
80	`instance08977.smt2`	unsat	.132	unsat	.031	unsat	.336
81	`instance15072.smt2`	unknown	5.009	sat	.048	sat	.299
82	`instance13680.smt2`	sat	1.593	sat	.035	sat	.384
83	`instance14785.smt2`	unsat	.042	unsat	.023	unsat	.427
84	`slog_stranger_2884_sink.smt2`	sat	4.918	sat	.060	bug	.162
85	`instance10179.smt2`	sat	2.376	sat	.132	sat	.380
86	`slog_stranger_2072_sink.smt2`	unsat	.044	unsat	.024	unsat	.419
87	`instance08349.smt2`	unsat	.034	unsat	.023	unsat	.330
88	`instance14471.smt2`	sat	1.355	sat	.044	sat	.382
89	`04_track_79.smt2`	unknown	5.007	unsat	.129	unsat	1.421
90	`instance01898.smt2`	sat	.960	sat	.038	sat	.224
91	`instance14530.smt2`	unknown	5.009	sat	.063	sat	.270
92	`slog_stranger_820_sink.smt2`	unsat	.077	unsat	.037	unsat	.232
93	`instance05242.smt2`	sat	.063	sat	.027	sat	.199
94	`instance03690.smt2`	unknown	5.011	sat	.055	sat	.259
95	`instance03022.smt2`	unknown	5.009	sat	.039	sat	.221
96	`slog_stranger_5226_sink.smt2`	unknown	5.012	unknown	5.014	sat	1.648
97	`slog_stranger_831_sink.smt2`	unsat	.024	unsat	.022	unsat	.214
98	`instance10034.smt2`	sat	.170	sat	.037	sat	.246
99	`instance10399.smt2`	sat	.578	sat	.042	sat	.229
100	`not-contains-1-5-5-100.smt2`	unknown	5.008	bug	2.493	sat	.179
101	`slog_stranger_2404_sink.smt2`	unsat	.032	unsat	.022	unsat	.300
102	`instance12665.smt2`	unsat	.035	unsat	.027	unsat	.346
103	`benchmark_0363.smt2`	unknown	1.006	unknown	.193	bug	.172
104	`not-contains-1-5-5-102.smt2`	unknown	5.009	bug	.316	sat	.182
105	`instance08616.smt2`	unknown	5.010	sat	.075	sat	.305
106	`instance13320.smt2`	unsat	.141	unsat	.033	unsat	.304
107	`instance05020.smt2`	sat	.232	sat	.032	sat	.213
108	`pcp_instance_266.smt2`	unknown	.369	unknown	.205	bug	.194
109	`instance13510.smt2`	sat	1.306	sat	.055	sat	.319
110	`instance03791.smt2`	sat	.038	sat	.022	sat	.397
111	`instance03458.smt2`	sat	.089	sat	.028	sat	.224
112	`instance15001.smt2`	unsat	.127	unsat	.032	unsat	.262
113	`instance01534.smt2`	sat	.307	sat	.031	sat	.189
114	`instance10051.smt2`	unknown	5.009	sat	.115	sat	.394
115	`instance01563.smt2`	sat	.052	sat	.026	sat	.191
116	`instance07334.smt2`	unsat	.215	unsat	.046	unsat	.335
117	`benchmark_0434.smt2`	unknown	1.005	unknown	.203	bug	.115
118	`instance15452.smt2`	unsat	.046	unsat	.035	unsat	.550
119	`instance09342.smt2`	unknown	5.013	sat	.063	sat	.309
120	`instance11249.smt2`	unsat	.310	unsat	.045	unsat	.402
121	`instance11569.smt2`	unsat	.442	unsat	.058	unsat	.358
122	`eqdist_lstar_non_incre_equiv_bad_0_10.smt2`	unknown	5.008	unsat	.047	unsat	.300
123	`instance11455.smt2`	unsat	.185	unsat	.040	unsat	.373
124	`instance09428.smt2`	unsat	.035	unsat	.022	unsat	.335
125	`instance02049.smt2`	sat	.163	sat	.041	sat	.272
126	`instance04630.smt2`	sat	.074	sat	.029	sat	.196
127	`instance02931.smt2`	sat	.062	sat	.027	sat	.205
128	`diseq-1-5-5-110.smt2`	unknown	5.008	bug	.097	unknown	12.016
129	`instance09616.smt2`	sat	.099	sat	.029	sat	.245
130	`instance05072.smt2`	sat	.072	sat	.026	sat	.205
131	`instance15307.smt2`	unsat	.053	unsat	.024	unsat	.400
132	`instance08106.smt2`	unsat	.319	unsat	.082	unsat	.327
133	`eqdist_lstar_non_incre_equiv_trans_1_20.smt2`	unknown	5.007	unknown	5.009	sat	.601
134	`slog_stranger_1740_sink.smt2`	unsat	.034	unsat	.022	unsat	.299
135	`instance01492.smt2`	sat	.033	sat	.022	sat	.304
136	`pcp_instance_32.smt2`	unknown	.360	unknown	.192	bug	.201
137	`instance05304.smt2`	sat	3.478	sat	.028	sat	.435
138	`instance06654.smt2`	unsat	1.954	unsat	.031	unsat	.295
139	`instance08818.smt2`	sat	.306	sat	.054	sat	.351
140	`benchmark_0476.smt2`	unknown	1.020	unknown	.197	bug	.114
141	`pcp_instance_286.smt2`	unknown	.405	unknown	.247	bug	.201
142	`instance01624.smt2`	sat	.088	sat	.054	sat	.285
143	`instance07646.smt2`	sat	.100	sat	.071	sat	.833
144	`query4673.smt2`	sat	1.567	sat	.041	sat	.237
145	`instance11699.smt2`	unsat	.256	unsat	.098	unsat	.319
146	`instance00292.smt2`	sat	.061	sat	.027	sat	.200
147	`benchmark_0366.smt2`	unknown	1.021	unknown	.205	bug	.165
148	`instance14183.smt2`	sat	.306	sat	.047	sat	.481
149	`instance11727.smt2`	unsat	.042	unsat	.025	unsat	.467
150	`slog_stranger_2676_sink.smt2`	unsat	.032	unsat	.028	unsat	.360
151	`instance11599.smt2`	sat	3.984	sat	.155	sat	.270
152	`instance10521.smt2`	sat	.203	sat	.036	sat	.318
153	`instance08176.smt2`	unsat	.176	unsat	.043	unsat	.316
154	`instance11994.smt2`	unsat	.249	unsat	.043	unsat	.298
155	`instance03116.smt2`	sat	.773	sat	.027	sat	.285
156	`slog_stranger_4644_sink.smt2`	unknown	5.009	sat	.123	sat	.380
157	`instance06711.smt2`	unknown	5.008	unknown	5.008	sat	.357
158	`instance14115.smt2`	unsat	.053	unsat	.023	unsat	.342
159	`instance02031.smt2`	sat	.365	sat	.078	sat	.340
160	`instance06177.smt2`	sat	.032	sat	.022	sat	.283
161	`instance01015.smt2`	sat	.035	sat	.027	sat	.192
162	`instance14522.smt2`	sat	.085	sat	.028	sat	.213
163	`instance05381.smt2`	sat	.084	sat	.027	sat	.218
164	`instance00050.smt2`	sat	.070	sat	.030	sat	.224
165	`instance10171.smt2`	unsat	.077	unsat	.032	unsat	.228
166	`instance00946.smt2`	sat	.070	sat	.027	sat	.198
167	`instance15618.smt2`	unsat	.397	unsat	.059	unsat	.376
168	`instance09055.smt2`	sat	1.602	sat	.106	sat	.289
169	`unsolved_pcp_instance_485.smt2`	unknown	.350	unknown	.190	bug	.194
170	`slog_stranger_386_sink.smt2`	unsat	.108	unsat	.032	unsat	1.286
171	`instance04900.smt2`	sat	.144	sat	.040	sat	.284
172	`benchmark_0049.smt2`	unknown	1.035	unknown	.198	bug	.116
173	`instance06186.smt2`	unsat	.034	unsat	.024	unsat	.344
174	`instance00850.smt2`	unknown	5.009	sat	.070	sat	.274
175	`instance09867.smt2`	unsat	.281	unsat	.151	unsat	.372
176	`instance07588.smt2`	unsat	.036	unsat	.024	unsat	.323
177	`instance07073.smt2`	sat	.048	sat	.022	sat	.419
178	`pcp_instance_195.smt2`	unknown	.362	unknown	.193	bug	.130
179	`instance10056.smt2`	unsat	.229	unsat	.036	unsat	.215
180	`instance00134.smt2`	sat	.283	sat	.066	sat	.480
181	`benchmark_0405.smt2`	unknown	1.276	unknown	.192	bug	.169
182	`instance06948.smt2`	unsat	.196	unsat	.035	unsat	.343
183	`slog_stranger_3207_sink.smt2`	unknown	5.010	sat	2.656	sat	.586
184	`01_track_117.smt2`	sat	.584	sat	.042	sat	.382
185	`benchmark_0476.smt2`	unknown	1.012	unknown	.202	bug	.169
186	`instance03351.smt2`	unknown	5.013	sat	.047	sat	.242
187	`benchmark_0222.smt2`	unknown	1.028	unknown	.211	bug	.171
188	`slog_stranger_3689_sink.smt2`	unknown	5.012	unknown	5.008	sat	.744
189	`instance11762.smt2`	unsat	.160	unsat	.033	unsat	.284
190	`instance15177.smt2`	sat	.959	sat	.038	sat	.352
191	`instance12825.smt2`	unsat	.056	unsat	.027	unsat	.474
192	`query4443.smt2`	sat	3.922	unknown	.048	sat	.281
193	`instance08172.smt2`	bug	.007	bug	.007	unknown	.046
194	`instance06269.smt2`	unknown	5.011	sat	.062	sat	.232
195	`pcp_instance_93.smt2`	unknown	.387	unknown	.191	bug	.134
196	`instance03784.smt2`	sat	.135	sat	.034	sat	.247
197	`coffee-can_lstar_non_incre_equiv_bad_0_2.smt2`	sat	.636	sat	.336	sat	.628
198	`instance02121.smt2`	sat	3.549	sat	.091	sat	.259
199	`instance07235.smt2`	unsat	.034	unsat	.023	unsat	.419
200	`instance01976.smt2`	sat	.026	sat	.021	sat	.220

Generated automatically by the ZIPT Benchmark workflow on the c3 branch.

AI generated by ZIPT String Solver Benchmark · history

expires on Apr 5, 2026, 1:29 AM UTC

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[ZIPT Benchmark] Z3 c3 branch — 2026-03-29 #9160

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

[ZIPT Benchmark] Z3 c3 branch — 2026-03-29 #9160

Uh oh!

github-actions[bot] bot Mar 29, 2026

Summary

Notable Issues

🚨 Soundness Disagreement (Critical)

⚠️ nseq Assertion Violations

⚠️ ZIPT Unsupported Features / Crashes (26 files)

🐢 Slow Benchmarks (> 8 s for any solver)

Trace Analysis: seq-fast / nseq-slow Hypotheses

Why is seq slower than nseq?

Per-File Results

Replies: 0 comments

github-actions[bot]
bot Mar 29, 2026