Profile nested mtasks

b-chmiel · b-chmiel · commit fe7180295c1e · 2025-04-24T09:50:57.000+02:00
Signed-off-by: Bartłomiej Chmiel &lt;bchmiel@antmicro.com&gt;
diff --git a/bin/verilator_gantt b/bin/verilator_gantt
@@ -37,8 +37,9 @@ def read_data(filename):
     with open(filename, "r", encoding="utf8") as fh:
         re_thread = re.compile(r'^VLPROFTHREAD (\d+)$')
         re_record = re.compile(r'^VLPROFEXEC (\S+) (\d+)(.*)$')
-        re_payload_mtaskBegin = re.compile(r'id (\d+) predictStart (\d+) cpu (\d+)')
-        re_payload_mtaskEnd = re.compile(r'id (\d+) predictCost (\d+)')
+        re_payload_mtaskBegin = re.compile(
+            r'id (\d+) predictStart (\d+) cpu (\d+) module\s*(\w+)?')
+        re_payload_mtaskEnd = re.compile(r'predictCost (\d+)')
         re_payload_wait = re.compile(r'cpu (\d+)')
 
         re_arg1 = re.compile(r'VLPROF arg\s+(\S+)\+([0-9.]*)\s*')
@@ -56,8 +57,8 @@ def read_data(filename):
 
         ExecGraphStack = []
         SectionStack = []
+        MtasksStack = []
         ThreadScheduleWait = collections.defaultdict(list)
-        mTaskThread = {}
 
         for line in fh:
             recordMatch = re_record.match(line)
@@ -74,33 +75,35 @@ def read_data(filename):
                     SectionStack.pop()
                     Sections[thread].append((tick, tuple(SectionStack)))
                 elif kind == "MTASK_BEGIN":
-                    mtask, predict_start, ecpu = re_payload_mtaskBegin.match(payload).groups()
+                    mtask, predict_start, ecpu, module = re_payload_mtaskBegin.match(
+                        payload).groups()
                     mtask = int(mtask)
                     predict_start = int(predict_start)
                     ecpu = int(ecpu)
-                    mTaskThread[mtask] = thread
                     records = Threads[thread]
-                    assert not records or records[-1]['start'] <= records[-1]['end'] <= tick
                     records.append({
                         'start': tick,
                         'mtask': mtask,
                         'predict_start': predict_start,
+                        'module': module,
                         'cpu': ecpu
                     })
-                    Mtasks[mtask]['begin'] = tick
-                    Mtasks[mtask]['thread'] = thread
-                    Mtasks[mtask]['predict_start'] = predict_start
+                    Mtasks[(module, mtask)]['begin'] = tick
+                    Mtasks[(module, mtask)]['predict_start'] = predict_start
+                    Mtasks[(module, mtask)]['thread'] = thread
+                    MtasksStack.append((module, mtask, records[-1]))
                 elif kind == "MTASK_END":
-                    mtask, predict_cost = re_payload_mtaskEnd.match(payload).groups()
+                    predict_cost, = re_payload_mtaskEnd.match(payload).groups()
                     mtask = int(mtask)
+                    module, mtask, record = MtasksStack.pop()
                     predict_cost = int(predict_cost)
-                    begin = Mtasks[mtask]['begin']
-                    record = Threads[mTaskThread[mtask]][-1]
+                    begin = Mtasks[(module, mtask)]['begin']
                     record['end'] = tick
+                    assert record and records[-1]['start'] <= records[-1]['end'] <= tick
                     record['predict_cost'] = predict_cost
-                    Mtasks[mtask]['elapsed'] += tick - begin
-                    Mtasks[mtask]['predict_cost'] = predict_cost
-                    Mtasks[mtask]['end'] = max(Mtasks[mtask]['end'], tick)
+                    Mtasks[(module, mtask)]['elapsed'] += tick - begin
+                    Mtasks[(module, mtask)]['predict_cost'] = predict_cost
+                    Mtasks[(module, mtask)]['end'] = max(Mtasks[(module, mtask)]['end'], tick)
                 elif kind == "THREAD_SCHEDULE_WAIT_BEGIN":
                     ecpu = int(re_payload_wait.match(payload).groups()[0])
                     ThreadScheduleWait[ecpu].append(tick)
@@ -234,8 +237,8 @@ def report_mtasks():
     long_mtask = None
     predict_mtask_time = 0
     predict_elapsed = 0
-    for mtaskId in Mtasks:
-        record = Mtasks[mtaskId]
+    for (module, mtaskId) in Mtasks:
+        record = Mtasks[(module, mtaskId)]
         predict_mtask_time += record['predict_cost']
         total_mtask_time += record['elapsed']
         thread_mtask_time[record['thread']] += record['elapsed']
@@ -244,6 +247,7 @@ def report_mtasks():
         if record['elapsed'] > long_mtask_time:
             long_mtask_time = record['elapsed']
             long_mtask = mtaskId
+            long_mtask_module = module
     Global['predict_last_end'] = predict_elapsed
 
     serialTime = ElapsedTime - ExecGraphTime
@@ -272,31 +276,51 @@ def report_mtasks():
     max_p2e = -1000000
     max_mtask = None
 
-    for mtask in sorted(Mtasks.keys()):
-        if Mtasks[mtask]['elapsed'] > 0:
-            if Mtasks[mtask]['predict_cost'] == 0:
-                Mtasks[mtask]['predict_cost'] = 1  # don't log(0) below
-            p2e_ratio = math.log(Mtasks[mtask]['predict_cost'] / Mtasks[mtask]['elapsed'])
+    for (module, mtaskId) in sorted(Mtasks.keys()):
+        mtask = Mtasks[(module, mtaskId)]
+        if mtask['elapsed'] > 0:
+            if mtask['predict_cost'] == 0:
+                mtask['predict_cost'] = 1  # don't log(0) below
+            p2e_ratio = math.log(mtask['predict_cost'] / mtask['elapsed'])
             p2e_ratios.append(p2e_ratio)
 
             if p2e_ratio > max_p2e:
                 max_p2e = p2e_ratio
-                max_mtask = mtask
+                max_mtask = mtaskId
+                max_module = module
             if p2e_ratio < min_p2e:
                 min_p2e = p2e_ratio
-                min_mtask = mtask
+                min_mtask = mtaskId
+                min_module = module
 
     print("\nMTask statistics:")
-    print("  Longest mtask id = {}".format(long_mtask))
+    if long_mtask_module:
+        print("  Longest mtask id = {} from module '{}'".format(long_mtask, long_mtask_module))
+    else:
+        print("  Longest mtask id = {}".format(long_mtask))
     print("  Longest mtask time = {:.2%} of time elapsed in parallelized code".format(
         long_mtask_time / ExecGraphTime))
     print("  min log(p2e) = %0.3f" % min_p2e, end="")
 
-    print("  from mtask %d (predict %d," % (min_mtask, Mtasks[min_mtask]['predict_cost']), end="")
-    print(" elapsed %d)" % Mtasks[min_mtask]['elapsed'])
+    if min_module:
+        print("  from module '%s' mtask %d (predict %d," %
+              (min_module, min_mtask, Mtasks[(min_module, min_mtask)]['predict_cost']),
+              end="")
+    else:
+        print("  from mtask %d (predict %d," %
+              (min_mtask, Mtasks[(min_module, min_mtask)]['predict_cost']),
+              end="")
+    print(" elapsed %d)" % Mtasks[(min_module, min_mtask)]['elapsed'])
     print("  max log(p2e) = %0.3f" % max_p2e, end="")
-    print("  from mtask %d (predict %d," % (max_mtask, Mtasks[max_mtask]['predict_cost']), end="")
-    print(" elapsed %d)" % Mtasks[max_mtask]['elapsed'])
+    if max_module:
+        print("  from module '%s' mtask %d (predict %d," %
+              (max_module, max_mtask, Mtasks[(max_module, max_mtask)]['predict_cost']),
+              end="")
+    else:
+        print("  from mtask %d (predict %d," %
+              (max_mtask, Mtasks[(max_module, max_mtask)]['predict_cost']),
+              end="")
+    print(" elapsed %d)" % Mtasks[(max_module, max_mtask)]['elapsed'])
 
     stddev = statistics.pstdev(p2e_ratios)
     mean = statistics.mean(p2e_ratios)
@@ -482,17 +506,17 @@ def write_vcd(filename):
             # Compute scale so predicted graph is of same width as interval
             measured_scaling = (end - start) / Global['predict_last_end']
             # Predict mtasks that fill the time the execution occupied
-            for mtask in Mtasks:
-                thread = Mtasks[mtask]['thread']
-                pred_scaled_start = start + int(Mtasks[mtask]['predict_start'] * measured_scaling)
+            for (module, mtaskId) in Mtasks:
+                mtask = Mtasks[(module, mtaskId)]
+                thread = mtask['thread']
+                pred_scaled_start = start + int(mtask['predict_start'] * measured_scaling)
                 pred_scaled_end = start + int(
-                    (Mtasks[mtask]['predict_start'] + Mtasks[mtask]['predict_cost']) *
-                    measured_scaling)
+                    (mtask['predict_start'] + mtask['predict_cost']) * measured_scaling)
                 if pred_scaled_start == pred_scaled_end:
                     continue
 
                 mcode = getCode(32, 'predicted', 't%d_mtask' % thread)
-                addValue(mcode, pred_scaled_start, mtask)
+                addValue(mcode, pred_scaled_start, mtaskId)
                 addValue(mcode, pred_scaled_end, None)
 
                 parallelism['predicted'][pred_scaled_start] += 1
diff --git a/include/verilated_profiler.cpp b/include/verilated_profiler.cpp
@@ -190,13 +190,13 @@ void VlExecutionProfiler::dump(const char* filenamep, uint64_t tickEnd)
                 break;
             case VlExecutionRecord::Type::MTASK_BEGIN: {
                 const auto& payload = er.m_payload.mtaskBegin;
-                fprintf(fp, " id %u predictStart %u cpu %u\n", payload.m_id,
-                        payload.m_predictStart, payload.m_cpu);
+                fprintf(fp, " id %u predictStart %u cpu %u module %s\n", payload.m_id,
+                        payload.m_predictStart, payload.m_cpu, payload.m_module);
                 break;
             }
             case VlExecutionRecord::Type::MTASK_END: {
                 const auto& payload = er.m_payload.mtaskEnd;
-                fprintf(fp, " id %u predictCost %u\n", payload.m_id, payload.m_predictCost);
+                fprintf(fp, " predictCost %u\n", payload.m_predictCost);
                 break;
             }
             case VlExecutionRecord::Type::THREAD_SCHEDULE_WAIT_BEGIN:
diff --git a/include/verilated_profiler.h b/include/verilated_profiler.h
@@ -92,9 +92,9 @@ class VlExecutionRecord final {
             uint32_t m_id;  // MTask id
             uint32_t m_predictStart;  // Time scheduler predicted would start
             uint32_t m_cpu;  // Executing CPU id
+            const char* m_module;  // Name of module with this mtask
         } mtaskBegin;
         struct {
-            uint32_t m_id;  // MTask id
             uint32_t m_predictCost;  // How long scheduler predicted would take
         } mtaskEnd;
         struct {
@@ -120,14 +120,14 @@ class VlExecutionRecord final {
         m_type = Type::SECTION_PUSH;
     }
     void sectionPop() { m_type = Type::SECTION_POP; }
-    void mtaskBegin(uint32_t id, uint32_t predictStart) {
+    void mtaskBegin(uint32_t id, uint32_t predictStart, const char* moduleName) {
         m_payload.mtaskBegin.m_id = id;
         m_payload.mtaskBegin.m_predictStart = predictStart;
         m_payload.mtaskBegin.m_cpu = VlOs::getcpu();
+        m_payload.mtaskBegin.m_module = moduleName;
         m_type = Type::MTASK_BEGIN;
     }
-    void mtaskEnd(uint32_t id, uint32_t predictCost) {
-        m_payload.mtaskEnd.m_id = id;
+    void mtaskEnd(uint32_t predictCost) {
         m_payload.mtaskEnd.m_predictCost = predictCost;
         m_type = Type::MTASK_END;
     }
diff --git a/src/V3ExecGraph.cpp b/src/V3ExecGraph.cpp
@@ -916,18 +916,15 @@ void wrapMTaskBodies(AstExecGraph* const execGraphp) {
             funcp->addStmtsp(new AstCStmt{flp, stmt});
         };
 
-        if (v3Global.opt.hierChild() || !v3Global.opt.hierBlocks().empty()) {
-            addStrStmt(
-                "static const unsigned taskId = vlSymsp->__Vm_threadPoolp->assignTaskIndex();\n");
-        } else {
-            const string& id = std::to_string(mtaskp->id());
-            addStrStmt("static constexpr unsigned taskId = " + id + ";\n");
-        }
+        addStrStmt("static constexpr unsigned taskId = " + cvtToStr(mtaskp->id()) + ";\n");
 
-        if (v3Global.opt.profExec() && mtaskp->threads() <= 1) {
+        if (v3Global.opt.profExec()) {
             const string& predictStart = std::to_string(mtaskp->predictStart());
+            // We use top module flag as it is always set for all hierarchical phases, when it is
+            // not set we assume that it is a non-hierarchical run and we don't need module name
+            // anyway.
             addStrStmt("VL_EXEC_TRACE_ADD_RECORD(vlSymsp).mtaskBegin(taskId, " + predictStart
-                       + ");\n");
+                       + ", \"" + v3Global.opt.topModule() + "\");\n");
         }
 
         // Set mtask ID in the run-time system
@@ -939,10 +936,9 @@ void wrapMTaskBodies(AstExecGraph* const execGraphp) {
         // Flush message queue
         addStrStmt("Verilated::endOfThreadMTask(vlSymsp->__Vm_evalMsgQp);\n");
 
-        if (v3Global.opt.profExec() && mtaskp->threads() <= 1) {
-            const string& predictConst = std::to_string(mtaskp->cost());
-            addStrStmt("VL_EXEC_TRACE_ADD_RECORD(vlSymsp).mtaskEnd(taskId, " + predictConst
-                       + ");\n");
+        if (v3Global.opt.profExec()) {
+            const string& predictCost = std::to_string(mtaskp->cost());
+            addStrStmt("VL_EXEC_TRACE_ADD_RECORD(vlSymsp).mtaskEnd(" + predictCost + ");\n");
         }
 
         // AstMTask will simply contain a call
diff --git a/test_regress/t/t_gantt_io.dat b/test_regress/t/t_gantt_io.dat
@@ -902,40 +902,42 @@ VLPROFPROC power management: ts ttp tm hwpstate cpb eff_freq_ro [13] [14]
 VLPROFPROC 
 VLPROFTHREAD 0
 VLPROFEXEC EXEC_GRAPH_BEGIN 945
-VLPROFEXEC MTASK_BEGIN 2695 id 6 predictStart 0 cpu 19
-VLPROFEXEC MTASK_END 2905 id 6 predictCost 30
-VLPROFEXEC MTASK_BEGIN 9695 id 10 predictStart 196 cpu 19
-VLPROFEXEC MTASK_END 9870 id 10 predictCost 30
+VLPROFEXEC MTASK_BEGIN 2695 id 6 predictStart 0 cpu 19 module top
+VLPROFEXEC MTASK_BEGIN 3795 id 10 predictStart 196 cpu 19 module sub
+VLPROFEXEC MTASK_END 4850 predictCost 30
+VLPROFEXEC MTASK_END 5905 predictCost 30
+VLPROFEXEC MTASK_BEGIN 9695 id 10 predictStart 196 cpu 19 module top
+VLPROFEXEC MTASK_END 9870 predictCost 30
 VLPROFEXEC EXEC_GRAPH_END 12180
 VLPROFEXEC EXEC_GRAPH_BEGIN 14000
-VLPROFEXEC MTASK_BEGIN 15610 id 6 predictStart 0 cpu 19
-VLPROFEXEC MTASK_END 15820 id 6 predictCost 30
+VLPROFEXEC MTASK_BEGIN 15610 id 6 predictStart 0 cpu 19 module top
+VLPROFEXEC MTASK_END 15820 predictCost 30
 VLPROFEXEC THREAD_SCHEDULE_WAIT_BEGIN 20000 cpu 19
 VLPROFEXEC THREAD_SCHEDULE_WAIT_END 21000 cpu 19
-VLPROFEXEC MTASK_BEGIN 21700 id 10 predictStart 196 cpu 19
-VLPROFEXEC MTASK_END 21875 id 10 predictCost 30
+VLPROFEXEC MTASK_BEGIN 21700 id 10 predictStart 196 cpu 19 module top
+VLPROFEXEC MTASK_END 21875 predictCost 30
 VLPROFEXEC EXEC_GRAPH_END 22085
 VLPROFTHREAD 1
-VLPROFEXEC MTASK_BEGIN 5495 id 5 predictStart 0 cpu 10
-VLPROFEXEC MTASK_END 6090 id 5 predictCost 30
-VLPROFEXEC MTASK_BEGIN 6300 id 7 predictStart 30 cpu 10
-VLPROFEXEC MTASK_END 6895 id 7 predictCost 30
-VLPROFEXEC MTASK_BEGIN 7490 id 8 predictStart 60 cpu 10
-VLPROFEXEC MTASK_END 8540 id 8 predictCost 107
-VLPROFEXEC MTASK_BEGIN 9135 id 9 predictStart 167 cpu 10
-VLPROFEXEC MTASK_END 9730 id 9 predictCost 30
-VLPROFEXEC MTASK_BEGIN 10255 id 11 predictStart 197 cpu 10
-VLPROFEXEC MTASK_END 11060 id 11 predictCost 30
-VLPROFEXEC MTASK_BEGIN 18375 id 5 predictStart 0 cpu 10
-VLPROFEXEC MTASK_END 18970 id 5 predictCost 30
-VLPROFEXEC MTASK_BEGIN 19145 id 7 predictStart 30 cpu 10
-VLPROFEXEC MTASK_END 19320 id 7 predictCost 30
-VLPROFEXEC MTASK_BEGIN 19670 id 8 predictStart 60 cpu 10
-VLPROFEXEC MTASK_END 19810 id 8 predictCost 107
-VLPROFEXEC MTASK_BEGIN 20650 id 9 predictStart 167 cpu 10
-VLPROFEXEC MTASK_END 20720 id 9 predictCost 30
-VLPROFEXEC MTASK_BEGIN 21140 id 11 predictStart 197 cpu 10
-VLPROFEXEC MTASK_END 21245 id 11 predictCost 30
+VLPROFEXEC MTASK_BEGIN 5495 id 5 predictStart 0 cpu 10 module top
+VLPROFEXEC MTASK_END 6090 predictCost 30
+VLPROFEXEC MTASK_BEGIN 6300 id 7 predictStart 30 cpu 10 module top
+VLPROFEXEC MTASK_END 6895 predictCost 30
+VLPROFEXEC MTASK_BEGIN 7490 id 8 predictStart 60 cpu 10 module top
+VLPROFEXEC MTASK_END 8540 predictCost 107
+VLPROFEXEC MTASK_BEGIN 9135 id 9 predictStart 167 cpu 10 module top
+VLPROFEXEC MTASK_END 9730 predictCost 30
+VLPROFEXEC MTASK_BEGIN 10255 id 11 predictStart 197 cpu 10 module top
+VLPROFEXEC MTASK_END 11060 predictCost 30
+VLPROFEXEC MTASK_BEGIN 18375 id 5 predictStart 0 cpu 10 module top
+VLPROFEXEC MTASK_END 18970 predictCost 30
+VLPROFEXEC MTASK_BEGIN 19145 id 7 predictStart 30 cpu 10 module top
+VLPROFEXEC MTASK_END 19320 predictCost 30
+VLPROFEXEC MTASK_BEGIN 19670 id 8 predictStart 60 cpu 10 module top
+VLPROFEXEC MTASK_END 19810 predictCost 107
+VLPROFEXEC MTASK_BEGIN 20650 id 9 predictStart 167 cpu 10 module top
+VLPROFEXEC MTASK_END 20720 predictCost 30
+VLPROFEXEC MTASK_BEGIN 21140 id 11 predictStart 197 cpu 10 module top
+VLPROFEXEC MTASK_END 21245 predictCost 30
 VLPROFEXEC THREAD_SCHEDULE_WAIT_BEGIN 22000 cpu 10
 VLPROFEXEC THREAD_SCHEDULE_WAIT_END 23000 cpu 10
 VLPROF stat ticks 23415
diff --git a/test_regress/t/t_gantt_io.out b/test_regress/t/t_gantt_io.out
@@ -10,42 +10,42 @@ Summary:
   Waiting time       = 8.54% of elapsed time
   Total threads      = 2
   Total CPUs used    = 2
-  Total mtasks       = 7
+  Total mtasks       = 8
   Total yields       = 0
 
 NUMA assignment:
   NUMA status        = 0,1,4,5;2,3,6,7
 
 Parallelized code, measured:
-  Thread utilization =  14.22%
-  Speedup            =  0.284x
+  Thread utilization =  24.72%
+  Speedup            =  0.494x
 
 Parallelized code, predicted during static scheduling:
-  Thread utilization =  63.22%
-  Speedup            =   1.26x
+  Thread utilization =  69.82%
+  Speedup            =    1.4x
 
 All code, measured:
-  Thread utilization =  20.48%
-  Speedup            =   0.41x
+  Thread utilization =  29.14%
+  Speedup            =  0.583x
 
 All code, measured, scaled by predicted speedup:
-  Thread utilization =  56.80%
-  Speedup            =   1.14x
+  Thread utilization =  62.40%
+  Speedup            =   1.25x
 
 MTask statistics:
-  Longest mtask id = 5
-  Longest mtask time = 6.16% of time elapsed in parallelized code
-  min log(p2e) = -3.681  from mtask 5 (predict 30, elapsed 1190)
-  max log(p2e) = -2.409  from mtask 8 (predict 107, elapsed 1190)
-  mean = -2.992
-  stddev = 0.459
-  e ^ stddev = 1.583
+  Longest mtask id = 6 from module 'top'
+  Longest mtask time = 17.70% of time elapsed in parallelized code
+  min log(p2e) = -4.736  from module 'top' mtask 6 (predict 30, elapsed 3420)
+  max log(p2e) = -2.409  from module 'top' mtask 8 (predict 107, elapsed 1190)
+  mean = -3.325
+  stddev = 0.692
+  e ^ stddev = 1.998
 
 CPU info:
    Id | Time spent executing MTask | Socket | Core | Model
       | % of elapsed ticks / ticks |        |      |
   ====|============================|========|======|======
    10 |  20.18% /             4725 |      0 |   10 | Test Ryzen 9 3950X 16-Core Processor
-   19 |   3.29% /              770 |      0 |    3 | Test Ryzen 9 3950X 16-Core Processor
+   19 |  20.61% /             4825 |      0 |    3 | Test Ryzen 9 3950X 16-Core Processor
 
 Writing profile_exec.vcd
diff --git a/test_regress/t/t_gantt_io.vcd.out b/test_regress/t/t_gantt_io.vcd.out
diff --git a/test_regress/t/t_gantt_io_arm.dat b/test_regress/t/t_gantt_io_arm.dat
diff --git a/test_regress/t/t_gantt_io_noproc.dat b/test_regress/t/t_gantt_io_noproc.dat