OSDN Git Service

[llvm-exegesis] Introduce a 'naive' clustering algorithm (PR40880)
authorRoman Lebedev <lebedev.ri@gmail.com>
Thu, 28 Mar 2019 08:55:01 +0000 (08:55 +0000)
committerRoman Lebedev <lebedev.ri@gmail.com>
Thu, 28 Mar 2019 08:55:01 +0000 (08:55 +0000)
commit98ccb482640a7340dcb299f029f92a17a796fc50
tree94e76d3dffd4a81a718dbcf9c715609c1edbf6d3
parentb6bb254aa4bc8602032aa193b1417dbd864c9eb5
[llvm-exegesis] Introduce a 'naive' clustering algorithm (PR40880)

Summary:
This is an alternative to D59539.

Let's suppose we have measured 4 different opcodes, and got: `0.5`, `1.0`, `1.5`, `2.0`.
Let's suppose we are using `-analysis-clustering-epsilon=0.5`.
By default now we will start processing the `0.5` point, find that `1.0` is it's neighbor, add them to a new cluster.
Then we will notice that `1.5` is a neighbor of `1.0` and add it to that same cluster.
Then we will notice that `2.0` is a neighbor of `1.5` and add it to that same cluster.
So all these points ended up in the same cluster.
This may or may not be a correct implementation of dbscan clustering algorithm.

But this is rather horribly broken for the reasons of comparing the clusters with the LLVM sched data.
Let's suppose all those opcodes are currently in the same sched cluster.
If i specify `-analysis-inconsistency-epsilon=0.5`, then no matter
the LLVM values this cluster will **never** match the LLVM values,
and thus this cluster will **always** be displayed as inconsistent.

The solution is obviously to split off some of these opcodes into different sched cluster.
But how do i do that? Out of 4 opcodes displayed in the inconsistency report,
which ones are the "bad ones"? Which ones are the most different from the checked-in data?
I'd need to go in to the `.yaml` and look it up manually.

The trivial solution is to, when creating clusters, don't use the full dbscan algorithm,
but instead "pick some unclustered point, pick all unclustered points that are it's neighbor,
put them all into a new cluster, repeat". And just so as it happens, we can arrive
at that algorithm by not performing the "add neighbors of a neighbor to the cluster" step.

But that won't work well once we teach analyze mode to operate in on-1D mode
(i.e. on more than a single measurement type at a time), because the clustering would
depend on the order of the measurements.

Instead, let's just create a single cluster per opcode, and put all the points of that opcode into said cluster.
And simultaneously check that every point in that cluster is a neighbor of every other point in the cluster,
and if they are not, the cluster (==opcode) is unstable.

This is //yet another// step to bring me closer to being able to continue cleanup of bdver2 sched model..

Fixes [[ https://bugs.llvm.org/show_bug.cgi?id=40880 | PR40880 ]].

Reviewers: courbet, gchatelet

Reviewed By: courbet

Subscribers: tschuett, jdoerfert, RKSimon, llvm-commits

Tags: #llvm

Differential Revision: https://reviews.llvm.org/D59820

git-svn-id: https://llvm.org/svn/llvm-project/llvm/trunk@357152 91177308-0d34-0410-b5e6-96231b3b80d8
docs/CommandGuide/llvm-exegesis.rst
test/tools/llvm-exegesis/X86/analysis-clustering-algorithms.test [new file with mode: 0644]
test/tools/llvm-exegesis/X86/analysis-naive-cluster-stabilization.test [new file with mode: 0644]
test/tools/llvm-exegesis/X86/analysis-naive-clusterization.test [new file with mode: 0644]
test/tools/llvm-exegesis/X86/analysis-same-cluster-for-ops-in-different-sched-clusters.test [new file with mode: 0644]
tools/llvm-exegesis/lib/Analysis.cpp
tools/llvm-exegesis/lib/Analysis.h
tools/llvm-exegesis/lib/Clustering.cpp
tools/llvm-exegesis/lib/Clustering.h
tools/llvm-exegesis/llvm-exegesis.cpp
unittests/tools/llvm-exegesis/ClusteringTest.cpp