DigThatData t1_ivtx4y1 wrote on November 10, 2022 at 4:11 PM

the summary reporting you offer describes some of the net differences, but I'd be interested to see numbers describing the distribution of what your team considered to be incorrect labels in the original dataset.

iknowjerome OP t1_ivtytgc wrote on November 10, 2022 at 4:23 PM

That's a great suggestion. We will eventually post more detail about this. It will make more sense when divulged at the same time we report on the results of some data quality experiments we are currently running. Stay tuned! :)