从狼来了到 False Positive

最近在 Coursera 上面的课程又重新见到了 False Positive 等等的词语。因为总是很容易就弄错,所以觉得还是要找个容易记忆的方法才可以。

说起 False Positive 就会想起狼来了这个寓言故事。既然如此的话就通过这个寓言故事来理清楚一下吧。

The-Boy-Who-Cried-Wolf

 

伊索寓言当中狼来了的故事尽管早就妇孺皆知,然而为了方便这里还是再描述一次。

有位牧羊的男童在某天放牧的时候觉得好玩,在没有看到狼的情况下大声喊“狼来了”;村民听到之后纷纷准备各种家伙前往奔救,看到的却只是以此为乐的牧羊男童。村民们气愤不已,并且说下次有狼也不会出手相救了。没想到之后狼真的出现,男童依然大喊“狼来了”,但是村民们这次以为也是恶作剧就没有出手相救,最后男童的羊群被狼吃掉了。

这个故事教我们的当然不止不要说谎,里面还有 False Positive 和 True Positive:

  • 第一次喊狼来了的时候,事实上没有狼,而男童说有狼,所以这是虚假的“有”(False Positive).
  • 第二次喊狼来了的时候,事实上有狼,而男童说有狼,所以这是真实的“有”(True Positive).

当然还会有故事当中没有描述到的两种情况:

  • 事实上没有狼,而男童说没有狼,这是真实的“无”(True Negative).
  • 事实上有狼,而男童说没有狼,这是虚假的“无”(False Negative).

所以,以事实上是否有狼,与男童所说的是否有狼,就能得出这个 Confusion Matrix:

  声称说有 声称说无
事实上有 True Positive False Negative
事实上无 False Positive True Negative

事实与声称之间一致的话就是 True, 不一致的话就是 False. 声称说有就是 Positive, 而声称说无就是 Negative. 再稍微分别细说这四个类型的话:

  • True Positive, 说有狼还真的是有狼,这是大家都想知道的,为了避免羊群被吃掉;这个也叫做 hit, 命中
  • True Negative, 说没有狼还真的是没有狼,这是大家也想确认的,毕竟知道没有就是没有,不用白跑;这个也叫做 correct rejection, 正确否定
  • False Positive, 说有狼结果是没有狼,这样的话大家就要出动但是会白跑一趟,还是要避免的;这个也叫做 False Alarm 误报或者是 Type I Error.
  • False Negative, 说没有狼结果居然有狼,这样的话虽然大家省去不用出动但是羊群却被吃了损失更大,绝对要避免的;这个也叫做 Miss 漏报或者是 Type II Error

 

假设这个故事还有后续,村民们因为不相信男童的人品不再让男童牧羊来看是否有狼来了,而是很厉害地找到了一个自动化的系统来检测是否有狼群过来。然而这个系统并非准确无比的;就算大部分时间都是正常工作不会有问题,有的时候还是会狼来了的时候说没有狼来,或者是没有狼来了的时候有狼来。

如果说在 100 次这样的事件当中,次数是这样的话:

  声称说有(总共 25 次) 声称说无(总共 75 次)
事实上有(总共 20 次) 15 次

True Positive

5 次

False Negative

事实上无(总共 80 次) 10 次

False Positive

70 次

True Negative

那么,根据事实横着来看行的话:

  • 在总共 20 次事实上狼来了的情况当中:
    • True Positive 声称说有的 15 次,比例是 15/20=75%. 这个也叫做 True Positive Rate 或者 Hit Rate 或者是 Sensitivity, 表示狼来了之后这套系统有 75% 的概率判断正确。
    • False Negative 声称说无的 5 次,比例是 5/20=25%. 这个也叫做 False Negative Rate 或者 Miss Rate, 表示狼来了之后这套系统有 25% 的概率判断失误。
  • 在总共 80 次事实上狼并没有来的情况当中:
    • False Positive 声称说有的 10 次,比例是 10/80=12.5%. 这个也叫做 False Positive Rate 或者 Fall-out Rate, 表示狼没有来的时候这套系统有 12.5% 的概率判断失误。
    • True Negative 声称说无的 70 次,比例是 70/80=87.5%. 这个也叫做 True Negative Rate 或者 Specificity, 表示狼没有来的时候这套系统有 87.5% 的概率判断正确。

然后,根据声称竖着来看列的话:

  • 在总共 25次声称说狼来了的情况当中:
    • True Positive 事实上有的 15 次,比例是 15/25=60%. 这个也叫做 Positive Predictive Value 或者 Precision, 表示系统说狼来了的时候 60% 的概率真的有狼来了。
    • False Positive 事实上无的 10 次,比例是 10/25=40%. 这个也叫做 Negative Predictive Value, 表示系统说狼来了的时候 40% 的概率并没有狼过来。
  • 在总共 75 次声称说狼并没有来的情况当中:
    • False Negative 事实上有的 5 次,比例是 5/75=6.7%. 这个表示系统说狼没来的时候,有 6.7% 的概率其实狼来了。
    • True Negative 事实上无的 70 次,比例是 70/75=93.3%. 这个标识系统说狼没来的时候,有 93.3% 的概率狼也真的没有过来。

在这个基础上,这套系统还有以下这些统计的数值:

  • 正确判断的概率是 (True Positive 15 次 + True Negative 70 次)/100=85%.
  • 错误判断的概率是 (False Positive 10 次 + False Negative 5 次)/100=15%.

 

这里的确出现了很多术语一时半会也很难记忆,不过再次遇到不懂的时候再来看看就好了,总有能记住的时候的。

About the author

secangel

双子座 AB 型,资深女校男生

Add comment

About Author

secangel

双子座 AB 型,资深女校男生

Keep In Touch