Trong những bài bác tân oán phân loại, confusion matrix là một bảng đặc biệt được cần sử dụng để minch họa hiệu quả của những thuật tân oán. Bài viết này sẽ cố gắng hiểu hơn về confusion matrix.

Bạn đang xem: Confusion matrix là gì


alokapidakaldim.com ưu tiên giữ lại thuật ngữ trong tiếng Anh để bạn đọc dễ dàng tìm kiếm tài liệu tsay đắm khảo nhưng mà ko dịch ra tiếng Việt.

Confusion matrix (CM) là gì?

Để dễ dàng vào việc hiểu hơn về CM, chúng ta hãy để mắt tới một ví dụ đơn giản. Giả sử ta cần dự đân oán kết quả xét nghiệm của 1005 bệnh nhân xem họ gồm bị ung thư hay không. Dưới đây là những gì quy mô của bọn họ dự đoán:

90 bệnh nhân bị ung thư cùng tất cả dự đân oán này của họ đều đúng.915 bệnh nhân không bị ung thư nhưng thật ra tất cả tới 910 người lại bị trong thực tế.

Để dễ dàng minh họa những kết quả ở bên trên, bọn họ sử dụng confusion matrix như dưới đây (Câu hỏi: Bệnh nhân này còn có bị bệnh ung thư không?):

Thực tế (có)Thực tế (không)
Dự đoán (có)90 (True Positive)0 (False Positive)
Dự đoán (không)910 (False Negative)5 (True Negative)

Có lẽ nó mang tên gọi là “confusion matrix” bởi vì khi đọc thông tin cùng hiểu thông tin nhưng mà nó truyền tải, họ có hơi bối rối (confused) một chut, tôi đùa đấy!

Trong bảng trên, có 4 thuật ngữ ta cần để ý đến:

True Positive (TP): những bệnh nhân ta đoán là có bệnh đúng là đang có bệnh.True Negative (TN): những bệnh nhân ta đân oán là không gồm bệnh đúng là đang khỏe mạnh.False Positive (FP): những bệnh nhân ta đân oán là có bệnh thật ra đang khỏe mạnh.False Negative (FN): những bệnh nhân ta đân oán là không bao gồm bệnh thật ra đang với bệnh.
FPhường với FN đôi lúc còn được gọi dưới những cái brand name khác vào thống kê là Sai lầm loại I (Type I error) với Sai lầm loại II (Type II error).

Bên dưới là một hình minh họa vui đến bọn họ thêm một ví dụ nữa của CM trong việc dự đoán có tnhì xuất xắc không (nguồn).


*
Câu hỏi: Người này còn có đang có tnhị không?
Giải đam mê hình ví dụ vui ở trên
True Postive: Rõ ràng trong hình là một phụ nữ có thai vá bác sĩ nói mang lại cô ấy biết là cô ấy đang tất cả tnhị. Điều này chứng tỏ dự đân oán của bác bỏ sĩ là đúng đắn so với thực tế. Nói biện pháp khác: dự đoán thù “có” của chưng sĩ (Positive) là “đúng” (True).False Negative: Bác sĩ dự đoán chị tê không tồn tại tnhị nhưng thực tế lại bao gồm. Đây là một ví dụ của Sai lầm loại II. Nói biện pháp khác: dự đoán thù “không” của bác sĩ (Negative) là “sai” (False).False Positive: Đàn ông không thể gồm tnhì được trong những khi bác sĩ lại bảo anh ta tất cả. Đây là Sai lầm loại I. Nói phương pháp khác: dự đân oán “có” của bác bỏ sĩ (Positive) là “sai” (False).True Negative: Bác sĩ bảo anh kia không tồn tại tnhị, điều này hiển nhiên đúng. Nói giải pháp khác: dự đoán thù “không” của bác sĩ (False) là “đúng” (True).

Xem thêm: Anti Mainstream: Download Full Version Balsamiq Mockups 3, Cara Hack Design Home Full Tv Series


Cách nhớ confusion matrix

Trong bảng trên, lúc thì True, dịp thì False, thời gian thì Positive, cơ hội thì Negative. Vậy làm thế nào họ gồm thể nhớ được đúng mực dòng như thế nào là loại làm sao với ở vị trí nào trong ma trân trên? Dưới đây là một mánh nhỏ để nhớ dựa vào thương hiệu gọi của những thuật ngữ.

True/False ý chỉ những gì chúng ta dự đoán đã đúng tuyệt chưa (true or false).Positive/Negative sầu ý chỉ những gì chúng ta dự đoán (bao gồm hoặc không).

Nói khác đi, nếu chúng ta thấy chữ “True”, điều đó nghĩa là tất cả những gì họ dự đân oán đều đúng hết cả. Nếu chúng ta dự đân oán 90 bệnh nhân gồm bệnh (TP) thì đúng là vào thực tế 90 bệnh nhân đó đang mang bệnh. Còn nếu họ dự đân oán bao gồm 5 bệnh nhân ko có bệnh (TN) thì trong thực tế đúng là họ đang rất khỏe mạnh.

Ngược lại, nếu ta thấy chữ “False” bao gồm nghĩa là những gì chúng ta dự đân oán trật hết. Những bệnh nhân ta đân oán là có bệnh thì lại không vào thực tế với ngược lại.

Precision / Recall

Với CM, chúng ta sẽ tính được hai đại lượng quan liêu trọng là Precision cùng Recall.

Precision: đây là tỷ lệ giữa những người thật sự gồm bệnh so với tất cả các ca được dự đoán là tất cả bệnh. Nói cách không giống, bao gồm bao nhiêu dự đoán thù “positive” là thật sự “true” trong thực tế?

$$eginalignmathrm precision = dfracmathrmTPmathrmTP + mathrmFP = dfrac9090+0 = 100\%.endalign$$

Rõ ràng, ta chỉ dự đoán 90 người có bệnh cùng trong thực tế những người này đúng là đang bị bệnh thât. Vậy ra, 100% số người ta dự đoán tất cả bệnh là chính xác!

Recall (đôi khi còn được gọi là Sensitivity): trong những người thực sự gồm bệnh, từng nào trong số họ được dự đoán thù đúng bởi quy mô của bọn chúng ta? Nói cách không giống, có bao nhiêu dự đân oán “positive” đúng là vì quy mô của bọn họ đưa ra?

$$eginalignmathrm recall = dfracmathrmTPmathrmTP + mathrmFN = dfrac9090+910 = 9\%.endalign$$

Rõ ràng, ta chỉ dự đân oán 90 người bao gồm bệnh trong những khi có tới 1000 người trong thực tế mắc bệnh. Vậy ra, mô hình của họ chỉ bao gồm thể dự đân oán được 9% số lượng người có bệnh trong thực tế.

Bên dưới là confusion matrix sau thời điểm đã cấp dưỡng precision với reCall.

Thực tế (có) Thực tế (không)
Dự đoán (có)900Precision = 100%
Dự đoán (không)9105
Recall = 9%

Chúng ta bao gồm thể hiểu gì về Precision và Recall? Nếu một vào hai mẫu này còn có giá trị cao còn loại kia có mức giá trị thấp (hoặc ngược lại) thì sao? Ý nghĩa của chúng như thế nào?

Precision cao / Regọi thấp

Nhìn lại ví dụ ở bảng trên, nếu chúng ta chỉ dựa vào Precision, quy mô của bọn họ thật sự rất tốt (Precision = 100%). Tất cả các ca tất cả bệnh nhưng họ dự đân oán đều đúng mực.

Tuy nhiên ngó lại ReCall (9%), có tới 910 bệnh nhân bị dự đoán sai và họ ko được điều trị. 91% số ca bị nhiễm bệnh sẽ cầm chắc dòng chết. Mô hình của họ hoàn toàn rất tệ trong trường hợp này!

Precision thấp / ReĐiện thoại tư vấn cao

Nếu ngược lại thì sao? Giả sử confusion matrix là bảng dưới đây (câu hỏi: Bệnh nhân gồm mắc ung thư không?).

Thực tế (có)Thực tế (không)
Dự đoán (có)90910Precision = 9%
Dự đoán (không)105
Recall = 90%

Trong trường hợp này Precision rất nhỏ nếu đem so với Recall (9% so với 90%). Chúng ta đã dự đoán thù không nên thừa nhiều người lành thành người bệnh. Tuy nhiên tất cả vẻ như dự đoán thù sai này “ít tác hại” hơn là trường hợp trước đó. 90% trường hợp này có thể “bị” hóa trị nhầm nhưng không nhiều ra là có thể họ vẫn sống, trong lúc ở trường hợp precision cao/ređiện thoại tư vấn thấp, số lượng người không được điều trị rất cao và cầm chắc mẫu chết sớm!

Tại sao cả Precision với Ređiện thoại tư vấn đều quan trọng?

Precision mang lại họ biết những “dự đoán có” của chúng ta chính xác từng nào (Liệu vào 1000 người ta dự đoán mắc bệnh thì bao gồm mấy người thật sự bị?). Tuy nhiên sẽ gồm một câu hỏi nảy ra vào đầu bọn họ là “Liệu họ tất cả dự đoán thiếu kết quả như thế nào không?” (Ta bao gồm bỏ sót bệnh nhân làm sao đang mắc bệnh mà lại ko dự đân oán không?). Recall sẽ cung cấp câu trả lời cho câu hỏi này!

Nếu bạn muốn sửa đổi thuật toán thù để tăng một trong nhị precison và recall, chiếc còn lại sẽ bị giảm đi.

Xem thêm: Tải Adobe Illustrator Cs6 Bản Full Crack + Bản Portable Bản, Illustrator Cs6 Portable X64

Một ví dụ khác. Bạn muốn xây dựng một hệ thống gợi ý sản phẩm trực tuyến. Dự đân oán “Positive” vào trường hợp này đó là “Những sản phẩm thật sự thu hút khách hàng“. Mô hình của bạn sẽ hiển thị những sản phẩm liên quan đến sản phẩm nhưng họ đang xem để họ gồm thể tải thêm nhiều sản phẩm không giống trên trang web bán sản phẩm của bạn (Amazon, Tiki, Lazada,… chẳng hạn).

Nếu precision vượt cao trong khi reCall lại thấp, những gợi ý của bạn đúng là quyến rũ được người sử dụng nhưng bạn lại bỏ qua quá nhiều sản phẩm tiềm năng không giống cũng có khả năng ham mê họ không hề thua kém.Ngược lại, nếu precision thấp trong khi reCall cao thì bạn sẽ chắc chắn tất cả các sản phẩm tiềm năng sẽ được giới thiệu đến quý khách. Tuy nhiên, những sản phẩm thừa mứa cùng vô vị khác cũng sẽ chen chân vào đây và khiến mang lại quý khách hàng của bạn ko mấy mặn cơ mà, họ bao gồm thể đổi sang trang khác để mua!
Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *