Hiểu và phản biện nghiên cứu – phiên bản quốc dân

Nhờ sự phát triển của internet mà giới khoa học có thể công bố kết quả nghiên cứu của mình đến với công chúng càng lúc càng dễ dàng. Ngày nay, chỉ cần lướt web 15′ đã có thể thấy rất nhiều những mẩu tin kiểu như “nghiên cứu cho thấy: nợ công cao làm một nước chậm phát triển“, hoặc “thức khuya sẽ gây ung thư“, hoặc “khoa học chứng minh: ăn kem nhiều tăng nguy cơ chết đuối (?)“.

Có một thực tế cần phải thừa nhận là không phải ai cũng là chuyên gia nghiên cứu, và chính vì thế, hầu hết mọi người đều tin một cách vô điều kiện vào kết quả nghiên cứu được đăng.

Bài viết này là một “cẩm nang” về cách đón nhận những bài nghiên cứu. Mục đích là sau khi đọc xong, bất cứ ai – từ học sinh đến bà nội trợ đến tất cả những ai không rành phương pháp định lượng – cũng có được một khung kiến thức cơ bản để suy nghĩ, hiểu, và phản biện lại những bài nghiên cứu hay bài báo mình đọc được.

1

 

1. MỐI QUAN HỆ GIỮA X VÀ Y

Hầu hết các bài nghiên cứu khoa học ứng dụng (và đôi khi, lý thuyết) có thể tóm gọn vào khuôn khổ “Mối liên hệ giữa X và Y”. Có hai loại câu hỏi được đặt ra:

  1. X có liên can gì đến Y không?
    Nhìn thấy X có đoán được Y không? Khi thấy nhiều X hơn bình thường, thì có thấy nhiều Y hơn bình thường không?
  2. Nếu X và Y có quan hệ gì đó với nhau, thì tại sao?
    X có gây ra Y không? Y có gây ra X không? Hay vì một lý do khác?

Khi đón nhận bất kỳ một bài nghiên cứu nào, mọi người cũng cần biết rõ bài viết này đang trả lời câu hỏi nào. Điều này rất quan trọng, vì mỗi câu hỏi tương ứng với một mối quan hệ khác nhau: câu hỏi đầu tiên đang nói về mối quan hệ tương quan, còn câu thứ hai nói về quan hệ nhân quả.

Hai mối quan hệ này là gì?

Quan hệ tương quan = “khi thấy X, thường thấy Y”
hoặc “X cao hơn bình thường, thì Y cũng cao/thấp hơn bình thường”

Quan hệ tương quan

Để hiểu về quan hệ tương quan, thử lấy một ví dụ từ một câu hỏi trên Kênh 14 được đặt ra gần đây: người ta thường thấy nghệ sĩ thường có scandal mỗi khi sắp xuất hiện trên truyền hình thực tế. Như vậy, ở đây X = “sắp xuất hiện trên truyền hình”, Y = “có scandal xảy ra”. Và mối quan hệ (mà cộng tác viên của Kênh 14 tìm ra) là: cứ mỗi lần thấy X thì lại thấy Y.

Tìm ra mối quan hệ tương quan thường rất dễ: thu thập dữ liệu, rồi ngẫm nghĩ một tí là thấy ngay! Trong ví dụ về TV show và Scandal nói trên, chỉ cần thu thập lại lịch sử của các nghệ sĩ, rồi xem thử bao nhiêu lần hễ có TV show là có scandal là biết ngay mối liên hệ giữa hai thứ này.

Rất dễ để tìm các ví dụ khác. Người ta có thể tìm hiểu về mối quan hệ giữa:

  • X = “số giờ học mỗi ngày”
  • Y = “điểm thi tốt nghiệp”

hoặc:

  • X = “số bữa ăn mỗi ngày”
  • Y = “cân nặng”

bằng cách thu thập dữ liệu từ rất nhiều người, và vẽ một biểu đồ như sau:
(trong kinh tế: chạy hồi quy)

2

 

Rõ ràng ở ví dụ số bữa ăn và cân nặng, hai điều này có quan hệ “tương quan thuận” với nhau, nghĩa là người ăn nhiều thường nặng cân, người ăn ít thường nhẹ cân. Lưu ý là chỉ nhìn vào biểu đồ này, chúng ta vẫn chưa biết là ăn nhiều bữa có gây tăng cân hay không, mà chỉ biết là hai thứ này đi đôi thuận chiều với nhau.

Quan hệ nhân quả = “X gây ra Y”,
hoặc “vì X nên mới Y”

Quan hệ nhân quả

Khác với quan hệ tương quan, một mối quan hệ nhân quả là một câu khẳng định mạnh hơn: “X gây ra Y” hoặc “vì X nên mới Y”.

Quay lại ví dụ show biz, chúng ta đã nói việc sắp xuất hiện trên TV show thường đi đôi với chuyện nghệ sĩ có scandal. Tuy nhiên – dù rất muốn – chúng ta cũng chưa thể kết luận rằng việc xuất hiện trên TV show khiến nghệ sĩ gây ra scandal để tạo sự chú ý. Có thể đây chỉ là một sự trùng hợp, hoặc có một nguyên nhân nào ẩn sâu mà chúng ta chưa biết tới!

Trong rất nhiều trường hợp, chúng ta quan tâm hơn về mối quan hệ nhân quả hơn là tương quan. Tuy nhiên, trớ trêu thay, có một tin buồn không hề nhẹ là: thiết lập quan hệ tương quan thì dễ, nhưng quan hệ nhân quả thì rất khó. (Vì sao lại khó, xin đọc phần 3)

2. QUY TẮC MẶC ĐỊNH: TƯƠNG QUAN KHÁC NHÂN QUẢ!

Và, là người đọc/người học có trách nhiệm, chúng ta phải hiểu rõ: nghiên cứu nào là tương quan, nghiên cứu nào là nhân quả.

Nếu nghiên cứu công bố “X liên quan tới Y” (tương quan), điều đó không có nghĩa là “X gây ra Y” (nhân quả).

Chẳng hạn như, nếu người ta bảo “người thức khuya thường hay bị ung thư”, và người ta làm điều này bằng cách xem trong 1000 người, thấy những người hay thức khuya thì phần lớn cũng bị ung thư. Nghiên cứu này không có gì sai cả, nhưng ở vị trí người đọc, đừng hiểu sai rằng bài nghiên cứu nói “ thức khuya nên bị ung thư”. Chúng ta chưa biết thật sự thì thức khuya có gây ung thư hay không, nhưng ít ra là bài nghiên cứu này chưa chứng minh điều đó.

Nhìn chung, rất khó để thiết lập “X gây ra Y”. Nên nếu ai đó khẳng định điều này, hãy đọc thật kỹ và hoài nghi phương pháp của họ. 

Quy tắc này có vẻ hơi cứng nhắc một tí – nhưng mình thật sự nghĩ như thế. Thiết lập quan hệ nhân quả vốn rất khó, ngay cả với các nhà nghiên cứu chuyên nghiệp, và có những giáo sư dành cả đời chỉ để tìm cách thiết lập một số mối quan hệ nhân quả.

3. VÌ SAO KHÓ KẾT LUẬN “X GÂY RA Y”
TRONG KHOA HỌC XÃ HỘI
(Phần không quan trọng – có thể bỏ qua)

Bàn thêm về việc tại sao lại khó thiết lập quan hệ nhân quả trong khoa học xã hội đến vậy: Khi nghiên cứu khoa học tự nhiên, để tìm hiểu quan hệ giữa X và Y, chúng ta có thể chạy một thí nghiệm, điều khiển X thành nhiều giá trị khác nhau, rồi thu thập lại kết quả Y tương ứng. (Thử nhớ lại lúc bạn thí nghiệm thả bóng rơi tự do từ nhiều độ cao khác nhau, rồi đo thời gian để tính gia tốc trọng trường.)

Ở bộ môn kinh tế nói riêng và khoa học xã hội nói chung, hầu hết thời gian việc thí nghiệm rất khó khăn vì nhiều lý do, trong đó có tiền bạc và vấn đề đạo đức.

Giả sử như, chúng ta muốn biết X = “đi học đại học” có tạo nên Y = “thu nhập cao lúc 30 tuổi” hay không. Nếu bạn nghĩ rằng chúng ta có thể đơn giản tính thu nhập trung bình của những người 30 tuổi có bằng đại học để so với thu nhập trung bình lúc 30 tuổi của những người không có bằng đại học, rồi xem thử có cao hơn không – thì bạn hơi ngây thơ rồi.

Vì sao phương pháp này lại tệ? Vì còn nhiều yếu tố khác mà mình chưa tính đến, chẳng hạn như hoàn cảnh gia đình. Những bạn được đi học đại học có thể là những bạn có gia đình khá hơn, và sau này những gia đình này có thể giúp các bạn ấy kiếm việc lương cao hơn. Như vậy, mặc dù đúng thật là dữ liệu cho thấy các bạn học đại học có lương cao hơn, nhưng điều này chẳng nói lên gì về hiệu quả của trường đại học cả.

Nếu được thực hiện thí nghiệm sau thì sẽ rất lý tưởng: lấy 1000 học sinh vừa tốt nghiệp phổ thông, một cách ngẫu nhiên chỉ cho 500 em đi học đại học. Đến năm 30 tuổi, thu kết quả về thu nhập của các em này và so sánh với nhóm còn lại. Thí nghiệm này rõ ràng giúp tránh được vấn đề hoàn cảnh gia đình, vì trong cả hai nhóm (đi học và không đi học) có đủ học sinh thuộc mọi hoàn cảnh. Tuy nhiên, thí nghiệm này rõ ràng không phù hợp với tiêu chuẩn đạo đức nào, vì người làm thí nghiệm đang có thể hy sinh tương lai của 500 con người. (Thí nghiệm như thế này gọi là “ideal randomized controlled experiment”)

3

4. NGƯỜI TA CỨ KHĂNG KHĂNG “X GÂY RA Y”,
TÔI NÊN ĐÁP LẠI THẾ NÀO?

Bây giờ quay trở lại ban đầu. Giả sử người ta tìm thấy một mối liên hệ (tương quan) giữa X và Y, và người ta rất muốn thuyết phục bạn rằng “X gây ra Y”. Rất có thể người ta nói đúng, rất có thể thực sự là X gây ra Y. Nhưng, như đối với mọi thứ khác trên đời, chúng ta phải cẩn thận và hoài nghi một tí trước khi kết luận. Người ta có thể sai ở đâu?

Khi ai đó nói với tôi “X gây ra Y”, tôi hay lần lượt tự hỏi hai điều sau:

  1. Chúng ta có đang hiểu ngược không? (reverse causality)
    Nhỡ may X không gây ra Y, mà là Y gây ra X thì thế nào?
  2. Chúng ta có đang bỏ qua một yếu tố thứ 3 nào không? (omitted variable)
    Nhỡ may, X không gây ra Y,và Y cũng không gây ra X, mà lại có một “kẻ thứ 3” tên là Z mà chúng ta không nghĩ tới, gây ra cả X lẫn Y.

Xin được nói rõ từng trường hợp dưới đây:

4.1 Chúng ta có đang hiểu ngược chiều không?

Để dễ hiểu hơn, hãy thử nghĩ về một ví dụ sau: Năm 2012, đồng tác giả Kuhn, Wuellrich, và Zweimuller công bố nghiên cứu rằng nghỉ hưu sớm khiến cho đàn ông chết sớm hơn! Xem xét dữ liệu, các tác giả tìm thấy rằng đàn ông nghỉ hưu sớm có tuổi thọ trung bình thấp hơn những người nghỉ hưu đúng hạn.

4

Tuy nhiên, các tác giả không những chỉ tìm ra mối quan hệ tương quan này, mà còn khẳng định mạnh mẽ hơn: “nghỉ hưu sớm khiến cho người ta chết sớm”. Các tác giả giả thuyết rằng “nghỉ hưu sớm –> tuổi thọ ngắn”, với lý lẽ đàn ông nghỉ hưu sớm thường rượu chè nhiều hơn và ảnh hưởng nặng tới sức khỏe hơn là những người nghỉ hưu trễ.

Nghe cũng có vẻ có lý, nhưng là người đọc khó tính, nhiệm vụ đầu tiên của tôi là thử đưa ra một giả thuyết khác, ngược lại, nhưng vẫn giải thích được hiện tượng “đàn ông nghỉ hưu sớm thường chết sớm hơn”.

Giả thuyết ngược của tôi sẽ như sau: Những người có sức khỏe kém (và đồng nghĩa với việc đó, tuổi thọ ngắn) thường muốn nghỉ hưu sớm hơn để tận hưởng phần thời gian còn lại với gia đình. Do đó, “tuổi thọ ngắn –> nghỉ hưu sớm”, chứ không phải “nghỉ hưu sớm –> tuổi thọ ngắn”.

Tất nhiên các tác giả đã làm một điều thông minh để ủng hộ cho giả thuyết của mình – tôi sẽ bàn ở dưới. Nhưng đây là một ví dụ tốt về chuyện khi thấy báo giật tít, thì phản ứng đầu tiên nên là gì.

Hãy nhớ câu trả lời là: giả thuyết chiều ngược lại.

4.2 Chúng ta có đang bỏ qua một yếu tố thứ 3 nào không?

Quay lại ví dụ giả định về ăn kem và chết đuối như sau. Lấy một thành phố bất kỳ có một mùa hè nóng và một bờ biển – ví dụ như Tp. Nha Trang. Giả sử chúng ta thu thập hai dữ liệu sau:

  • Số lượng kem tiêu thụ trong một tháng. (X)
  • Số lượng người chết đuối trong một tháng. (Y)

qua một thời gian dài. Sau đó, vẽ một biểu đồ với hai trục X – Y để thể hiện mối quan hệ giữa hai điều trên. Giả sử bạn tìm thấy rằng các tháng có nhiều lượng kem tiêu thụ thường có nhiều người chết đuối! Nếu đọc báo thấy rằng “Khoa học tìm thấy mối liên hệ giữa việc ăn kem và chết đuối”, thì chúng ta nên nghĩ gì?

Theo như những gì đã nói ở trên, chúng ta thử giả thuyết các chiều nhân quả ngược xem có hợp lý không. Có hai chiều có thể xảy ra:

  • Giả thuyết 1: Vì có nhiều người ăn kem, nên khiến cho nhiều người chết đuối. 
  • Giả thuyết 2: Vì có nhiều người chết đuối, nên có nhiều người ăn kem hơn.

Rõ ràng, cả hai giả thuyết này không hợp lý một tí nào cả. Trong trường hợp này, chúng ta nên nghĩ về khả năng có một tác nhân khác, gọi là Z, mà gây ra cả X và Y. Như vậy, X vốn dĩ không liên quan gì đến Y cả, nhưng vì cả hai đều bị tác động bởi Z, nên chúng ta mới thấy một “mối quan hệ” giữa X và Y.

5

 

Trong trường hợp ăn kem – chết đuối, thì yếu tố Z bị bỏ quên có thể là nhiệt độ và nắng nóng. Rõ ràng Z –> X (lúc nào trời nóng hơn thì người ta ăn kem nhiều hơn), và Z –> Y (lúc nào trời nóng hơn thì người ta tắm biển nhiều hơn – và do đó – chết đuối nhiều hơn).

Như vậy, vốn dĩ ăn kem và chết đuối chả liên quan gì với nhau cả, nhưng vì cả hai sự kiện này đều bị tác động bởi nhiệt độ và nắng nóng, nên mới di chuyển đồng thời nhịp nhàng, khiến chúng ta thấy một điều vớ vẩn như “ăn kem nhiều thì chết đuối nhiều”.

4.3 Hiệu ứng lựa chọn

Trong một ví dụ khác, xin kể câu chuyện của chính tôi như sau. Lúc được nhận vào rất nhiều chương trình tiến sĩ cùng một lúc, tôi không biết phải học ở đâu nên mới đi hỏi một vị GS mà tôi tin tưởng. Tôi hỏi thầy: “Chất lượng dạy ở trường Harvard như thế nào ạ?” Thầy tôi trả lời rằng: “Xem kết quả của NCS tốt nghiệp từ Harvard thì việc làm rất tốt, lương rất cao; nhưng chúng ta không biết được là việc học ở Harvard có tác dụng gì không đâu.”

Xin dịch lại câu nói của thầy bằng những ngôn ngữ mà chúng ta đã nói đến trong bài này: cho X = “học ở Harvard”, Y = “lương và chất lượng công việc sau tốt nghiệp”. Chúng ta tìm thấy một mối tương quan giữa X và Y: người học ở Harvard thường có lương cao và việc tốt sau khi tốt nghiệp. Nhưng không chắc là X–> Y, nghĩa là vì học ở Harvard nên mới có lương cao.

Rất có thể là có một biến Z khác: Z =”chất lượng sẵn có của học sinh”, mà gây ra cả X và Y:

  • Z–>X: học sinh giỏi sẵn thì mới được vào học ở Harvard.
  • Z–>Y: học sinh giỏi sẵn thì kiếm được việc tốt sau khi tốt nghiệp Harvard.

Do đó, chúng ta có thể thấy rất rõ là học sinh tốt nghiệp ở Harvard có việc tốt lương cao, nhưng điều này không chứng minh được gì cho hiệu quả của nền giáo dục Harvard cả!

Trường hợp này có tên là “hiệu ứng lựa chọn” (selection effect): Harvard có vẻ như giúp học sinh thành công, nhưng trên thực tế chỉ là những người đã giỏi sẵn thì tự “chọn” mình vào Harvard mà thôi!

KẾT LUẬN

Rất hy vọng rằng, bằng những ngôn ngữ dễ hiểu, tôi đã có thể giúp mọi người có được một khung ý tưởng trong đầu để lần tới, khi đọc báo hay đọc một nghiên cứu nào đó, dù chưa hiểu người ta đã làm gì trong nghiên cứu, mọi người cũng có thể hoài nghi kết quả một cách khoa học.

Xin được tóm tắt các bước lại như sau:

  1. Đọc và xác định xem tác giả đang kết luận quan hệ tương quan (khi thấy X thường thấy Y) hay quan hệ nhân quả (X gây ra Y).
  2. Nếu người ta chỉ dừng lại ở quan hệ tương quan, thì cảm thấy thú vị và đưa ra giả thuyết vì sao.
    Nếu người ta kết luận “X gây ra Y”, “X làm nên Y”, “vì X nên Y”,…, thì hãy:

    • Thử suy luận đảo chiều xem có phải X gây ra Y không, hay thực tế lại là Y gây ra X? Có giả thuyết nào tốt cho chiều ngược lại, Y –> X không?
    • Thử suy luận xem người ta có đang bỏ quên một yếu tố Z nào đó mà ảnh hưởng đến cả X lẫn Y không?

Nếu có thời gian, tôi sẽ viết bài về các cách người ta thiết lập quan hệ nhân quả sau. Ở bài này, xin được dừng tại đây.

Châu Thanh Vũ
29/9/2017

 

Advertisements

2 thoughts on “Hiểu và phản biện nghiên cứu – phiên bản quốc dân

  1. Bản “quốc dân” rất “vào” Vũ ạ. Hình minh hoạ cũng rất dễ thương, làm anh nhớ ngay đến một trang anh rất thích là waitbutwhy.com. Chỉ cần phân biệt được tương quan và nhân quả là các tít đã bớt phần giật gân đi rất nhiều rồi. Chờ đợi nhiều bài viết “quốc dân” nữa của Vũ!

    À không liên quan nhưng thỉnh thoảng anh hay để ý đến tiểu tiết, cái cụm “nền giáo dục Harvard” nghe nó không được xuôi, vì “nền” thường được dùng cho cả một lĩnh vực, phổ quát hơn.

    Like

  2. wow cảm ơn anh Vũ nhé! Em thỉnh thoảng hay bị khủng hoảng thông tin lắm. Hôm bữa em có nghe thầy Lê Thẩm Dương nói đứng trước thông tin mình phải là người đánh giá nó chứ không để nó ảnh hưởng mình, nhưng em không rõ làm cách đó như thế nào. Nhưng đọc bài này của anh em thấy rất cụ thể, logic. Anh viết tiếp nữa đi ạ, nhất là chủ đề chọn lọc thông tin ấy nhé!

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s