Lý thuyết trò chơi kinh tế vi mô

1. Khái niệm

Lí thuyết trò chơi trong tiếng Anh là Game Theory.

Lí thuyết trò chơi là một khung lí thuyết để hiểu các tình huống xã hội (cuộc chơi) giữa những người chơi cạnh tranh nhau. Trên một vài khía cạnh, lí thuyết trò chơi là khoa học về chiến lược, hoặc ít nhất là việc ra quyết định tối ưu của các tác nhân độc lập và cạnh tranh trong một bối cảnh chiến lược. 

Những người tiên phong chính của lí thuyết trò chơi là các nhà toán học John von Neumann và John Nash, cũng như nhà kinh tế học Oskar Morgenster. Năm 1944  John von Neumann và Oskar Morgenstern viết và xuất bản cuốn sách “Lý thuyết trò chơi và các hành vi kinh tế”

2. "Tình trạng khó xử của tù nhân"

Giả sử hai kẻ bắt cóc bị bắt quả tang nhưng Cục điều tra liên bang (FBI) chỉ có chứng cứ chắc chắn để buộc họ tội nhẹ hơn. Trong cố gắng tìm thêm chứng cứ, FBI nhốt riêng tù nhân và ghi lời khai của họ theo cách sau. Mỗi tên bắt cóc được cho biết rằng (1) nếu một người phạm tội, thì người thú nhận mình phạm tội sẽ được trả tự do còn người kia bị tử hình, (2) nếu cả hai không phạm tội, thì cả hai đều nhận hình phạt nhẹ đi cùng với tội phạm ít nghiêm trọng hơn, (3) cả hai đều phạm tội, thì cả hai đều nhận hình phạt nghiêm khắc nhưng không đến nỗi chết. Dựa vào sự thưởng phạt và tính không chắc chắn, giải pháp dự đoán là cả hai đều nhận tội bắt cóc.

Hình 2.1. Tình trạng khó xử của tù nhân

Lý thuyết trò chơi kinh tế vi mô

Bài toán này nổi tiếng với tên gọi "Tình trạng khó xử của tù nhân", có sự giống nhau trực tiếp trong nhiều loại hành vi kinh tế.

Lý thuyết trò chơi nghiên cứu cách lựa chọn hành vi tối ưu khi chi phí và lợi ích của mỗi lựa chọn là không cố định, mà phụ thuộc vào lựa chọn của các cá nhân khác.

3. Tác động của lý thuyết trò chơi đến kinh tế

Lí thuyết trò chơi đã mang lại một cuộc cách mạng về kinh tế bằng cách giải quyết các vấn đề quan trọng trong các mô hình kinh tế toán học trước đây. Ví dụ, kinh tế học tân cổ điển phải vất vả để tìm hiểu dự đoán kinh doanh và không thể giải thích cạnh tranh không hoàn hảo. Lí thuyết trò chơi chuyển sự chú ý khỏi trạng thái cân bằng ổn định tới các hành động trong thị trường.

Trong kinh doanh, lí thuyết trò chơi có lợi cho việc mô hình hóa các hành vi cạnh tranh giữa các tác nhân kinh tế. Các doanh nghiệp thường có một số lựa chọn chiến lược ảnh hưởng đến khả năng hiện thực hóa lợi ích kinh tế của họ. 

Ví dụ, các doanh nghiệp có thể phải đối mặt với những vấn đề nan giải như liệu có nên dừng sản xuất các sản phẩm hiện có hoặc phát triển các sản phẩm mới, giảm giá thấp hơn so với đối thủ hay sử dụng các chiến lược tiếp thị mới. 

Các nhà kinh tế học thường sử dụng lí thuyết trò chơi để hiểu hành vi của công ty độc quyền tập đoàn. Lí thuyết trò chơi giúp dự đoán các kết quả có khả năng xảy ra khi các công ty tham gia vào một số hành vi nhất định, chẳng hạn như ấn định giá và thông đồng.

4. Ứng xử của doanh nghiệp trên thị trường

Thị trường có bốn hình thái cấu trúc là: (1) thị trường cạnh tranh hoàn hảo; (2) thị trường cạnh tranh độc quyền; (3) thị trường độc quyền và (4) thị trường độc quyền nhóm. Các doanh nghiệp hoạt động trên ba loại thị trường (1,2,3) đều tuân theo nguyên tắc MR = MC (lợi nhuận biên bằng chi phí biên) để nhằm tối đa hóa lợi nhuận. Nhưng ở thị trường độc quyền nhóm, mỗi doanh nghiệp có một thế lực nhất định, đồng thời tồn tại tương tác chiến lược (về định giá và sản lượng) với những doanh nghiệp khác thì công thức MR = MC không còn thích hợp.

Trên thị trường cạnh tranh hoàn hảo và cạnh tranh có tính độc quyền, các doanh nghiệp cạnh tranh với nhau để giành giật thị trường, mức độ cạnh tranh rất quyết liệt theo kiểu “cá lớn nuốt các bé”. Trên thị trường độc quyền nhóm, sự cạnh tranh khốc liệt sẽ dẫn đến hậu quả là các doanh nghiệp đều bị tổn thất, thiệt hại to lớn. Đã đến lúc các doanh nghiệp phải tìm cách thỏa hiệp, “hợp tác” với nhau để tránh bị tổn thất. Nhưng trong hợp tác lại luôn đi liền với sự “phản bội”, bởi vì sự phản bội đem lại cho doanh nghiệp khoản lợi nhuận kếch xù. Vậy là, giữa các doanh nghiệp tồn tại một kiểu ứng xử “vừa hợp tác, vừa cạnh tranh” với nhau. Nhưng tình trạng này luôn luôn tiềm ẩn sự rủi ro, bất ổn buộc các doanh nghiệp lớn phải có chiến lược kinh doanh ổn định, đảm bảo lợi ích của mình.

Sự thỏa thuận cùng nhau thực hiện các quy tắc về “ứng xử chung – COC - general code of conduct” là một giải pháp khôn ngoan, đảm bảo cho các doanh nghiệp độc quyền nhóm cùng thắng trong kinh doanh “win – win”. Trên thực tế, chúng ta có thể thấy mô hình kinh doanh hiệu quả của khối các nước OPEC là một điển hình. (Tổ chức các nước xuất khẩu dầu mỏ (Organization of Petroleum Exporting Countries, viết tắt OPEC) là tổ chức có là đảm bảo thu nhập ổn định cho các quốc gia thành viên và đảm bảo nguồn cung dầu mỏ cho các khách hàng.)

                                                                                                          -Viện Đào tạo Sau đại học-

Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 - 2006 Vũ Thành Tự Anh 1GIỚI THIỆU LÝ THUYẾT TRỊ CHƠI VÀ MỘT SỐ ỨNG DỤNG TRONG KINH TẾ HỌC VI MƠ Cho đến nay, chúng ta đã nghiên cứu bốn hình thái cấu trúc thị trường cơ bản là cạnh tranh hồn hảo, độc quyền, cạnh tranh độc quyền, và độc quyền nhóm. Ngun tắc tối đa hóa lợi nhuận của các doanh nghiệp hoạt động trên 3 loại thị trường đầu là quy tắc quen thuộc MR = MC. Trong khi đó, ở thị trường độc quyền nhóm (oligopoly), mỗi doanh nghiệp trên thị trường có một thế lực nhất định, đồng thời tồn tại tương tác chiến lược (về định giá và sản lượng chẳng hạn) với những doanh nghiệp khác thì cơng thức MR = MC khơng còn thích hợp nữa. Vì vậy, để nghiên cứu ứng xử của các doanh nghiệp trong loại hình cấu trúc thị trường này, chúng ta phải sử dụng một cơng cụ có khả năng phân tích được những tương tác chiến lược của các doanh nghiệp tham gia thị trường. Cơng cụ đó là lý thuyết trò chơi.1 Lý thuyết trò chơi nghiên cứu các tình huống ra quyết định có liên quan tới nhiều người và các quyết định của mỗi người ảnh hưởng tới lợi ích và quyết định của những người khác. Có một số phương pháp phân loại trò chơi. Nếu căn cứ vào khả năng hợp đồng và chế tài hợp đồng của những người chơi thì có thể chia trò chơi thành hai loại: trò chơi hợp tác (cooperative games) và trò chơi bất hợp tác (non-cooperative games). Trong trò chơi hợp tác, những người chơi có khả năng cùng nhau lập chương trình (kế hoạch) hành động từ trước, đồng thời có khả năng chế tài những thỏa thuận chung này. Còn trong trò chơi bất hợp tác, những người chơi khơng thể tiến tới một hợp đồng (khế ước) trước khi hành động, hoặc nếu có thể có hợp đồng thì những hợp đồng này khó được chế tài. Phương pháp phân loại trò chơi thứ hai là căn cứ vào thơng tin và vào thời gian hành động của những người chơi. Căn cứ vào thơng tin thì các trò chơi có thể chia thành trò chơi với thơng tin đầy đủ (complete information) hoặc khơng đầy đủ (incomplete information). Trò chơi với thơng tin đầy đủ là trò chơi mà mỗi người chơi có thể tính tốn được kết quả (payoff) của tất cả những người còn lại. Căn cứ vào thời gian hành động lại có thể chia trò chơi thành hai loại, tĩnh và động. Trong trò chơi tĩnh (static game), những người chơi hành động đồng thời, và kết quả cuối cùng của mỗi người phụ thuộc vào phối hợp hành động của tất cả mọi người. Trò chơi động (dynamic game) diễn ra trong nhiều giai đoạn, và một số người chơi sẽ hành động ở mỗi một giai đoạn.2 Phối hợp hai tiêu thức phân loại này ta sẽ có bốn hệ trò chơi tương ứng với bốn khái niệm về điểm cân bằng, trong đó khái niệm cân bằng sau mạnh hơn khái niệm cân bằng trước theo chiều mũi tên (xem Bảng 1). Tĩnh Động 1 Lý thuyết trò chơi từ lâu đã trở thành một lĩnh vực quan trọng của kinh tế học nói chung. Nó có ứng dụng rộng rãi trong kinh tế học vi mơ, vĩ mơ, tài chính, quản trị, ngân hàng, thương mại quốc tế, chính trị, khoa học về chiến tranh, ngoại giao … nói chung là trong các mơi trường có tương tác chiến lược. 2 Nếu mỗi người chơi ở thời điểm phải ra quyết định mà biết tồn tồn lịch sử của trò chơi cho đến thời điểm đó thì ta nói rằng trò chơi này có thơng tin hồn hảo (perfect information), bằng khơng chúng ta nói rằng trò chơi có thơng tin khơng hồn hảo (imperfect information). Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 - 2006 Vũ Thành Tự Anh 2Thơng tin đầy đủ Cân bằng Nash – NE Subgame Perfect Nash Equilibrium -SPNS Thơng tin khơng đầy đủ Bayesian Nash Equilibrium - BNE Perfect Bayesian Equilibrium - PBE Bảng 1: Bốn hệ trò chơi và các khái niệm cân bằng tương ứng 1) Trò chơi tĩnh với thơng tin đầy đủ Dạng thức của trò chơi này là những người chơi đồng thời ra quyết định (hay hành động) để tối ưu hóa kết quả (có thể là độ thỏa dụng, lợi nhuận, v.v.); đồng thời mỗi người chơi đều biết rằng những người khác cũng đang cố gắng để tối đa hóa kết quả mình sẽ thu được. Kết quả cuối cùng cho mỗi người phụ thuộc vào phối hợp hành động của họ. Biểu diễn trò chơi dưới dạng chuẩn tắc (normal-form representation) Ví dụ 1: Thế “lưỡng nan của người tù” Giả sử Giáp và At bị tình nghi cùng nhau ăn cắp. Hai người bị cơng an bắt về đồn nhưng chưa thể kết tội nếu cả Giáp và At cùng khơng nhận tội. Cơng an mới nghĩ ra một cách như sau khiến Giáp và At phải cung khai đúng sự thật. Cơng an sẽ giam Giáp và At vào hai phòng tách biệt, khơng cho phép họ được thơng tin cho nhau và thơng báo với mỗi người rằng: Nếu cả hai cùng khơng chịụ khai mình phạm tội thì mỗi người sẽ bị giữ thêm 1 tháng để thẩm tra và tìm thêm chứng cứ. Nếu cả hai cùng khai nhận tội thì mỗi người sẽ phải ngồi tù 4 tháng. Nếu chỉ có một người nhận tội còn người kia ngoan cố khơng chịu nhận tội thì người thành khẩn cung khai sẽ được hưởng sự khoan hồng và khơng phải ngồi tù, trong khi người kia sẽ chịu hình phạt nặng hơn là 5 tháng tù giam. Các khả năng và kết cục này được trình bày một cách chuẩn tắc trong Bảng 2 dưới đây.3 Giáp Khai Khơng khai Khai -1, -1 -5, 0 Ất Khơng khai 0, -5 -4, -4 Bảng 2: Thế lưỡng nan của người tù Chiến lược áp đảo (dominant strategy) và chiến lược bị áp đảo (dominated strategy) Trong cuộc chơi này, Giáp và At mỗi người chỉ có thể lựa chọn một trong hai chiến lược (hành động): Khai hoặc khơng khai. Giáp có thể tư duy thế này. “Nếu thằng At nhận tội 3 Một cách khác, dạng chuẩn tắc của trò chơi tĩnh với thơng tin đầy đủ có thể được biểu diễn dưới dạng G = {S1, S2, …, Sn; u1, u2, …, un} trong đó chúng ta có thể đọc được các thơng tin về số người chơi (n), khơng gian chiến lược (hay các chiến lược có thể - Si), và các kết cục (payoff) tương ứng (ui). Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 - 2006 Vũ Thành Tự Anh 3mà mình lại khơng nhận tội thì nó trắng án còn mình phải ngồi bóc lịch những 5 tháng. Như thế thì thà mình cũng nhận tội để chỉ phải ngồi tù 4 tháng còn hơn”. Rồi Giáp lại nghĩ, “nhưng ngộ nhỡ thằng At nó ngoan cường khơng khai thì mình nên thế nào nhỉ? Nếu nó khơng khai mà mình cũng khơng khai thì mình phải ngồi tù 1 tháng, nhưng mà nếu mình khai thì mình còn được tha bổng cơ mà. Như vậy tốt nhất là mặc kệ thằng At, mình cứ khai báo là hơn.” Như vậy, dù At có lựa chọn thế nào thì phương án tốt nhất đối với Giáp là khai nhận tội. Tương tự như vậy, dù At có lựa chọn thế nào thì phương án tốt nhất đối với Giáp là khai nhận tội. Nói cách khác, đối với cả Giáp và At thì chiến lược “khai nhận tội” là chiến lược áp đảo so với chiến lược “khơng khai”; ngược lại, chiến lược “khơng khai” là chiến lược bị áp đảo so với chiến lược “khai nhận tội.” Trong ví dụ này mỗi người chơi chỉ có hai chiến lược lựa chọn, và vì vậy chiến lược áp đảo cũng đồng thời là chiến lược tốt nhất. Trong những bài tốn có nhiều người chơi với khơng gian chiến lược lớn hơn thì để tìm ra điểm cân bằng của trò chơi, chúng ta phải lần lượt loại trừ tất cả các chiến lược bị áp đảo. Tuy nhiên đối với các trò chơi phức tạp điều này khơng đơn giản, và thậm chí ngay cả khi loại hết các chiến lược bị áp đảo rồi chúng ta vẫn chưa thể tìm được điểm cân bằng. Trong ví dụ trình bày ở Bảng 3, có hai người chơi, mỗi người có 3 lựa chọn. Sau khi loại hết các chiến lược bị áp đảo chúng ta vẫn chưa thể tìm được điểm cân bằng. Xuất phát từ hạn chế này của phương pháp loại trừ các chiến lược bị áp đảo, Nash đã đưa ra một khái niệm cân bằng mạnh hơn. Trái Giữa Phải Trái 0, 4 4, 0 5, 3 Giữa 4, 0 0, 4 5, 3 Phải 3, 5 3, 5 6, 6 Bảng 3: Loại trừ các chiến lược bị áp đảo và cân bằng Nash Trong ví dụ ở Bảng 3, cân bằng Nash duy nhất là (phải, phải) với kết cục là (6,6) nhưng nếu chỉ dùng phương pháp loại trừ các chiến lược bị áp đảo thì khơng thể kết luận được đâu là điểm cân bằng. Cân bằng Nash: Trong trò chơi dạng chuẩn tắc G = {S1, S2, …, Sn; u1, u2, …, un}, tổ hợp chiến lược (s*1, s*2, …, s*n) là một cân bằng Nash nếu, với mỗi một người chơi i nào đó, s*i (tức là chiến lược do người thứ i lựa chọn) là phản ứng tốt nhất của người chơi này đối với các chiến lược của (n-1) người chơi còn lại (s*1, s*2, …, s*i-1, s*i+1, …, s*n) (ký hiệu là s*-i). Nói cách khác, ui(s*i, s*-i) ≥ ui(si, s*-i). Về mặt tốn học, s*i là nghiệm của bài tốn tối ưu: *max ( , )ii iiiusssS−∈ Trong ví dụ của Giáp và Ất, điểm cân bằng của trò chơi là (“khai”, “khai”) trong đó Giáp và Ất cùng khai nhận tội, và đây cũng là cân bằng Nash duy nhất của trò chơi này. Lưu ý rằng vì cân bằng Nash được tạo bởi những chiến lược phản ứng tối của tất cả người chơi (ứng với các chiến lược tối ưu của những người chơi còn lại) nên nó có tính ổn định và bền vững về mặt chiến lược (strategically stable), đồng thời nó có tính chất tự chế tài (self-enforcement) – tức là mỗi người chơi, khi cực đại hóa lợi ích của mình, sẽ tự nguyện Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 - 2006 Vũ Thành Tự Anh 4tn thủ cân bằng Nash, đồng thời họ khơng hề có động cơ để di chuyển khỏi điểm cân bằng này. Sau khi dự báo được ứng xử của những người chơi khác thì mỗi người chơi chọn chiến lược (quyết định) để tối ưu hóa lợi ích của mình. Chiến lược (quyết định) này vì vậy được gọi là phản ứng tốt nhất (best response). Quay lai bài tốn của 2 người tù, như đã lập luận ở phần trên, “nhận tội” là phản ứng tốt nhất của cả Giáp và At, và phản ứng tốt nhất này khơng phụ thuộc vào hành động cụ thể của người kia (nhớ lại rằng “nhận tội” là chiến lược áp đảo) Một số ứng dụng của trò chơi tĩnh với thơng tin đầy đủ Ứng dụng 1: Độc quyền song phương Cournot (1838) Giả sử có 2 cơng ty hoạt động trong thị trường độc quyền song phương theo kiểu Cournot và cùng sản xuất một sản phẩm đồng nhất. Sản lượng của hai hãng lần lượt là q1 và q2. Tổng cung của thị trường vì vậy là Q = q1 + q2. Để đơn giản, giả sử hàm cầu có dạng tuyến tính: P(Q) = a – Q = a – (q1 + q2). Cuối cùng, giả sử rằng chi phí cận biên và chi phí trung bình của cả 2 hãng bằng nhau và bằng hằng số c, tức là: Ci(qi) = c.qi , trong đó c < a. Bài tốn của mỗi hãng là chọn sản lượng để tối đa hóa lợi nhuận • Bài tốn dạng chuẩn tắc: i) Số người chơi: 2 ii) Khơng gian chiến lược: Si = [0, a] iii) Kết quả Π1(q1, q2) = q1[P(Q) – c ] = q1 [ a – (q1 + q2) -c] Π2(q1, q2) = q2[P(Q) – c ] = q2 [ a – (q1 + q2) -c] • Định nghĩa cân bằng Nash: Cặp (s1*, s2*) là cân bằng Nash Ù u1(s1*, s2*) ≥ u1(s1, s2*) và u2(s1*, s2*) ≥ u2(s1*, s2) Ù 11*211),(maxSsssu∈ = Π(q1, q2) = q1[a –(q1 + q2*) -c] => q1 =2*2qca −− 3*2*1caqq−== 222*12),(maxSsssu∈ = Π(q1, q2) = q2[a–(q1* + q2) -c] => q2 =2*1qca −− và 9)(2*2*1ca −=Π=Π Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 - 2006 Vũ Thành Tự Anh 5 Hình 1: Cân bằng Nash của cạnh tranh độc quyền song phương Cournot Bây giờ xem xét trường hợp 2 cơng ty cấu kết với nhau và hoạt động như 1 cơng ty độc quyền. Khi ấy, chúng phải giải chọn Q sao cho: [0, ][() ] [ ]mQaMax Q P Q c Q a Q c∈Π= − = − − →12**** **122243mmmmQac ac acQqq qq−−−=⇒===<==, trong đó giả sử rằng hai hãng chia đơi sản lượng. Thay 22** * * * *1212 12() ()489mmac ac acqq−−−==⇒Π=Π=>=Π=Π; trong đó Π*1 và Π*2 là lợi nhuận của hai cơng ty khi chúng cạnh tranh với nhau theo kiểu Cournot. 4*2*1caqqmm−== < 3*2*1caqq−== 8)(2*2*1camm−=Π=Π > 9)(2*2*1ca −=Π=Π Từ những kết quả này có thể thấy rằng hai cơng ty có động cơ cấu kết với nhau để kiềm chế sản lượng và và chia sẻ lợi nhuận độc quyền. Một câu hỏi đặt ra ở đây là liệu thỏa thuận này có ổn định và có khả năng tự chế tài hay khơng? Tại điểm cân bằng của thị trường độc quyền (Em), độ co dãn của cầu với giá|Ed| > 1 Ù%∆Q/%∆P > 1, hay %∆Q > %∆P. Vì vậy nếu một doanh nghiệp tăng sản lượng 1 lượng đủ nhỏ thì mức giảm giá sẽ nhỏ hơn mức tăng sản lượng; điều này có nghĩa là doanh nghiệp tăng sản lượng sẽ có lợi và tất nhiên doanh nghiệp giữ cam kết sẽ bị thiệt. (a-c) (a-c)/2 (a-c)/3 q2 q1 (a-c)/3 (a-c) (a-c)/2 Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 - 2006 Vũ Thành Tự Anh 6a a/2 Q a/2 a (a-c)/2 MR Em Hình 2: Sự khơng bền vững của thỏa thuận cấu kết Một cách khác, chính xác hơn, để thấy rằng thỏa thuận cấu kết khơng có khả năng tự chế tài là sử dụng phép chứng minh bằng tốn. Ta biết: Π1 = q1[a – c – (q1 + q2)]. Bây giờ giả sử 4*22caqqm−== => ]4)(3.[111qcaq −−=Π 1111124)(34)(3qcaqqcadqd−−=−−−=Π Nếu 0411*11>∂Π∂⇒−==qcaqqm Như vậy, doanh nghiệp 1 có thể tăng Π1 bằng cách tăng q1. Trong khi ấy: Π*m2 = qm2[a – c – (q1 + qm2)] = 04)(341*21<Π⇒−−−dqdqcacam, tức là nếu doanh nghiệp 1 tăng q1 thì lợi nhuận của doanh nghiệp 2 sẽ giảm. Chúng ta có thể kết luận rằng nếu khơng có biện pháp chế tài đáng tin cậy thì thỏa thuận thơng đồng có nhiều khả năng bị phá vỡ một cách đơn phương hoặc song phương. Đây là 1 ví dụ khác về “thế lưỡng nan của người tù”. Ứng dụng 2: “Cha chung khơng ai khĩc” (Hardin 1968) Quay trở lại ví dụ thảo luận ở chương “Ngoại tc v hng hĩa cơng”. Bi tốn cĩ thể được trình by dưới dạng chuẩn tắc như sau: - Số người tham gia : n - Khơng gian chiến lược : {Si : 0 ≤ gi ≤ Gmax} - Kết quả : Vi = gi v(g1 + g2 + … + gi-1 + gi + gi+1 + … + gn) – cgi Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 - 2006 Vũ Thành Tự Anh 7Điều kin tối ưu (cho bi tốn của người thứ i) l: **()'()0iiiiivg g gv g g c−−++ +−= Cộng vế theo vế các điều kiện tối ưu ny cho n hộ gia đính, sau đó chia cả 2 vế cho n ta có: ***1() '() 0vG Gv G cn+−= Bây giờ giả sử quyết định về số bị chăn thả khơng phải l quyết định cá nhân của mỗi người m l quyết định tập thể của cả lng. Khi ấy bi tốn của cả lng l chọn G để tối đa hóa V, trong đó V = Gv(G) – Gc. Điều kiện tối ưu l : ** ** **() '() 0vG G v G c+−= R rng G* > G**, tức l số bị chăn thả khi quyết định có tính cá nhân lớn hơn số bị chăn thả khi quyết định mang tính chất tập thể. Hay nói cách khác, ti sản chung khi khơng được quản lý đúng đắn sẽ bị lợi dụng. Đy cũng lại l một ví dụ minh họa nữa của thế lưỡng nan. Chủ đề nâng cao: Chiến lược hỗn hợp4 Ví dụ: Trong tình huống đá phạt đền, thường thì thủ mơn phải phán đốn hướng sút của cầu thủ, còn cầu thủ phải phán đốn hướng bay của thủ mơn. Trong trường hợp người chơi có thể phán đốn trước chiến lược (hành động) của những người chơi khác thì có thể sẽ khơng có cân bằng Nash thuần túy (pure Nash strategy). Tuy nhiên trong những trường này chúng ta vẫn ln có thể tìm được cân bằng Nash hỗn hợp (mixed strategy). Cũng như trong bài tốn tìm cân bằng Nash bình thường (thuần túy), khi tìm cân bằng Nash hỗn hợp chúng ta cũng phải đi tìm phản ứng tốt nhất của mỗi người chơi ứng với phản ứng tốt nhất của những người chơi còn lại. Điểm khác biệt quan trọng là ở chỗ, khi tìm cân bằng Nash hỗn hợp, chúng ta cần sử dụng thơng tin có tính tiên đốn của những người chơi về ứng xử của những người chơi còn lại. Giả sử cầu thủ đốn trước là thủ mơn sẽ bay sang trái với xác suất là q, sang phải với xác suất là (1- q). Quy ước “phải”, “trái” ở đây là theo chiều sút của cầu thủ. Với niềm tin này, kết quả kỳ vọng của cầu thủ khi đá sang trái = q(-1) + (1- q)1 = 1 - 2q; còn kết quả kỳ vọng của cầu thủ khi đá sang phải = q + (1- q)(-1) = 2q –1 Như vậy, phản ứng tốt nhất của cầu thủ là: Nếu q > 1/2 => Phải Nếu q < 1/2 => Trái Nếu q = 1/2 => Bên nào cũng vậy Tương tự như vậy đối với thủ mơn: Giả sử thủ mơn dự đốn là cầu thủ đá sang trái với xác suất r, sang phải với xác suất (1-r). Với niềm tin này, kết quả kỳ vọng của thủ mơn 4 Chủ dề về cân bằng Nash hỗn hợp này liên quan trực tiếp đến việc chứng minh sự tồn tại của cân bằng Nash đối với các trò chơi tĩnh với thơng tin đầy đủ. Thủ mơn Trái Phải Trái -1 , 1 1 , -1 Cầu thủ Phải 1 , -1 -1 , 1 Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 - 2006 Vũ Thành Tự Anh 8khi bay sang trái = r(1) + (1- r)(-1) = 2r -1. Còn kết quả kỳ vọng của thủ mơn khi bay sang phải = r (-1) + (1- r)(1) = -2r +1. Như vậy, phản ứng tốt nhất của cầu thủ là: Nếu r > 1/2 => Trái Nếu r < 1/2 => Phải Nếu r = 1/2 => Bên nào cũng vậy Kết hợp hai phản ứng chiến lược ta có một điểm cân bằng Nash hỗn hợp duy nhất (r=1/2, q=1/2) được biểu diễn trong hình vẽ dưới đây: Hình 3: Cân bằng Nash hỗn hợp Ti liệu tham khảo Robert Gibbons (1992). “Game theory for applied economists.” Princeton University Press. qr Trái Phi1/2 1/2 Trái PhiChương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 – 2006 Phần 2 Vũ Thành Tự Anh 1 GIỚI THIỆU LÝ THUYẾT TRÒ CHƠI VÀ MỘT SỐ ỨNG DỤNG TRONG KINH TẾ HỌC VI MÔ Phần 2: Trò chơi động với thông tin đầy đủ Trò chơi động (dynamic game) diễn ra trong nhiều giai đoạn, và một số người chơi sẽ phải hành động ở mỗi một giai đoạn. Trò chơi động khác với trò chơi tónh ở một số khía cạnh quan trọng. Thứ nhất, trong trò chơi động, thông tin mà mỗi người chơi có được về những người chơi khác rất quan trọng. Như ở Phần 1 đã phân biệt, một người có thông tin đầy đủ (complete information) khi người ấy biết hàm thỏa dụng (kết cục - payoff) của những người chơi khác. Còn một người có thông tin hoàn hảo (perfect information) nếu như tại mỗi bước phải ra quyết đònh (hành động), người ấy biết được toàn bộ lòch sử của các bước đi trước đó của trò chơi. Thứ hai, khác với các trò chơi tónh, trong trò chơi động mức độ đáng tin cậy (credibility) của những lời hứa (promises) hay đe dọa (threats) là yếu tố then chốt. Và cuối cùng, để tìm điểm cân bằng cho các trò động, chúng ta phải vận dụng phương pháp quy nạp ngược (backward induction). Trò chơi động với thông tin đầy đủ và hoàn hảo Ví dụ 1: Một trò chơi tưởng tượng Thử tưởng tượng một trò chơi động với thông tin đầy đủ và hoàn hảo và có cấu trúc như hình vẽ. Tại mỗi nút hoặc A hoặc B phải ra quyết đònh. Không gian hành động của họ chỉ gồm hai khả năng: hoặc chọn trái (T), hoặc chọn phải (P). Những con số ở ngọn của các nhánh trong cây quyết đònh chỉ kết quả thu được của hai người chơi, trong đó số ở trên là kết quả của A. Để tìm điểm cân bằng của trò chơi này, chúng ta không thể bắt đầu từ giai đoạn đầu tiên, mà ngược lại, chúng ta sẽ dùng phương pháp quy nạp ngược, tức là bắt đầu từ giai đoạn cuối cùng của trò chơi. Lưu ý là phương án tối ưu cho người chơi thứ nhất là kết cục T”, ở đó A được 3 và B không được gì. Còn phương án tối ưu cho B là kết cục P”, trong đó B được 2 và A không được gì. Nhưng cả hai kết quả này đều sẽ không xảy ra. Tại sao vậy? Nếu trò chơi kéo dài đến giai đoạn 3 thì A chắc chắn sẽ chọn T” (vì 3 > 2). Còn nếu B được ra quyết đònh ở giai đoạn 2 và biết điều này chắc chắn sẽ không chọn P’ mà chọn B A AP T P’T’ T”P”2 0 1 1 3 0 2 2 Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 – 2006 Phần 2 Vũ Thành Tự Anh 2 T’ (vì 1 > 0). Và ở giai đoạn 1, A dự đoán trước được những hành động kế tiếp của cả hai người nên chắc chắn sẽ chọn T (vì 2 > 1).1 Bây giờ chúng ta quay lại thảo luận vấn đề mức độ tin cậy của lời hứa hẹn hay đe dọa. Giả sử trước khi bắt đầu chơi, A đề nghò với B như sau. Trong lần chơi đầu tiên anh nên chọn P. Nếu thế, khi đến lượt tôi thì tôi sẽ chọn P’, và rồi trong giai đoạn cuối cùng anh sẽ chọn P”để mỗi chúng ta cùng được 2. Liệu A có nên tin vào lời đề nghò (hứa hẹn) bằng miệng này của B hay không?2 Nếu đây là trò chơi xảy ra một lần và mục đích của mỗi người chơi đơn thuần chỉ là tối đa hóa lợi ích của mình thì câu trả lời hiển nhiên là không. Lý do là đến giai đoạn 2, B biết chắc là nếu A đổi ý và chọn T” thì anh ta sẽ không được gì, còn A sẽ được 3 (là kết cục tốt nhất của A). Lường trước điều này, B chỉ đợi A chọn P là sẽ chọn T’ để được 1. Đứng trước tình huống này, với những thông tin cho trước và nếu A là người duy lý thì chắc chắn A sẽ không dại gì nghe theo lời hứa hẹn ngon ngọt của B. Kết quả là A sẽ chọn T trong giai đoạn đầu tiên như chúng ta đã phân tích ở trên. Nói một cách ngắn gọn, những hứa hẹn và đe dọa trong tương lai mà không đáng tin cậy sẽ không hề có tác động gì, dù là nhỏ nhất, tới ứng xử của những người chơi trong giai đoạn hiện tại. Trong một phần khác, chúng ta sẽ nghiên cứu tình huống trong đó lời hứa/ đe dọa đáng tin cậy và do đó có ảnh hưởng đến hành vi của những người chơi ngay trong giai đoạn hiện tại. Ví dụ 2: Mô hình độc quyền song phương Stackelberg (1934) Nhớ lại trình tự thời gian của trò chơi này như sau: 1) Hãng 1 chọn sản lượng q1 ≥ 0 2) Hãng 2 quan sát q1 rồi sau đó chọn sản lượng q2 ≥ 0 3) Hai hãng sản xuất với sản lượng q1, q2 và lợi nhuận tương ứng là π1 và π2 π1(q1, q2) = q1[P(Q) – c] ; Q = q1 + q2 π2(q1, q2) = q2[P(Q) – c] ; P(Q) = a – Q = a – (q1 + q2) trong đó hằng số c là chi phí cận biên, đồng thời là chi phí trung binh của cả 2 hãng. Để tìm điểm cân bằng của trò chơi này, chúng ta lại áp dụng phương pháp quy nạp ngược bằng cách bắt đầu với hãng thứ 2. Đầu tiên chúng ta phải tìm hàm phản ứng tốt nhất của hãng 2 đối với quyết đònh sản lượng q1* của hãng thứ nhất trong giai đoạn 1 : Max π2(q1, q2) = q2[a – c –q1* - q2] => q2 = (a - c – q1*)/2 q2 ≥ 0 1 Để ý rằng phương pháp quy nạp ngược được sử dụng ở đây một cách dễ dàng là nhờ cấu trúc thông tin đầy đủ và hoàn hảo của bài toán (tưởng tượng) này. Trong các bài toán thực tế, cấu trúc thông tin thường phức tạp hơn nhiều. 2 Vì là hợp đồng miệng nên nó không thể bò chế tài nhờ trọng tài. Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 – 2006 Phần 2 Vũ Thành Tự Anh 3 Lưu ý rằng về mặt hình thức thì hàm phản ứng q2(q1*) ở đây giống như trong mô hình Cournot. Tuy nhiên, có một điểm khác biệt quan trọng là trong mô hình Cournot, q1* là một giá trò giả đònh, còn trong mô hình này, khi ra quyết đònh q2 hãng 2 đã quan sát được và biết giá trò của q1*. Vì đây là bài toán với thông tin đầy đủ và hoàn hảo nên hãng thứ nhất có thể đặt mình vào vò trí của hãng thứ hai và do vậy biết rằng nếu mình quyết đònh sản lượng là q1* thì hãng thứ hai sẽ sản xuất q2 = (a - c - q1*)/2. Vì vậy, trong giai đoạn 1, hãng thứ nhất sẽ chọn q1 sao cho Max π1(q1, q2(q1)) = q1[a - c – q1 – q2(q1)] = 211qcaq−− Lợi nhuận tương ứng là : 9)(16)(9)(8)(2*22*22*12*1cacacacacScS−=>−=−=>−=ππππ Câu hỏi đặt ra là tại sao hãng 1 có thể đạt được mức sản lượng và lợi nhuận tương đương với mức sản lượng và lợi nhuận độc quyền trong khi hãng 2 thậm chí còn không đạt được mức lợi nhuận trong độc quyền song phương Cournot? Câu trả lời không thuần túy chỉ nằm ở trình tự thời gian mà quan trọng hơn là do thông tin. Trong ví dụ này, cả hai hãng đều biết nhiều thông tin hơn so với trường hợp độc quyền song phương Cournot: Hãng 2 có thể quan sát quyết đònh về sản lượng của hãng 1, còn hãng 1 biết là hãng 2 biết sản lượng của mình. Tuy nhiên hãng 1 có thể sử dụng thông tin bổ sung này để làm lợi cho mình trong khi hãng 2 khi có thêm thông tin lại bò thiệt hại. Hay nói một cách chính xác hơn, việc hãng 2 làm cho hãng 1 biết là hãng 2 biết sản lượng của hãng 1 làm cho hãng 2 bò thiệt. Để thấy điều này, giả sử bằng một cách nào đó, hãng 2 gây nhiễu thông tin làm cho hãng 1 không biết được là liệu hãng 2 có biết sản lượng của mình hay không. Khi ấy, bài toán trở thành tương tự như với trường hợp độc quyền Cournot trong đó 2 bên quyết đònh sản lượng mà không hề biết sản lượng thực tế của bên kia (thông tin không hoàn hảo) Ví dụ 3: Mặc cả luân phiên (Rubinstein sequential bargaining) – xem bài đọc thêm. Trò chơi động với thông tin đầy đủ nhưng không hoàn hảo (xem bài đọc thêm) Trò chơi lặp lại (repeated games) Mục đích của tiểu mục này là xem xét liệu các đe dọa hay hứa hẹn tương lai đáng tin cậy ảnh hưởng thế nào tới hành vi hiện tại của những người chơi. 42*2*1caqcaq−=⇒−=⇒Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 – 2006 Phần 2 Vũ Thành Tự Anh 4 Ví dụ 1: Thế lưỡng nan trong trò chơi lặp hai giai đoạn Quay lại bài toán lưỡng nan của người tù được trình bày dưới dạng chuẩn tắc như trong bảng bên. Cân bằng Nash duy nhất là (không hợp tác, không hợp tác) và kết cục là (1, 1). Bây giờ giả sử trò chơi này (gọi là trò chơi giai đoạn – stage game) được lặp lại lần thứ hai, bảng kết quả được trình bày trong bảng dưới đây. Cân bằng Nash duy nhất vẫn là (không hợp tác, không hợp tác) và kết cục hợp tác vẫn không đạt được như là một điểm cân bằng Nhận xét: - Nếu trò chơi giai đoạn (stage game) chỉ có một cân bằng Nash duy nhất thì nếu trò chơi ấy được lặp lại nhiều lần thì cũng sẽ chỉ có một cân bằng Nash duy nhất, đó là sự lặp lại cân bằng Nash của trò chơi giai đoạn. - Rõ ràng là nếu trò chơi này được lặp lại nhiều lần thì thiệt hại từ việc không hợp tác sẽ rất lớn. Câu hỏi đặt ra là liệu có cách nào để thiết lập sự hợp tác hay không? Ở đây chúng ta tạm thời không quan tâm tới khía cạnh đạo đức và lương tâm của mỗi người chơi mà chỉ xem xét thuần túy về động cơ kinh tế của họ. Ví dụ 2: Thế lưỡng nan trong trò chơi lập vónh viễn Bây giờ giả sử trò chơi được lập lại một cách vónh viễn. Chúng ta sẽ xem xét khả năng một đe dọa hay hứa hẹn tương lai đáng tin cậy ảnh hưởng thế nào tới hành vi hiện tại của những người chơi? Nhớ lại công thức tính hiện giá của thu nhập, trong đó một người nhận được π1 trong giai đoạn 1, π2 trong giai đoạn 2 v.v. Tổng thu nhập của người đó tính theo giá hiện tại là ΣPV = π1 + δπ2 + δ2π3 + …; trong đó δ là nhân tố chiết khấu (discount factor). Bây giờ chúng ta sẽ chứng minh rằng ngay cả khi trò chơi giai đoạn chỉ có một cân bằng Nash duy nhất thì vẫn có cách để buộc những người chơi duy lý hợp tác với nhau, với điều kiện δ đủ lớn. Cách thức để đạt được sự hợp tác này là thực hiện chiến lược “trừng phạt” (trigger strategy) mà thực chất là một lời đe dọa trả đũa đáng tin cậy đối với những hành vi vi phạm hợp đồng. Chiến lược trừng phạt này được thực hiện như sau: Người 1 Không hợp tác Hợp tác Không hợp tác 1 , 1 5 , 0 Người 2 Hợp tác0 , 5 4 , 4 Người 1 Không hợp tác Hợp tác Không hợp tác 2 , 2 6 , 1 Người 2 Hợp tác1 , 6 5 , 5 Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 – 2006 Phần 2 Vũ Thành Tự Anh 5 - Trong giai đoạn 1, chọn “hợp tác” - Trong giai đoạn t, tiếp tục chọn “hợp tác” chừng nào trong (t-1) giai đoạn trước người kia cũng chọn “hợp tác” - Chuyển sang chơi “không hợp tác” nếu trong giai đoạn (t-1), người kia phá bỏ hợp đồng chơi “hợp tác” Giả sử trong suốt (t-1) giai đoạn đầu tiên, cả hai người chơi đều tuân thủ thỏa ước và chọn “hợp tác”. Nhưng tại giai đoạn thứ t, một người toan tính việc vi phạm thỏa ước vì thấy cái lợi trước mắt. Khi ấy, người này phải so sánh 2 giá trò thu nhập kỳ vọng của hợp tác và không hợp tác. Nếu trong giai đoạn t người ấy không hợp tác thì người ấy được 5, và từ (t+1) trở đi người kia sẽ chọn không hợp tác để trừng phạt người này, và khi ấy phản ứng tốt nhất tương ứng của người này cũng sẽ là không hợp tác. Như vậy, tổng giá trò kỳ vọng thu nhập của người ấy theo hiện giá là: (1) Khả năng thứ 2 là người ấy tiếp tục chọn hợp tác. Khi ấy, tổng thu nhập của anh ta theo hiện giá sẽ là: (2) So sánh (1) và (2) ta thấy δδδ−+≥−⇔≥1514CCPVPV <=> 4 ≥ 5(1-δ) + δ = 5 -4δ <=> δ ≥ 1/4 Như vậy, nếu δ ≥ 1/4 thì chiến lược trừng phạt là một cân bằng Nash. Nói cách khác, với δ đủ lớn (tức là những người chơi chiết khấu tương lai đủ ít) thì khi theo đuổi mục tiêu vò kỉ là tối đa hóa lợi ích của mình thì tất cả người chơi đều có động cơ tôn trọng thỏa ước hợp tác. Ví dụ 3: Trở lại với độc quyền song phương Cournot Chúng ta đã biết rằng trong trường hợp độc quyền song phương Cournot: qc1* = qc2*=(a-c)/3 và do vậy QC* = 2(a-c)/3 > Qm* = (a-c)/2 ( = mức tổng cầu khi hai doanh nghiệp cấu kết lũng đoạn thị trường độc quyền). Như vậy, hai hãng này có thể ]15[ 1.1.5.111δδδδδδ−+=+++=−+−tCtttCPVPVδδδδδ−+=+++=−+−14 4.4.4.111tCtttCPVPVChương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 – 2006 Phần 2 Vũ Thành Tự Anh 6 áp dụng chiến lược trừng phạt để đạt được sự hợp tác trong sản xuất. Để kiểm tra lại mức độ hiểu các nội dung trình bày ở ví dụ 2, chúng ta có thể làm một bài tập nhỏ sau. Giả sử trò chơi Cournot này được lặp lại mãi mãi, hãy tìm giá trò tối thiểu của δ để giải pháp hợp tác là một cân bằng Nash (SPNE)? Chiến lược trừng phạt như sau: - Bắt đầu chơi bằng việc chọn mức sản lượng Qm/2* (=(a-c)/4) trong giai đoạn 1 - Nếu trong (t-1) giai đoạn đầu tiên, bên kia chọn Qm/2* thì tiếp tục chọn Qm/2*. Bằng không thì chuyển sang Qc/2* (= (a-c)/3) mãi mãi. Giả sử ở giai đoạn t, hãng 1 toan tính chuyện phá vỡ thỏa ước ban đầu. Hãng này biết là hãng 2 sẽ chuyển sang chọn q2* = qc2* kể từ giai đoạn thứ (t+1). Vì vậy, hãng 1 đứng trước hai lựa chọn: - Phá vỡ thỏa ước: )( 2111+++=+++=−+−CCdtCtCtdtCπδδππδπδπδπδπ )1(1CdtCπδδπδπ−+=− Nếu hãng 2 tiếp tục chọn hợp tác trong giai đoạn t, tức là tiếp tục chọn q2* = Qm/2* = (a - c)/4 thì qd1* sẽ max qd1[a - c - qd1 – (a-c)/4] => qd1* = 3(a-c)/8 => πd = 9(a- c)2/64 - Tôn trọng thỏa ước: 11+++=+−mtmtmtCπδπδπδπ δπδπ−=−11mtC So sánh CCππ≥ : Một lần nữa chúng ta lại thấy là nếu δ đủ lớn (tức là những người chơi chiết khấu tương lai đủ ít) thì khi theo đuổi mục tiêu vò kỉ là tối đa hóa lợi nhuận của mình thì hai công ty cùng có động cơ tôn trọng thỏa ước hợp tác. 179178164)1(8172964)1(9819)(164)(9)1(8)(11222≥⇔−=+−≥⇔+−≥⇔−−+−≥−−⇔−+≥−⇔δδδδδδδδδπδδπδπcacacaCdmChương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi Niên khóa 2005 – 2006 Phần 2 Vũ Thành Tự Anh 7 Tài liệu tham khảo Robert Gibbons, “Game Theory for Applied Economists”, Princeton University Press, 1992