Khái quát về AI và phương pháp máy học
Theo nghĩa rộng, máy học bao gồm một bộ kỹ thuật được thiết kế để chiết xuất thông tin từ các dữ liệu, cụ thể là nhằm mục tiêu đưa ra các dự báo. Máy học được coi là sự phát triển vượt bậc về kỹ thuật kinh tế lượng và thống kê truyền thống, mặc dù nó không lệ thuộc vào mô hình được chỉ định trước hay giả thuyết thống kê như tiêu chuẩn hay tuyến tính. Quá trình điều chỉnh mô hình máy học với dữ liệu được gọi là đào tạo. Trong đó, tiêu chí để đào tạo thành công là khả năng dự báo kết quả về những dữ liệu chưa từng xảy ra trước đó, không liên quan đến cách thức dự báo của các mô hình.
Phương pháp hình cây là thuật toán máy học linh hoạt, có thể xử lý hàng loạt công việc. Phương pháp này nhóm các điểm dữ liệu cá nhân bằng cách phân vùng liên tiếp các dữ liệu vào các lĩnh vực nhỏ hơn theo đặc điểm lợi ích cụ thể. Thí dụ, hình cây phân loại các căn nhà thành nhóm có trên 3 phòng và tối đa ba phòng, sau đó phân loại thành các nhóm nhà ở được xây dựng trước và sau năm 1990, v.v. Sau đó, có thể so sánh kết quả phân loại nhà với quy mô lợi ích (đầu ra) để xác định mức độ đáp ứng đặc điểm của lợi ích. Chẳng hạn, việc thâu tóm các yếu tố dẫn đến sự khác biệt về giá nhà ở giữa các nhóm nhỏ có thể trở thành phương pháp phân nhóm các căn nhà có mức giá tương tự nhau.
Phương pháp hình cây là thuật toán máy học linh hoạt, có thể xử lý hàng loạt công việc. Phương pháp này nhóm các điểm dữ liệu cá nhân bằng cách phân vùng liên tiếp các dữ liệu vào các lĩnh vực nhỏ hơn theo đặc điểm lợi ích cụ thể. Thí dụ, hình cây phân loại các căn nhà thành nhóm có trên 3 phòng và tối đa ba phòng, sau đó phân loại thành các nhóm nhà ở được xây dựng trước và sau năm 1990, v.v. Sau đó, có thể so sánh kết quả phân loại nhà với quy mô lợi ích (đầu ra) để xác định mức độ đáp ứng đặc điểm của lợi ích. Chẳng hạn, việc thâu tóm các yếu tố dẫn đến sự khác biệt về giá nhà ở giữa các nhóm nhỏ có thể trở thành phương pháp phân nhóm các căn nhà có mức giá tương tự nhau.
Liên quan đến máy học, các mạng lưới nơ ron có thể là kỹ thuật quan trọng nhất, với sự sử dụng rộng rãi thậm chí cho các mô hình thế hệ mới nhất. Các khối xây dựng chủ yếu của nó là các tế bào thần kinh nhân tạo, sử dụng các giá trị đầu vào đa dạng và chuyển đổi thành phương pháp phi tuyến tính sang đầu ra bằng con số đơn lẻ - như hồi quy lôgic. Các nơ ron thần kinh nhân tạo được tổ chức để tạo ra trình tự các lớp có thể xếp thành từng cụm: lớp thứ nhất có tác dụng đưa các dữ liệu đầu vào và đầu ra thành giá trị kích hoạt. Sau đó, các lớp tiếp theo chuyển dữ liệu đầu ra của lớp trước đó thành đầu vào và chuyển đổi thành đầu ra (giá trị khác), và tiếp tục. Theo phương pháp này, tương tự như tế bào thần kinh trong não người, giá trị đầu ra của tế bào thần kinh nhân tạo giống như xung lực điện tử truyền tải sang những tế bào thần kinh khác. Độ sâu của mạng liên quan đến số lượng các lớp. Sự bất biến và khối lượng của mỗi tế bào thần kinh liên quan tới đầu ra của những lớp trước đó thu thập được và gọi là các tham số, nó quyết định cường độ kết nối giữa các tế bào thần kinh và các lớp. Những tham số này được củng cố bằng cách lặp đi lặp lại trong quá trình luyện tập. Những mạng sâu hơn với nhiều tham số đòi hỏi nhiều dữ liệu tập huấn hơn, nhưng sẽ đưa ra dự báo chính xác hơn. Trong thời gian gần đây, các mạng nơ ron phía sau sự nhận dạng khuôn mặt hoặc giọng nói hỗ trợ trên điện thoại di động và là nền tảng đổi mới quan trọng nhất về AI.
Từ năm 2017, các công cụ biến đổi đã cải thiện rõ rệt hiệu suất của các mạng lưới nơ ron trong quy trình xử lý ngôn ngữ tự nhiên (NLP) và tạo điều kiện để gia tăng những mô hình ngôn ngữ lớn hơn (LLMs). Các công cụ biến đổi cố gắng thâu tóm mối quan hệ giữa các cấu thành khác nhau của trình tự bài khóa, ngay cả khi khác xa về câu chữ. Điều này cho phép mô hình hiểu rõ hơn ngữ cảnh, và vì thế mỗi từ có thể có nhiều nghĩa khác nhau.
LLMs là nền tảng thúc đẩy AI tạo sinh (gen AI), nó tạo ra nội dung dựa trên các câu lệnh thích hợp, và có thể thực hiện các nhiệm vụ vượt xa sự nhận diện ngôn ngữ. LLMs là các mạng nơ ron, được tập huấn để dự báo từ ngữ tiếp theo trong trình tự bài khóa cho trước. Để thực hiện nhiệm vụ này, LLMs học cách hấp thụ tất cả các kiến thức viết dựa trên những gì được đào tạo. Kết quả là, dự báo của nó khá chính xác thậm chí đối với những bài khóa đòi hỏi sắc thái hay kiến thức chuyên ngành. LLMs có thể được tinh chỉnh cho những nhiệm vụ với các dữ liệu chuyên dụng. Thí dụ, ChatGPT (một loại AI cho phép người dùng tương tác với trợ lý ảo - chatbot - bằng ngôn ngữ tự nhiên) dựa trên LLM được chiết xuất với phản hồi của con người để tạo ra những phản ứng có ích. Gen AI có các đặc điểm chủ chốt có thể được sử dụng không chỉ bởi nhóm chuyên môn hẹp, mà cả bởi hầu hết mọi người, và vì thế nó có thể chiết xuất dễ dàng từ các dữ liệu phi cấu trúc.
Máy học và AI tại NHTW: Các tình huống áp dụng
Thu thập thông tin
Đối với các NHTW, việc đảm bảo đầy đủ các dữ liệu chất lượng cao làm đầu vào trong phân tích kinh tế và soạn thảo thống kê là thách thức chủ yếu. Vấn đề này bao gồm, làm sạch dữ liệu, mẫu và đại diện dữ liệu, phù hợp hóa các dữ liệu mới với nguồn dữ liệu hiện có.
Để cung cấp dữ liệu vi mô chất lượng cao, các NHTW đang tăng cường sử dụng kỹ thuật máy học. Do khả năng mở rộng và xác định các dữ liệu ngoại lai bất chấp loại hình phân bổ dữ liệu, việc cô lập các khu rừng được cho là phù hợp nhất đối với các bộ dữ liệu lớn và cụ thể. Ở đây cũng có lợi ích đối với cách tiếp cận hai bước: Ban đầu, mô hình tự quản xác nhận các dữ liệu ngoại lai tiềm tàng, sau đó các chuyên gia sẽ rà soát và đưa ra ý kiến phản hồi để tinh lọc thuật toán. Tiếp cận này cân bằng giá trị kiến thức trên miền với chi phí nhân lực đầu vào. Bằng cách phân tích các phương pháp khác nhau để diễn giải phân loại dữ liệu ngoại lai, cách tiếp cận này có thể khắc phục vấn đề “hộp đen” mà các mô hình máy học chưa giải thích được. Hơn nữa, các phương pháp máy học có khả năng giải thích cung cấp các chuyên gia hướng dẫn những điểm dữ liệu bảo đảm việc kiểm chứng thủ công.
Phân tích tài chính và kinh tế vĩ mô để hỗ trợ chính sách tiền tệ
Các NHTW ngày càng lệ thuộc vào các phân tích tài chính và kinh tế vĩ mô để hỗ trợ điều hành chính sách tiền tệ. Trong môi trường phức tạp, một thách thức rất lớn là chiết xuất thông tin một cách hiệu quả từ nhiều nguồn dữ liệu truyền thống và phi truyền thống, mà máy học đưa ra các công cụ có giá trị trong lĩnh vực này.
Thí dụ, các mạng lưới nơ ron có thể phân tách lạm phát giá dịch vụ thành những cấu phần khác nhau, khám phá mức lạm phát do tăng giá trong quá khứ, kỳ vọng lạm phát, chênh lệch đầu ra hoặc giá cả quốc tế. Những mô hình như vậy có thể xử lý nhiều biến số đầu vào hơn so với các mô hình kinh tế lượng truyền thống, cho phép các NHTW sử dụng các bộ dữ liệu chi tiết thay vì dữ liệu tổng thể hơn. Thuận lợi khác là khả năng của các mạng nơ ron trong việc phản ánh các phi tuyến tính phức tạp trong các dữ liệu, có thể giúp các chuyên gia mô hình thâu tóm các phi tuyến tính một cách tốt hơn, từ mức gần bằng không đến việc nắm giữ tài sản không đồng đều và chuyển vào động lực lạm phát.
Trường hợp khác là, đạt được các ước lượng theo thời gian thực về kỳ vọng lạm phát hay tóm tắt điều kiện kinh tế theo thời gian. Thí dụ, các mô hình khu rừng ngẫu nhiên có thể nhận biết các bưu điện truyền thông xã hội có quan hệ về giá cả và đưa vào mô hình khu rừng ngẫu nhiên khác nó phân chia mỗi bưu điện dẫn đến lạm phát, giải phát hay những kỳ vọng khác. Sự khác biệt trong tính toán hàng ngày của các bưu điện truyền thông xã hội về lạm phát cao so với lạm phát thấp sẽ đánh giá kỳ vọng lạm phát. Tương tự, các bưu điện truyền thông xã hội có thể được sử dụng để ghi chép mức độ tín nhiệm của cộng đồng đối với chính sách tiền tệ của NHTW.
Thí dụ khác là sử dụng LLMs nguồn mở đã thanh lọc về các bản tin tài chính để tóm tắt các thuyết minh về điều kiện kinh tế trong dài hạn. Các mô hình có thể xử lý các bài khóa vặt vãnh (giai thoại) từ phỏng vấn các doanh nghiệp, chuyên gia kinh tế và thị trường để tạo ra các dãy thời gian về giá trị cảm nhận. Sau đó, chỉ số cảm nhận có thể được dùng để nowcast GDP hay dự báo suy thoái.
Giám sát hệ thống thanh toán
Hệ thống thanh toán vận hành tốt là nền tảng cho ổn định hệ thống tài chính, nhưng với khối lượng dữ liệu giao dịch khổng lồ và phân phối lệch tăng cao, đặt ra những thách thức trong việc phân biệt các giao dịch bất thường khỏi giao dịch chính quy. Cần xác định chính xác những khoản thanh toán bất thường nhằm xử lý các vấn đề như nguy cơ đổ vỡ ngân hàng, rửa tiền, tấn công mạng và tội phạm tài chính.
Đề án Đổi mới Hub Aurora của BIS sử dụng các dữ liệu tổng hợp về rửa tiền để đối chiếu với việc nhận dạng thanh toán gian lận bằng các mô hình máy học và mô hình truyền thống. Trong đó, những mô hình bao gồm các cánh rừng biệt lập và mạng nơ ron trải qua đợt tập huấn về các giao dịch rửa tiền tổng hợp và sau đó dự báo xác suất rửa tiền trong các dữ liệu mới. Các mô hình máy học hoàn thành tốt hơn các phương pháp dựa trên quy tắc phổ biến tại hầu hết các nước hoặc hồi quy lôgic truyền thống. Biểu đồ mạng nơ ron sử dụng các mối quan hệ thanh toán làm đầu vào đã nhận dạng rất chính xác những mạng giao dịch đáng ngờ. Thậm chí, những mô hình này có thể hoạt động hiệu quả với các dữ liệu phối hợp bảo vệ bí mật và cho thấy, phối hợp và cùng phân tích các cơ sở dữ liệu đa dạng có thể an toàn và có lợi, là bằng chứng về tiềm năng mở rộng hợp tác giữa các cơ quan có thẩm quyền.
Cách tiếp cận khác về giám sát các giao dịch thanh toán bao gồm việc sử dụng các mô hình học tập không giám sát cho các giao dịch lựa chọn tự động, được đánh giá là sát với kiểm chứng. Thí dụ, các mô hình mã hóa tự động, các mạng nơ ron mà các lớp đầu vào và đầu ra nhằm vào những dữ liệu giống nhau, phân biệt các loại hình thanh toán với thanh toán bất thường và có thể phát hiện những động lực phi tuyến như rút tiền ồ ạt khỏi ngân hàng. Khi mô phỏng, những mô hình này nhận dạng hiệu quả các mẫu rút tiền gửi đáng kể từ ngân hàng trong thời gian vài ngày. Các mô hình mã hóa tự động cũng đã nhận dạng hàng loạt dấu hiệu bất thường trong các hệ thống thanh toán, kể cả gián đoạn hoạt động giữa các ngân hàng lớn ở trong nước.
Giám sát và ổn định tài chính
Các cơ quan giám sát đã phân tích hàng loạt nguồn dữ liệu rộng lớn để giám sát hiệu quả các định chế tài chính, những nguồn dữ liệu này bao gồm các tài liệu văn bản như bản tin, tài liệu liên ngân hàng hay đánh giá giám sát. Việc chuyển dịch thông qua những thông tin này để chiết xuất những dữ liệu rõ ràng liên quan có thể phải mất nhiều thời gian, và gần như không thể vượt qua được nếu khối lượng dữ liệu tăng lên không ngừng. Hơn nữa, những phân tích liên quan đến khí hậu và rủi ro mạng đã trở thành giám sát ưu tiên, nhưng còn thiếu vắng hạ tầng dữ liệu tổng hợp tại những điểm có nhiều rủi ro truyền thống.
Một xu hướng mà các NHTW đã theo đuổi là hợp nhất các thông tin vào một địa điểm và hỗ trợ phân tích giám sát các dữ liệu phi cấu trúc. Thí dụ, các mô hình tự thanh lọc về nội dung giám sát cùng với kỹ thuật NLP có thể phân loại các tài liệu công và tài liệu giám sát, tiến hành các phân tích về cảm nhận và nhận dạng chiều hướng của các chủ đề, như đã tiến hành trên nền tảng Athena của ECB. Các mô hình tập huấn về bài khóa lớn kết hợp với từ vựng (do các chuyên gia xác định) trong những từ và mệnh đề thích hợp cũng có thể hỗ trợ cho việc tự động phát hiện những trường hợp ngoại lệ chứa đựng thông tin về những rủi ro khác nhau. Những mô hình như vậy, chẳng hạn LEX của Fed, đã tạo thuận lợi cho các cơ quan giám sát tiếp cận thông tin thích hợp nằm rải rác giữa hàng triệu tài liệu và giảm bớt thời gian rà soát đưa ra xem xét. Các mô hình phân loại, kỹ thuật đòn bẩy hình cây hay các mạng nơ ron, cũng có thể giúp nhận dạng khách hàng vay cá nhân mà bên vay đánh giá thấp thiệt hại tín dụng tiềm tàng, đây là nhiệm vụ mà NHTW Brazil đã tạo ra ADAM. Những mạng nơ ron bao gồm các lớp đầu của mạng tập huấn có thể tăng cường khả năng nhận dạng những người vay có mức lỗ kỳ vọng khá cao. Sau đó, các cơ quan giám sát có thể yêu cầu các định chế tài chính phải cung cấp những rủi ro chưa được đề phòng đầy đủ.
Cân bằng các cơ hội và thách thức
Thách thức chung là mâu thuẫn giữa độ chính xác và khả năng diễn giải, mà các mô hình máy học tinh tế có thể được đánh giá là gần như hoàn hảo về dự báo. Tuy nhiên, do nhiều biến số tác động lẫn nhau theo cách thức phức tạp và phi tuyến, rất khó diễn giải những khác biệt cơ bản giữa các biến số đầu vào và kết quả. Vì thế, dự báo tốt có thể hình thành với chi phí chấp nhận được, đó là mô hình “hộp đen”. Mô hình này có thể tạo ra thách thức khi đánh giá các thiên kiến trong toán học, nhất là khi nó được tập huấn trên các bộ dữ liệu chệch hướng. Khả năng diễn giải hạn chế tiếp tục cho thấy, rất khó giải thích mô hình thói quen của con người, thí dụ tại sao lạm phát được dữ báo sẽ tăng cao hay tại sao đơn xin vay cầm cố bị từ chối. Đối với các mô hình AI tạo sinh, vấn đề này còn đi xa hơn, khi nó vấp phải “vấn đề ảo giác”. Những mô hình này có thể đại diện cho câu trả lời không chính xác như thể đã trả lời chính xác. Vấn đề ảo giác cho thấy, LLMs cần sự giám át của con người, nhất là trong những nhiệm vụ đòi hỏi dẫn chứng lôgic.
Đối với các NHTW, việc sử dụng các dữ liệu phi cấu trúc có thể đưa ra thông tin có giá để xử lý những vấn đề hắc búa trước đó. Việc chuyển đổi thủ công các dữ liệu phi cấu trúc (cụ thể là bài khóa) sang dữ liệu cấu trúc đòi hỏi phải có thời gian, do lỗi của con người và không khả thi ở quy mô lớn. Như đã được sáng tỏ tại những thí dụ trên đây, LLMs có thể giúp các NHTW phân tích các dữ liệu văn bản rộng lớn như hoạt động truyền thông xã hội, bản tin tài chính hay báo cáo của NHTW.
Tuy nhiên, việc sử dụng các dữ liệu cá nhân nguồn mở và phi cấu trúc đặt ra những thách thức mới về khung khổ pháp lý và dữ liệu riêng tư. Theo truyền thống, phần lớn dữ liệu được thu thập và lưu trữ trong các thể chế công với quy định rõ ràng về quyền tiếp cận và quy trình đảm bảo chất lượng dữ liệu. Nhưng hiện nay, những dải dữ liệu rộng lớn được các cá nhân, doanh nghiệp tạo ra và cư trú trong khu vực tư nhân, đôi khi với rất ít bằng chứng công khai. Việc tập huấn hoặc LLMs tinh lọc có thể đòi hỏi những khối lượng đáng kể dữ liệu, được cho là có thể thu được bằng cách sử dụng trang web để trích xuất thông tin từ các nền tảng thị trường hay truyền thông xã hội, nhưng khung khổ pháp lý thường không rõ ràng về mục tiêu sử dụng. Độ tin cậy của các dữ liệu cá nhân phi cấu trúc cũng làm dấy lên những lo ngại về đạo đức và quyền riêng tư. Các công dân có quyền riêng tư và có thể cảm thấy khó chịu khi các NHTW xem xét kỹ lưỡng các dữ liệu của họ. Trong khi công nghệ củng cố quyền riêng tư cải thiện không ngừng, thì đây không phải là thất bại trong các mô hình AI.
Việc tăng cường sử dụng AI cũng có thể đòi hỏi các NHTW phải tăng đầu tư phát triển IT và nguồn nhân lực, song việc thuê lao động mới hoặc tái đào tạo lực lượng lao động hiện có về kỹ năng lập trình và kiến thức kinh tế có thể là thách thức: nhu cầu rất lớn về nguồn lực này, và các định chế công thường không thể theo kịp mức thù lao mà các doanh nghiệp tư nhân chi trả cho top chuyên gia dữ liệu.
Tuy nhiên, theo thời gian, những khoản đầu tư này sẽ thúc đẩy tăng năng suất lao động. Trong đó, việc sử dụng máy học và AI có thể sẽ tăng đág kể năng suất lao động - cụ thể là trong những công việc tốn nhiều thời gian và đòi hỏi kinh nghiệm như tóm tắt và chiết xuất thông tin từ văn bản. Thí dụ, các hệ thống AI có thể hoạt động “hỗ trợ” các nhóm giám sát bằng cách học hỏi từ sự kết hợp các dữ liệu điều chỉnh, trước khi tiến hành giám sát và mở rộng phát triển thị trường. AI cũng có thể cải thiện phân tích bằng cách giải phóng thời gian của các chuyên gia kinh tế trong việc diễn giải dữ liệu hơn là thu thập và làm sạch dữ liệu. Tuy nhiên, AI không làm con người bị vô dụng. Việc kết hợp thông tin phản hồi của chuyên gia có thể cải thiện các mô hình và giảm thiểu vấn đề ảo giác. Kinh nghiệm kinh doanh của đội ngũ lao động đóng góp cho việc xác định địa điểm mà các mô hình bổ sung nhiều giá trị nhất cũng như phương cách thích ứng nó với những nhiệm vụ cụ thể của NHTW.
Cuối cùng, sự phát triển LLMs và AI tạo sinh đang thay mới những vấn đề về sự phụ thuộc vào một số nhà cung cấp bên ngoài. Các nền kinh tế chủ chốt và quy mô lớn cho thấy, các mô hình sáng lập hùng mạnh nhất đang được cung cấp bởi một vài tập đoàn công nghệ lớn. Bên ngoài những rủi ro cơ bản mà thị trường tập trung đòi hỏi phải đổi mới và tăng cường tính năng động của nền kinh tế, việc tăng cường tập trung các nguồn lực có thể tạo ra rủi ro đáng kể về bất ổn tài chính. Thí dụ, sự lệ thuộc lớn vào LLMs và AI tạo sinh của một vài tập đoàn làm cho hệ thống tài chính dễ bị rủi ro lan truyền từ những thất bại IT hoặc tấn công mạng vào những nhà cung cấp này. Sự cố giữa các nhà cung cấp cũng có thể dẫn đến rủi ro hoạt động đối với NHTW và ảnh hưởng đến khả năng hoàn thành nhiệm vụ, đòi hỏi phải tăng cường phối hợp giữa NHTW và những cơ quan có thẩm quyền khác.
Tóm lại, nếu có sự hỗ trợ chính sách chặt chẽ về phân tích các dữ liệu cấu trúc và phi cấu trúc, nghiệp vụ NHTW hoàn toàn phù hợp với các ứng dụng của kỹ thuật máy học. Trong đó, tính đồng bộ giữa máy học và các nguyên tắc cốt lõi về hoạt động của NHTW như kinh tế học, thống kê học, kinh tế lượng sẽ đặt các NHTW vào vị thế tiên phong của tiến bộ về AI.
Hoàng Thế Thỏa
Nguồn tham khảo: BIS tháng 01/2024.