Google: Ra mắt Hệ thống Dịch thuật dùng Trí tuệ Nhân tạo

Bài Viết

Chuyên gia / Người dịch / Kiến thức / Chia sẻ / Tin tức

Mặc dù Google Dịch đang là một trong những công cụ dịch ngôn ngữ mạnh nhất, phía Google cho rằng họ vẫn có thể nâng cấp thêm nữa. Hiện giờ họ đang nỗ lực để đạt được mục tiêu tạo ra một mô hình có thể tự động dịch các cụm từ từ ngôn ngữ này sang ngôn ngữ khác. Giống như tất cả các sản phẩm khác, Google đã và đang cố gắng tích hợp các kỹ thuật dịch bằng ‘máy học’ (machine learning) vào hệ thống này. Và đến nay, cuối cùng chúng ta cũng có thể nhìn thấy mô hình đó được đưa vào thực tiễn.

Trong tháng 9 năm 2016, Google Neural Machine Translation system (tạm dịch là: Hệ thống Dịch thuật dùng Trí tuệ Nhân tạo của Google), hay GNMT, hệ thống sử dụng các kỹ thuật đào tạo tân tiến cho những bản dịch cải thiện, đã được ra mắt cho một trong những cặp ngôn ngữ khó nhất: tiếng Trung Quốc sang tiếng Anh. Hãy xem xét sơ lược những mô hình máy học phức tạp này, và cách mà chúng khiến những bản dịch phức tạp trở nên dễ dàng hơn.

Dù các thuật toán dịch máy dựa trên cụm từ được sử dụng làm cốt lõi cho dịch vụ dịch thuật, độ phức tạp trong các thuật toán đã được tăng lên. Đối với những người không biết, dịch máy dựa trên cụm từ (phrase-based machine translation: PBMT) chia nhỏ câu đầu vào thành các từ và cụm từ tương ứng và tiến hành dịch độc lập. Mỗi từ trong câu đầu vào trước tiên sẽ được chia nhỏ và dịch, trước khi được ghép lại để tạo thành câu đầu ra cuối cùng.

Tuy nhiên, giờ đây nhóm nghiên cứu đã bắt đầu cải thiện điều đó bằng Mạng Nơron Hồi quy (Recurrent Neural Networks: RNN) để ngay lập tức hiểu được sự sắp đặt (hoặc kết nối) giữa chuỗi đầu vào và đầu ra. Điều này đưa chúng ta đến với kỹ thuật quan trọng nhất tiếp theo – kỹ thuật đang được sử dụng trong bản phát hành hiện tại – Dịch thuật dùng Trí tuệ Nhân tạo (Neural Machine Translation: NMT).

Tất cả chúng ta có thể đều đồng ý với thực tế là chúng ta sẽ mất nhiều công tính toán hơn để phân tích cú pháp cho câu phức – và thậm chí là nhiều hơn nữa cho một ngôn ngữ phức hợp như tiếng Trung Quốc. Và đây là lúc mà hệ thống NMT mới được nâng cấp của Google bắt đầu đạt hiệu quả.

gnmt_h1

NMT sẽ coi toàn bộ câu đầu vào là một đơn vị dịch thuật và do đó yêu cầu ít lựa chọn thiết kế kỹ thuật hơn so với PBMT. Nhóm nghiên cứu đã nâng cấp khả năng của NMT để làm việc trên các tập dữ liệu rất lớn, và cung cấp các bản dịch đủ nhanh chóng và chính xác cho người dùng và dịch vụ của Google.

GNMT cải tiến dựa trên sự nhận biết các chữ hiếm (hoặc không phổ biến) – mà trước đây nó đã không xử lý được – bằng cách tiếp tục chia chúng thành các khối nhỏ hơn và xử lý chúng như những bản dịch riêng biệt.

Thời gian tính toán đã được giảm bớt bằng cách sử dụng phần cứng tùy chỉnh và Bộ Xử lý TPU (Tensor Processing Units) để đào tạo mạng nơron. Quá trình đầu vào-đầu ra của hệ thống hoàn toàn giống như trước đây, nhưng thống nhất hơn. GNMT là công cụ tân tiến nhất và hiệu quả nhất cho đến nay trong việc tận dụng máy học trong dịch thuật.

Hình ảnh bên dưới cho chúng ta một cái nhìn về quy trình dịch một câu tiếng Trung Quốc sang tiếng Anh bằng GNMT.

gnmt_h2

Khi câu tiếng trung được đưa vào mạng nơron, nó được chia nhỏ thành các từ được mã hóa như một danh sách các vector – nơi mỗi vector đại diện cho một từ đơn. Một khi câu hoàn chỉnh được đọc, bộ giải mã bắt đầu dịch từng từ sang tiếng Anh và nó nhanh chóng đưa ra bản dịch phù hợp nhất bằng cách chú ý tới việc phân phối có gia quyền trên các vector tiếng Trung có liên quan đến từ đó.

Ngoài ra, các lỗi dịch ở GNMT cũng được giảm hơn 55 đến 85 phần trăm trên một số cặp ngôn ngữ chính, và tiến gần hơn tới độ chính xác như của con người.

Hiện nay Google Dịch đang hỗ trợ hơn 10.000 cặp ngôn ngữ, và nhóm nghiên cứu sẽ cố gắng ra mắt nhiều cặp ngôn ngữ hơn sử dụng được GNMT trong những tháng tới.

(Nguồn: Tham khảo)

Bài viết khác

Danh mục

Share on facebook
Share on google
Share on twitter
Share on linkedin

Luôn cập nhật các tin tức và ý kiến dịch thuật từ chuyên gia

Leave a Reply

Your email address will not be published. Required fields are marked *

© 2022 - Hi5! Media