Dịch máy và lạc lối trong bản dịch

Chúng ta có thể truy nguyên nguồn gốc của dịch thuật máy (Machine Translation – MT) về những ý tưởng từ thế kỷ 17 cũng như những nỗ lực xây dựng từ điển máy, nhưng phải đến thế kỷ 20, với sự ra đời của công nghệ máy tính, những tiến bộ đáng kể mới xuất hiện. MT ngày nay nên được gọi là dịch thuật máy tính (Computer Translation – CT).

Tuy nhiên, sự tiến bộ này thường đi kèm những lời nói quá cùng những kỳ vọng không thể thành sự thật. Ngôn ngữ nói có tốc độ quá nhanh và tính phân mảnh cao với CT. Giao tiếp bằng lời nói có quá nhiều điểm khởi đầu giả, và chẳng có căn cứ nào để xác định được sắc thái, những tham chiếu văn hóa, thành ngữ và nét hài hước. Trong khi đó, các văn bản lại dễ dịch hơn các cuộc đối thoại, và cũng phù hợp với công nghệ dịch máy hơn.

Niềm tin phổ biến là dịch thuật văn bản bằng CT đang có những bước tiến lớn, nhưng thực tế thì quá trình này diễn ra rất chậm. Có một trường hợp CT dịch từ tiếng Nga sang tiếng Anh rất nổi tiếng như sau: “Vodka rất ngon, nhưng thịt bị thối rồi” trở thành “Tinh thần thì tự nguyện nhưng da thịt thì yếu ớt.”

Hành trình đến với thành công của CT còn rất nhiều khó khăn và thách thức. Lý do rất đơn giản: Tài sản chung của tất cả các ngôn ngữ là tính mơ hồ trong cách dùng từ ngữ của một cá nhân, cũng như trong quan hệ giữa các bộ phận câu. Trong ngôn ngữ mẹ đẻ của mình, chúng ta rất thành thạo việc giải mã sự mơ hồ khi phân tích đầu vào ngôn ngữ. Nhưng kinh nghiệm và ngữ cảnh quá khứ rất khó mô hình hóa trong chương trình máy tính.

Một cách tiếp cận CT đã được thiết lập dựa trên các quy tắc ngôn ngữ của các ngôn ngữ có liên quan, bao gồm hầu hết các thông tin về khía cạnh ngôn ngữ của cả ngôn ngữ gốc và ngôn ngữ đích, thường xuyên sử dụng các quy tắc hình thái và cú pháp, cũng như phân tích ngữ nghĩa ở cả hai ngôn ngữ.

Một tiến bộ gần đây nữa là dịch máy thống kê (Statistical Machine Translation – SMT), đã trở thành khung chi phối các nghiên cứu CT. Phương pháp thống kê không yêu cầu các nhà nghiên cứu phải biết về các ngôn ngữ trong hệ thống, cũng như không yêu cầu tập hợp các quy tắc và dữ liệu từ vựng ở quy mô lớn. Thay vào đó, những dữ liệu cần được quan tâm là số lượng các ngữ liệu đơn ngữ và song ngữ. SMT dựa trên khái niệm rằng mỗi ngôn ngữ phải mô tả một tập hợp tương tự như các suy nghĩ, vì thế những từ ngữ làm công việc mô tả này cũng tương tự nhau. Mẹo ở đây là phát triển và trau chuốt cái gọi là “không gian ngôn ngữ”, tức là một tập hợp các véc tơ chỉ từ ngôn ngữ này sang ngôn ngữ khác. Quá trình này cho thấy những ngôn ngữ khác biệt lại có rất nhiều điểm chung trong không gian véc tơ này, tức là quá trình chuyển đổi từ ngôn ngữ này sang ngôn ngữ kia đã một phần mang tính toán học.

Nhiều nhà nghiên cứu đang áp dụng các phương pháp tiếp cận “lai”, kết hợp các phương pháp tiếp cận dựa trên quy tắc với các mô hình thống kê. Google gần đây mới cải thiện các khả năng dịch thuật nội bộ bằng cách sử dụng gần 200 tỉ từ và cụm từ từ các tài liệu của Liên Hợp Quốc và Liên minh Châu Âu để huấn luyện hệ thống dịch của mình. Mô hình của Google có thể học được rằng “X” trong ngôn ngữ A sẽ được dịch là “Y” trong ngôn ngữ B. Giả thuyết đặt ra là càng nhập vào nhiều dữ liệu, các phán đoán thống kê của mô hình lại càng chính xác.

Những cách tiếp cận kết hợp này cũng nhận được sự phê phán rằng chất lượng không bằng bản dịch của con người, nhưng tiêu chuẩn đó dường như đã được hạ thấp nhờ nhu cầu giao tiếp tức thì của mạng Internet. Việc thế giới còn lâu mới đạt đến trạng thái “phẳng” về ngôn ngữ là một thực tế.

Thực tế đó lại hàm chứa một thực tế khác là một nửa những nội dung có trên Internet được trình bày bằng một ngôn ngữ không phải tiếng Anh, và 3/4 số người dùng Internet không phải người bản xứ nói tiếng Anh. Sự xuất hiện ngày càng tăng của những người dùng bản địa nói tiếng Trung Quốc đã thu hút sự chú ý đến những thách thức khi dùng CT để dịch thuật qua lại giữa tiếng Anh và tiếng Trung.

Một sự khác biệt rõ ràng về hệ thống chữ viết giữa hai ngôn ngữ này là số lượng ký tự trong tiếng Trung lớn hơn rất nhiều so với số chữ cái trong tiếng Anh, kể cả khi số lượng ký tự chính xác của tiếng Trung không thể được xác định chính xác, Cần biết từ 3.000 đến 4.000 ký tự tiếng Trung nếu muốn hiểu rõ ngôn ngữ này. Ngoài ra, tiếng Trung còn có dạng phồn thể và dạng giản thể, cũng như các biến thể ký tự.

Xác định các từ trong tiếng Trung cũng là một vấn đề khác. Trong tiếng Anh và hầu hết các ngôn ngữ khác, một từ nói ra được thể hiện ở dạng viết bằng một chuỗi các chữ cái, phân cách hai đầu bằng khoảng trống. Tuy nhiên, trong tiếng Trung, chúng ta không thể xác định từ theo cách đó, bởi cách viết tiếng Trung không để lại khoảng trống nào giữa các từ ngữ trong văn bản cả. Vì vậy, trước khi xử lý hình thái từ, cần có thêm một bước phân đoạn, tức là cắt một chuỗi ký tự liên tiếp thành những đoạn từ. Ngoài ra, còn có sự khác biệt đáng kể về cấu trúc giữa tiếng Anh và tiếng Trung Quốc, như sự khác biệt về vị trí của danh từ và mệnh đề quan hệ. Trong tiếng Anh, tập hợp từ, dù là tính từ, cụm danh từ hay mệnh đề, đều có thể đứng trước hoặc đứng sau danh từ. Trong tiếng Trung, yếu tố bổ trợ hầu như luôn đi trước danh từ, độ dài của phần bổ trợ có thể khá lớn, ngoài ra còn có một loạt các cấu trúc bổ nghĩa danh từ. Hiện chưa có một phần mềm dịch máy nào có thể xác định chính xác tập hợp bổ nghĩa đó bắt đầu từ đâu. Vì vậy, không có gì lạ khi CT giữa tiếng Anh và tiếng Trung cho kết quả bản dịch tệ nhất, thậm chí là tệ hơn cả những kết hợp ngôn ngữ khó khác.

DỊCH TIẾNG là một trong số những nhà cung cấp dịch vụ dịch thuật hàng đầu tại Hà Nội. Ngoài ra, công ty còn cung cấp dịch vụ dịch thuật đối với hơn 20 loại ngôn ngữ khác nhau. Công ty Dịch Tiếng đáp ứng nhu cầu dịch thuật tài liệu kỹ thuật, pháp lý, học thuật, y học và marketing, cùng nhiều loại tài liệu khác. Quý khách hàng vui lòng tham khảo thêm thông tin trên website http://www.dichthuattieng.com.vn/ hoặc liên hệ hotline +84 934 425 988.

Dịch máy và lạc lối trong bản dịch

Trả lời Hủy