Dịch máy là gì? Từ A - Z về Machine Translation dành cho bạn
BÀI LIÊN QUAN
Machine-To-Machine (M2M) là gì? Vai trò quan trọng của nó trong doanh nghiệpVirtual machine là gì? Một số loại Virtual machine được sử dụng phổ biến hiện nayBig Data và Machine Learning, những điều không phải ai cũng biếtMachine Translation là gì? Dịch máy là gì
Machine Translation, Dịch máy, là quá trình tự động dịch nội dung từ ngôn ngữ này (nguồn) sang ngôn ngữ khác (đích) mà không cần bất kỳ mà không cần tác động của con người.
Dịch thuật là một trong những ứng dụng đầu tiên của sức mạnh tính toán, bắt đầu từ những năm 1950. Thật không may, độ phức tạp của nhiệm vụ này cao hơn nhiều so với ước tính của các nhà khoa học máy tính lúc bấy giờ, nó đòi hỏi sức mạnh xử lý và lưu trữ dữ liệu khổng lồ, vượt xa khả năng của những chiếc máy đời đầu.
Chỉ cho đến đầu những năm 2000, phần mềm, dữ liệu và phần cứng cần thiết mớiđáp ứng được việc dịch máy cơ bản. Các nhà phát triển ban đầu đã sử dụng cơ sở dữ liệu thống kê của các ngôn ngữ để "dạy" máy tính dịch văn bản.
Vào năm 2016, Google đã có một nhóm thử nghiệm kiểm tra việc sử dụng các mô hình học tập thần kinh và trí tuệ nhân tạo (AI) để đào tạo các công cụ dịch thuật. Khi phương pháp luận của một nhóm nhỏ được thử nghiệm dựa trên công cụ dịch máy thống kê chính của Google, phương pháp này đã tỏ ra nhanh hơn và hiệu quả hơn trên nhiều ngôn ngữ. Ngoài ra, nó 'học được', tức là liên tục tự động cải tiến về chất lượng.
Dịch máy thần kinh tỏ ra hiệu quả đến mức Google đã thay đổi hướng đi và sử dụng nó làm mô hình phát triển chính của họ. Các nhà cung cấp lớn khác bao gồm Microsoft và Amazon đã sớm làm theo. Nhiều hệ thống quản lý dịch thuật (TMS) hiện đã kết hợp Machine Translation vào các giải pháp cho quy trình làm việc của người dùng.
Có những loại dịch máy nào?
Ba loại Machine Translation phổ biến nhất bao gồm:
Dịch máy dựa trên quy tắc (RBMT)
Rule-based machine translation, dịch máy dựa trên quy tắc (RBMT) là hình thức sớm nhất của dịch máy. RBMT có một số nhược điểm nghiêm trọng bao gồm việc yêu cầu con người chỉnh sửa hậu kỳ rất nhiều, yêu cầu thêm ngôn ngữ theo cách thủ công. Nói chung, chất lượng đưa ra rất thấp.
Dịch máy thống kê (SMT)
Statistical machine translation, dịch thống kê (SMT) xây dựng một mô hình thống kê về mối quan hệ giữa các từ, cụm từ và câu trong một văn bản. Nó áp dụng mô hình lên ngôn ngữ thứ hai để chuyển đổi các yếu tố đó sang ngôn ngữ mới. Mặc dù là bản cải tiến nhưng vẫn dính phải những vấn đề tương tự RBMT.
Dịch máy thần kinh (NMT)
Neural machine translation, dịch máy thần kinh (MT) sử dụng trí tuệ nhân tạo để học ngôn ngữ và không ngừng nâng cao kiến thức đã học, giống như các mạng thần kinh trong não người. NMT chính xác hơn, dễ dàng hơn trong việc thêm ngôn ngữ và nhanh hơn rất nhiều một khi được đào tạo.Neural machine translation đang nhanh chóng trở thành tiêu chuẩn trong phát triển động cơ dịch máy.
Tôi nên sử dụng loại dịch máy nào?
Nói chung, quyết định về loại Machine Translation bạn nên sử dụng phụ thuộc vào:
- Ngân sách hiện có: Đào tạo dịch máy thần kinh sẽ tốn kém hơn dịch máy thống kê, nhưng chất lượng đầu ra là rất xứng đáng cho bất kỳ sự chênh lệch chi phí nào.
- Ngành liên quan: Một số ngành yêu cầu ngôn ngữ phức tạp và kỹ thuật có thể đòi hỏi quá trình xử lý phức tạp hơn. NMT đáp ứng được điều này.
- Các cặp ngôn ngữ bạn cần: Dịch máy thống kê thường phù hợp cho một số cặp ngôn ngữ nhất định, chẳng hạn như các ngôn ngữ gốc Latinh có các quy tắc và cú pháp ngữ pháp tương tự.
- Lượng dữ liệu bạn có: NMT yêu cầu xử lý số lượng lớn văn bản để giúp nó học hỏi.
- Nội dung tài liệu: Các tài liệu tiếp thị hoặc bán hàng phản ánh chất lượng thương hiệu, đòi hỏi sự kết hợp giữa dịch máy và phiên dịch viên có kinh nghiệm thực hiện hậu kỳ chỉnh sửa.
Khi nào tôi nên sử dụng dịch máy?
Machine translation không thể sử dụng cho tất cả nội dung. Những nội dung có cấu trúc như tài liệu kỹ thuật, pháp lý và IP, hay thông tin liên lạc nội bộ sẽ hoạt động tốt hơn với dịch máy. Còn những nội dung thông tục hơn như tiếp thị, xây dựng thương hiệu hay nội dung hướng tới khách hàng khác… hoạt động kém hiệu quả hơn. Trong những tình huống đó, tuy Machine translation vẫn khả dụng, nhưng kết quả sau cùng sẽ cần thêm sự chỉnh sửa của con người, hay còn được gọi là chỉnh sửa hậu kỳ bản dịch máy, để đảm bảo chúng được dịch với đúng văn phong.
Bạn nên sử dụng công cụ dịch máy nào?
Các nhà phát triển lớn của công nghệ Machine Translation như Google, Microsoft và Amazon hiện đang sử dụng dịch máy thần kinh RBMT.
Google Translate - Google dịch
Thường được coi là công cụ dịch máy hàng đầu, dựa trên cách sử dụng, số lượng ngôn ngữ và tích hợp với tìm kiếm.
Amazon Translate- Amazon Dịch
Amazon Translate cũng dựa trên hệ thần kinh và được tích hợp chặt chẽ với Amazon Web Services (AWS). Một số bằng chứng chỉ ra Amazon Dịch chính xác hơn với một số loại ngôn ngữ nhất định, nhất là tiếng Trung Quốc.
Microsoft Translator
Microsoft Translator là một công cụ thần kinh dựa trên đám mây khác. Ứng dụng được tích hợp chặt chẽ với MS Office và các sản phẩm khác của Microsoft, cung cấp khả năng truy cập tức thì vào khả năng dịch trong tài liệu hoặc phần mềm khác.
DeepL
DeepL là sản phẩm của một công ty nhỏ có trụ sở tại Đức và dành riêng cho việc phát triển công cụ dịch máy đòi hỏi đầu ra có sắc thái và tự nhiên hơn dựa trên AI thần kinh độc quyền của họ.
Công cụ dịch máy tùy chỉnh
Có nhiều công cụ chuyên biệt được phát triển cho các hệ thống quản lý dịch cụ thể, các ngành khoa học và các mục đích sử dụng chuyên ngành khác. Chúng được tạo ra bằng cách sử dụng một nền tảng cơ bản và đào tạo nó theo một lĩnh vực dựa trên việc cung cấp dữ liệu cụ thể cho lĩnh vực đó.
Ưu điểm của dịch máy là gì?
Dưới đây là một số ưu điểm của Machine translation
Tốc độ và khối lượng
Machine translation rất nhanh, nó có thể dịch hàng triệu từ gần như ngay lập tức, đồng thời liên tục tự động cải tiến khi có nhiều nội dung được dịch hơn. Đối với các văn bản có khối dữ liệu lớn, dịch máy không chỉ có thể xử lý ở tốc độ nhanh mà còn có thể làm việc với các hệ thống quản lý nội dung để sắp xếp và gắn thẻ nội dung đó. Điều này giúp bạn có thể duy trì tổ chức và ngữ cảnh vì nội dung được dịch sang nhiều ngôn ngữ.
Nhiều lựa chọn ngôn ngữ
Các bản dịch có thể được thực hiện đồng thời trên nhiều ngôn ngữ, từ 50 - 100 hoặc thậm chí nhiều hơn nữa..
Giảm chi phí
Sự kết hợp của thông lượng tốc độ cao, cũng như khả năng lựa chọn từ các cặp ngôn ngữ hiện có bao gồm hàng chục cách kết hợp, có nghĩa là việc sử dụng dịch máy có thể cắt giảm chi phí và thời gian hoàn thành một bản dịch. Về cơ bản, Machine translation thực hiện công việc nặng nhọc nhất bằng cách cung cấp các bản dịch cơ bản. Sau đó, người phiên dịch sẽ tinh chỉnh các phiên bản này để phản ánh chặt chẽ hơn ý định ban đầu của nội dung và đảm bảo văn phong phù hợp cho từng khu vực.
Tích hợp tự động vào quy trình dịch thuật
Nhiều hệ thống quản lý dịch tích hợp một hoặc nhiều loại Machine translation trong quy trình làm việc của chúng. Chúng bao gồm các cài đặt để tự động dịch và thực hiện gửi bản dịch. Với chi phí thấp và gần như không có độ trễ trong bước dịch máy, thực sự không có lý do gì để không đưa nội dung do máy dịch vào quá trình tự động hóa quy trình làm việc, đặc biệt là đối với tài liệu và giao tiếp nội bộ.
Bản dịch máy so với bản dịch của con người
Việc quyết định sử dụng Machine translation hay dịch bằng con người đã không còn cần thiết. Khái niệm về chỉnh sửa hậu kỳ, tức là con người chỉnh sửa nội dung đã được dịch bởi máy, ngày càng được các chuyên gia dịch thuật chấp nhận.
Các phương pháp hay nhất để chỉnh sửa sau khi dịch máy
- Chuẩn bị nội dung để dịch máy: Điều này liên quan đến việc làm rõ và đơn giản hóa văn bản bằng các câu ngắn gọn, giọng văn chủ động… sao cho nội dung thật rõ ràng.
- Chọn công cụ dịch máy tốt nhất: Ví dụ, nếu bạn đã tạo được các bảng thuật ngữ liên quan đến dòng sản phẩm hoặc dự án, hãy cân nhắc việc xây dựng một công cụ tùy chỉnh phù hợp với lĩnh vực kinh doanh, thị trường hoặc loại sản phẩm của bạn.
- Chọn mức chất lượng trong việc chỉnh sửa hậu kỳ: Chỉnh sửa hậu kỳ nhẹ (LPE) tập trung vào việc loại bỏ bất kỳ lỗi hoặc vấn đề rõ ràng nào, trong khi chỉnh sửa hậu kỳ hoàn chỉnh (FPE) đảm bảo rằng nội dung được bản địa hóa hoàn toàn. Chuẩn bị nội dung tốt khi bắt đầu sẽ giúp bước này nhanh hơn và dễ dàng hơn.
Làm cách nào để triển khai dịch máy?
Triển khai Machine Translation không phải là một nhiệm vụ khó khăn. Có một số bước mà bạn có thể làm theo để tận dụng tối đa nó là
- Chọn nội dung phù hợp để dịch máy.
- Xem lại chính sách bảo mật của nhà cung cấp Machine translation của bạn. Bạn nên biết điều gì sẽ xảy ra với dữ liệu của mình và cách nó được lưu trữ.
- Đào tạo máy với dữ liệu của bạn nếu có thể để tăng chất lượng đầu ra.
- Nếu bạn thực hiện công việc chỉnh sửa hậu kỳ bản dịch, bạn cần chọn một nhóm đã được đào tạo hoặc có kinh nghiệm với việc chỉnh sửa hậu kỳ.
- Chạy các mẫu trước khi triển khai để có ý tưởng về chất lượng hoặc để xác định các khu vực có thể được cải thiện trước khi triển khai.
- Đồng ý về mô hình định giá và đảm bảo có sự tham gia của tất cả các bên liên quan, bao gồm cả nhà cung cấp dịch vụ ngôn ngữ của bạn, vào quyết định.
- Triển khai: Hãy nhớ rằng kết quả có thể không đáp ứng mong đợi của bạn ngay lập tức, nhưng kết quả đầu ra sẽ tốt hơn theo thời gian.
Phần mềm dịch máy nào tốt nhất?
Lựa chọn phương án tốt nhất có thể phức tạp với các phương án chính và chuyên dụng, mỗi loại đều có điểm mạnh và điểm yếu riêng. Tốt nhất, nên sử dụng nhiều phương án để kiểm tra kết quả hoặc chỉ định một phương án cho một dự án mà nó phù hợp.
Machine Translation là một lĩnh vực liên ngành thú vị, kết hợp giữa công nghệ, ngôn ngữ học và bản địa hóa tiên tiến nhất. Nhu cầu bản địa hóa nội dung ngày càng tăng sẽ tiếp tục thúc đẩy những tiến bộ công nghệ trong dịch máy với tốc độ nhanh chóng. Các chuyên gia ngôn ngữ cần phải tìm ra cách thức hiệu quả để kiểm soát chất lượng của các bản dịch máy.