Dịch máy là gì? Từ A - Z về Machine Translation dành cho bạn

Chủ nhật, 14/11/2022-15:11
Sử dụng Machine Translation để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác từ lâu đã trở thành ước mơ của ngành khoa học máy tính. Tuy nhiên, chỉ trong 10 năm, dịch máy đã trở thành một công cụ được sử dụng rộng rãi. Những tiến bộ trong xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo và sức mạnh tính toán đều góp phần giúp công nghệ này ngày càng hữu ích.

Machine Translation là gì? Dịch máy là gì

Machine Translation, Dịch máy, là quá trình tự động dịch nội dung từ ngôn ngữ này (nguồn) sang ngôn ngữ khác (đích) mà không cần bất kỳ mà không cần tác động của con người.

Dịch thuật là một trong những ứng dụng đầu tiên của sức mạnh tính toán, bắt đầu từ những năm 1950. Thật không may, độ phức tạp của nhiệm vụ này cao hơn nhiều so với ước tính của các nhà khoa học máy tính lúc bấy giờ, nó đòi hỏi sức mạnh xử lý và lưu trữ dữ liệu khổng lồ, vượt xa khả năng của những chiếc máy đời đầu.

Chỉ cho đến đầu những năm 2000, phần mềm, dữ liệu và phần cứng cần thiết mớiđáp ứng được việc dịch máy cơ bản. Các nhà phát triển ban đầu đã sử dụng cơ sở dữ liệu thống kê của các ngôn ngữ để "dạy" máy tính dịch văn bản.

Vào năm 2016, Google đã có một nhóm thử nghiệm kiểm tra việc sử dụng các mô hình học tập thần kinh và trí tuệ nhân tạo (AI) để đào tạo các công cụ dịch thuật. Khi phương pháp luận của một nhóm nhỏ được thử nghiệm dựa trên công cụ dịch máy thống kê chính của Google, phương pháp này đã tỏ ra nhanh hơn và hiệu quả hơn trên nhiều ngôn ngữ. Ngoài ra, nó 'học được', tức là liên tục tự động cải tiến về chất lượng.

Dịch máy thần kinh tỏ ra hiệu quả đến mức Google đã thay đổi hướng đi và sử dụng nó làm mô hình phát triển chính của họ. Các nhà cung cấp lớn khác bao gồm Microsoft và Amazon đã sớm làm theo. Nhiều hệ thống quản lý dịch thuật (TMS) hiện đã kết hợp Machine Translation vào các giải pháp cho quy trình làm việc của người dùng.


 
 

Có những loại dịch máy nào?

Ba loại Machine Translation phổ biến nhất bao gồm:

Dịch máy dựa trên quy tắc (RBMT)

Rule-based machine translation, dịch máy dựa trên quy tắc (RBMT) là hình thức sớm nhất của dịch máy. RBMT có một số nhược điểm nghiêm trọng bao gồm việc yêu cầu con người chỉnh sửa hậu kỳ rất nhiều, yêu cầu thêm ngôn ngữ theo cách thủ công. Nói chung, chất lượng đưa ra rất thấp. 

Dịch máy thống kê (SMT)

Statistical machine translation, dịch thống kê (SMT) xây dựng một mô hình thống kê về mối quan hệ giữa các từ, cụm từ và câu trong một văn bản. Nó áp dụng mô hình lên ngôn ngữ thứ hai để chuyển đổi các yếu tố đó sang ngôn ngữ mới. Mặc dù là bản cải tiến nhưng vẫn dính phải những vấn đề tương tự RBMT.

Dịch máy thần kinh (NMT)

Neural machine translation, dịch máy thần kinh (MT) sử dụng trí tuệ nhân tạo để học ngôn ngữ và không ngừng nâng cao kiến ​​thức đã học, giống như các mạng thần kinh trong não người. NMT chính xác hơn, dễ dàng hơn trong việc thêm ngôn ngữ và nhanh hơn rất nhiều một khi được đào tạo.Neural machine translation đang nhanh chóng trở thành tiêu chuẩn trong phát triển động cơ dịch máy.

Tôi nên sử dụng loại dịch máy nào?

Nói chung, quyết định về loại Machine Translation bạn nên sử dụng phụ thuộc vào:

  • Ngân sách hiện có: Đào tạo dịch máy thần kinh sẽ tốn kém hơn dịch máy thống kê, nhưng chất lượng đầu ra là rất xứng đáng cho bất kỳ sự chênh lệch chi phí nào.
  • Ngành liên quan: Một số ngành yêu cầu ngôn ngữ phức tạp và kỹ thuật có thể đòi hỏi quá trình xử lý phức tạp hơn. NMT đáp ứng được điều này.
  • Các cặp ngôn ngữ bạn cần: Dịch máy thống kê thường phù hợp cho một số cặp ngôn ngữ nhất định, chẳng hạn như các ngôn ngữ gốc Latinh có các quy tắc và cú pháp ngữ pháp tương tự.
  • Lượng dữ liệu bạn có: NMT yêu cầu xử lý số lượng lớn văn bản để giúp nó học hỏi.
  • Nội dung tài liệu: Các tài liệu tiếp thị hoặc bán hàng phản ánh chất lượng thương hiệu, đòi hỏi sự kết hợp giữa dịch máy và phiên dịch viên có kinh nghiệm thực hiện hậu kỳ chỉnh sửa. 

Khi nào tôi nên sử dụng dịch máy?

Machine translation không thể sử dụng cho tất cả nội dung. Những nội dung có cấu trúc như tài liệu kỹ thuật, pháp lý và IP, hay thông tin liên lạc nội bộ sẽ hoạt động tốt hơn với dịch máy. Còn những nội dung thông tục hơn như tiếp thị, xây dựng thương hiệu hay nội dung hướng tới khách hàng khác… hoạt động kém hiệu quả hơn. Trong những tình huống đó, tuy Machine translation vẫn khả dụng, nhưng kết quả sau cùng sẽ cần thêm sự chỉnh sửa của con người, hay còn được gọi là chỉnh sửa hậu kỳ bản dịch máy, để đảm bảo chúng được dịch với đúng văn phong. 


Các bản dịch từ dịch máy vẫn cần sự chỉnh sửa của con người để có văn phong phù hợp.
Các bản dịch từ dịch máy vẫn cần sự chỉnh sửa của con người để có văn phong phù hợp.

Bạn nên sử dụng công cụ dịch máy nào?

Các nhà phát triển lớn của công nghệ Machine Translation như Google, Microsoft và Amazon hiện đang sử dụng dịch máy thần kinh RBMT. 

Google Translate - Google dịch

Thường được coi là công cụ dịch máy hàng đầu, dựa trên cách sử dụng, số lượng ngôn ngữ và tích hợp với tìm kiếm. 

Amazon Translate- Amazon Dịch

Amazon Translate cũng dựa trên hệ thần kinh và được tích hợp chặt chẽ với Amazon Web Services (AWS). Một số bằng chứng chỉ ra Amazon Dịch chính xác hơn với một số loại ngôn ngữ nhất định, nhất  là tiếng Trung Quốc.

Microsoft Translator

Microsoft Translator là một công cụ thần kinh dựa trên đám mây khác. Ứng dụng được tích hợp chặt chẽ với MS Office và các sản phẩm khác của Microsoft, cung cấp khả năng truy cập tức thì vào khả năng dịch trong tài liệu hoặc phần mềm khác.

DeepL

DeepL là sản phẩm của một công ty nhỏ có trụ sở tại Đức và dành riêng cho việc phát triển công cụ dịch máy đòi hỏi đầu ra có sắc thái và tự nhiên hơn dựa trên AI thần kinh độc quyền của họ.

Công cụ dịch máy tùy chỉnh

Có nhiều công cụ chuyên biệt được phát triển cho các hệ thống quản lý dịch cụ thể, các ngành khoa học và các mục đích sử dụng chuyên ngành khác. Chúng được tạo ra bằng cách sử dụng một nền tảng cơ bản và đào tạo nó theo một lĩnh vực dựa trên việc cung cấp dữ liệu cụ thể cho lĩnh vực đó.


CÓ rất nhiều công cụ dịch máy trên thị trường.
CÓ rất nhiều công cụ dịch máy trên thị trường.

Ưu điểm của dịch máy là gì?

Dưới đây là một số ưu điểm của Machine translation

Tốc độ và khối lượng

Machine translation rất nhanh, nó có thể dịch hàng triệu từ gần như ngay lập tức, đồng thời liên tục tự động cải tiến khi có nhiều nội dung được dịch hơn. Đối với các văn bản có khối dữ liệu lớn, dịch máy không chỉ có thể xử lý ở tốc độ nhanh mà còn có thể làm việc với các hệ thống quản lý nội dung để sắp xếp và gắn thẻ nội dung đó. Điều này giúp bạn có thể duy trì tổ chức và ngữ cảnh vì nội dung được dịch sang nhiều ngôn ngữ.

Nhiều lựa chọn ngôn ngữ

Các bản dịch có thể được thực hiện đồng thời trên nhiều ngôn ngữ, từ 50 - 100 hoặc thậm chí nhiều hơn nữa..

Giảm chi phí

Sự kết hợp của thông lượng tốc độ cao, cũng như khả năng lựa chọn từ các cặp ngôn ngữ hiện có bao gồm hàng chục cách kết hợp, có nghĩa là việc sử dụng dịch máy có thể cắt giảm chi phí và thời gian hoàn thành một bản dịch. Về cơ bản, Machine translation thực hiện công việc nặng nhọc nhất bằng cách cung cấp các bản dịch cơ bản. Sau đó, người phiên dịch sẽ tinh chỉnh các phiên bản này để phản ánh chặt chẽ hơn ý định ban đầu của nội dung và đảm bảo văn phong phù hợp cho từng khu vực.

Tích hợp tự động vào quy trình dịch thuật

Nhiều hệ thống quản lý dịch tích hợp một hoặc nhiều loại Machine translation trong quy trình làm việc của chúng. Chúng bao gồm các cài đặt để tự động dịch và thực hiện gửi bản dịch. Với chi phí thấp và gần như không có độ trễ trong bước dịch máy, thực sự không có lý do gì để không đưa nội dung do máy dịch vào quá trình tự động hóa quy trình làm việc, đặc biệt là đối với tài liệu và giao tiếp nội bộ.

Bản dịch máy so với bản dịch của con người

Việc quyết định sử dụng Machine translation hay dịch bằng con người đã không còn cần thiết. Khái niệm về chỉnh sửa hậu kỳ, tức là con người chỉnh sửa nội dung đã được dịch bởi máy, ngày càng được các chuyên gia dịch thuật chấp nhận.


Machine Translation VS Human
Machine Translation VS Human

Các phương pháp hay nhất để chỉnh sửa sau khi dịch máy

  • Chuẩn bị nội dung để dịch máy: Điều này liên quan đến việc làm rõ và đơn giản hóa văn bản bằng các câu ngắn gọn, giọng văn chủ động… sao cho nội dung thật rõ ràng.
  • Chọn công cụ dịch máy tốt nhất: Ví dụ, nếu bạn đã tạo được các bảng thuật ngữ liên quan đến dòng sản phẩm hoặc dự án, hãy cân nhắc việc xây dựng một công cụ tùy chỉnh phù hợp với lĩnh vực kinh doanh, thị trường hoặc loại sản phẩm của bạn.
  • Chọn mức chất lượng trong việc chỉnh sửa hậu kỳ: Chỉnh sửa hậu kỳ nhẹ (LPE) tập trung vào việc loại bỏ bất kỳ lỗi hoặc vấn đề rõ ràng nào, trong khi chỉnh sửa hậu kỳ hoàn chỉnh (FPE) đảm bảo rằng nội dung được bản địa hóa hoàn toàn. Chuẩn bị nội dung tốt khi bắt đầu sẽ giúp bước này nhanh hơn và dễ dàng hơn.

Làm cách nào để triển khai dịch máy?

Triển khai Machine Translation không phải là một nhiệm vụ khó khăn. Có một số bước mà bạn có thể làm theo để tận dụng tối đa nó là

  • Chọn nội dung phù hợp để dịch máy.
  • Xem lại chính sách bảo mật của nhà cung cấp Machine translation của bạn. Bạn nên biết điều gì sẽ xảy ra với dữ liệu của mình và cách nó được lưu trữ.
  • Đào tạo máy với dữ liệu của bạn nếu có thể để tăng chất lượng đầu ra.
  • Nếu bạn thực hiện công việc chỉnh sửa hậu kỳ bản dịch, bạn cần chọn một nhóm đã được đào tạo hoặc có kinh nghiệm với việc chỉnh sửa hậu kỳ.
  • Chạy các mẫu trước khi triển khai để có ý tưởng về chất lượng hoặc để xác định các khu vực có thể được cải thiện trước khi triển khai.
  • Đồng ý về mô hình định giá và đảm bảo có sự tham gia của tất cả các bên liên quan, bao gồm cả nhà cung cấp dịch vụ ngôn ngữ của bạn, vào quyết định.
  • Triển khai: Hãy nhớ rằng kết quả có thể không đáp ứng mong đợi của bạn ngay lập tức, nhưng kết quả đầu ra sẽ tốt hơn theo thời gian.

Phần mềm dịch máy nào tốt nhất?

Lựa chọn phương án tốt nhất có thể phức tạp với các phương án chính và chuyên dụng, mỗi loại đều có điểm mạnh và điểm yếu riêng. Tốt nhất, nên sử dụng nhiều phương án để kiểm tra kết quả hoặc chỉ định một phương án cho một dự án mà nó phù hợp.

Machine Translation là một lĩnh vực liên ngành thú vị, kết hợp giữa công nghệ, ngôn ngữ học và bản địa hóa tiên tiến nhất. Nhu cầu bản địa hóa nội dung ngày càng tăng sẽ tiếp tục thúc đẩy những tiến bộ công nghệ trong dịch máy với tốc độ nhanh chóng. Các chuyên gia ngôn ngữ cần phải tìm ra cách thức hiệu quả để kiểm soát chất lượng của các bản dịch máy.
 

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Việc mất 10 tiếng để làm được AI hoàn thành trong 10 giây: Các sinh viên tài chính ngân hàng chuẩn bị mất việc?

Thách thức và xu hướng của ngành Fintech tại Đông Nam Á trong năm 2024

Đẩy mạnh vốn FDI vào lĩnh vực Fintech, công nghệ cao

AI có thể là một mối nguy đối với nhân loại?

Bitcoin trở thành tài sản có giá trị lớn thứ 8 toàn cầu

Mặt trái của AI: Tiêu thụ điện năng ở mức khổng lồ

Kỷ nguyên công nghệ gia tăng áp lực cạnh tranh giữa các doanh nghiệp bất động sản

Hé lộ 3 kênh podcast ‘giải ngố đầu tư’ dành cho người mới bắt đầu

Tin mới cập nhật

ĐHĐCĐ Đất Xanh: Mục tiêu 3.900 tỷ đồng doanh thu thuần và 226 tỷ đồng lãi ròng năm 2024

12 giờ trước

Ủy ban Thường vụ Quốc hội xem xét và cho ý kiến 18 nội dung quan trọng

12 giờ trước

Sôi động thị trường chuyển nhượng chung cư

12 giờ trước

Quý I/2024, vốn tài trợ cho các công ty Fintech Đông Nam Á giảm 13%

12 giờ trước

ĐHĐCĐ MB: Tăng trưởng lợi nhuận từ 6-8%, dự kiến chia cổ tức 20%

13 giờ trước