Tổng hợp giọng nói

NộI Dung

Định nghĩa - Tổng hợp lời nói có nghĩa là gì?
Giới thiệu về Microsoft Azure và Microsoft Cloud | Trong suốt hướng dẫn này, bạn sẽ tìm hiểu về điện toán đám mây là gì và Microsoft Azure có thể giúp bạn di chuyển và điều hành doanh nghiệp của bạn từ đám mây như thế nào.
Techopedia giải thích Tổng hợp lời nói

Định nghĩa - Tổng hợp lời nói có nghĩa là gì?

Tổng hợp lời nói là mô phỏng nhân tạo lời nói của con người bằng máy tính hoặc thiết bị khác. Bản sao của nhận dạng giọng nói, tổng hợp giọng nói chủ yếu được sử dụng để dịch thông tin thành thông tin âm thanh và trong các ứng dụng như dịch vụ hỗ trợ giọng nói và ứng dụng di động. Ngoài ra, nó cũng được sử dụng trong công nghệ hỗ trợ để giúp các cá nhân bị suy giảm thị lực trong việc đọc nội dung.

Giới thiệu về Microsoft Azure và Microsoft Cloud | Trong suốt hướng dẫn này, bạn sẽ tìm hiểu về điện toán đám mây là gì và Microsoft Azure có thể giúp bạn di chuyển và điều hành doanh nghiệp của bạn từ đám mây như thế nào.

Techopedia giải thích Tổng hợp lời nói

Homer Dudley VODER, được dựa trên bộ phát âm từ Phòng thí nghiệm Bell, được coi là bộ tổng hợp giọng nói đầy đủ chức năng đầu tiên. Máy tính được sử dụng trong tổng hợp giọng nói được gọi là máy tổng hợp giọng nói hoặc máy tính lời nói. Chất lượng của máy tính lời nói thường được đánh giá bởi sự giống nhau của nó với giọng nói của con người. Hầu hết các hệ điều hành máy tính đã kết hợp các bộ tổng hợp giọng nói từ đầu những năm 1990. Lời nói tổng hợp thường được tạo ra với sự trợ giúp của các đoạn lời nói được ghi lại, được chứa trong cơ sở dữ liệu.

Giai đoạn ban đầu trong tổng hợp giọng nói là xử lý trước, loại bỏ sự mơ hồ xung quanh cách thức mà từ cụ thể cần phải đọc, và cũng bao gồm cả việc xử lý các biểu đồ đồng âm. Trong giai đoạn tiếp theo của quá trình tổng hợp giọng nói, máy tính có sự trợ giúp của các âm vị để chuyển đổi thành chuỗi âm thanh. Giai đoạn cuối cùng liên quan đến việc sử dụng các bản ghi âm của con người hoặc các kỹ thuật tạo âm thanh cơ bản để bắt chước cơ chế giọng nói của con người và đọc toàn bộ. Một trong những nhánh phổ biến của tổng hợp giọng nói là tổng hợp giọng nói nghe nhìn hoặc tổng hợp giọng nói đa phương thức, sử dụng khuôn mặt hoạt hình được đồng bộ hóa chặt chẽ để bổ sung cho lời nói tổng hợp. Tổng hợp giọng nói đa phương thức cũng kết hợp các tính năng bổ sung như tín hiệu phi ngôn ngữ vào lời nói để giúp truyền đạt các từ của người dùng với độ chính xác cao hơn. Nhiều hệ thống tổng hợp giọng nói cho phép người dùng chọn loại giọng như giọng nam hoặc nữ.

Hầu hết các hệ thống tổng hợp giọng nói đều có khả năng đọc s và xuất ra chúng một cách rất thông minh mặc dù đôi khi giọng nói có thể bị đờ đẫn. Tuy nhiên, tổng hợp lời nói vẫn chưa phát triển khả năng bắt chước hoàn toàn phổ rộng của ngữ điệu và nhịp điệu của con người.