Thứ Hai, 7 tháng 3, 2016

Xây dựng chương trình nhận dạng tiếng nói bằng Matlab

2009 Đồ án môn học 2 Hai phương pháp trích chọn đặc trưng tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện nay: MFCC ( melscale frequency cepstral coefficients) và PLP ( Perceptual Linear Prediction). Phân tích cepstral theo thang đo mel MFCC Phương pháp được xây dựng dựa trên sự cảm nhận của tai người đối với các dải tần số khác nhau. Với các tần số thấp (dưới 1000 Hz), độ cảm nhận của tai người là tuyến tính. Đối với các tần số cao, độ biến thiên tuân theo hàm logarit. Các băng lọc tuyến tính ở tần số thấp và biến thiên theo hàm logarit ở tần số cao được sử dụng để trích chọn các đặc trưng âm học quan trọng của tiếng nói. Người ta chọn tấn số 1kHz, 40 dB trên ngưỡng nghe là 1000 Mel. Công thức gần đúng biểu diễn quan hệ tần số ở thang mel và thang tuyến tính như sau: mel(f) = 2595*log 10(1+f/700) Một phương pháp để chuyển đổi sang thang mel là sử dụng băng lọc (Hình 3.4.2), trong đó mỗi bộ lọc có đáp ứng tần số dạng tam giác. Số băng lọc sử dụng thường trên 20 băng. Thông thường, người ta chọn tần số từ 0 dến Fs/2 (Fs là tần số lấy mẫu tiếng nói). Nhưng cũng có thể một dải tần giới hạn từ LOFREQ đến HIFREQ sẽ được dùng để lọc đi các tần số không cần thiết cho xử lý. Chẳng hạn, trong xử lý tiếng nói qua đường điện thoại có thể lấy giới hạn dải tần từ LOFREQ=300 đến HIFREQ=3400. 1 Tần số 0 Tần số mel Hình 3.4.2: Các băng lọc tam giác theo thang tần số Mel Phương pháp mã dự đoán tuyến tính LPC Mô hình LPC được sử dụng để trích lọc các tham số đặc trưng của tín hiệu tiếng nói. Kết quả của quá trình phân tích tín hiệu thu được một chuỗi gồm các khung tiếng nói. Các khung này được biến đổi nhằm sử dụng cho việc phân tích âm học. 11 Chương 3: Lý thuyết nhận dạng tiếng nói 2009 Đồ án môn học 2 Nội dung phân tích dự báo tuyến tính là: một mẫu tiếng nói được xấp xỉ bởi tổ hợp tuyến tính của các mẫu trước đó. Thông qua việc tối thiểu hóa tổng bình phương sai số giữa các mẫu hiện tại với các mẫu dự đoán có thể xác định được một tập duy nhất các hệ số dự báo. Các hệ số dự báo này là các trọng số được sử dụng trong tổ hợp tuyến tính. Với dãy tín hiệu tiếng nói s(n), giá trị dự báo được xác định bởi: trong đó αk : là các hệ số đặc trưng cho hệ thống. Hàm sai số dự báo được tính theo công thức: Để cực tiểu hóa lỗi cần tìm tập giá trị { αk } phù hợp nhất. Phương pháp PLP Phương pháp này là sự kết hợp của hai phương pháp đã trình bày ở trên 3.4.2 Phân lớp mẫu: Ở bước này, hệ thống sẽ gán dãy các vector đặc tính thành dãy các tối ưu đơn vị tiếng nói cơ bản. Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu, rule-based, mô hình Markov ẩn, mạng Neuron Nguyên tắc cơ bản của đối sánh mẫu đó là cất giữ một số lượng các mẫu tiếng nói, bao gồm các vector đặc tính.Tín hiệu tiếng nói cần nhận dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã được cất giữ trước đó. Do tốc độ phát âm là rất khác nhau, kỹ thuật DWT (Dynamic Time W arping)được áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với các mẫu. Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói. Đối với hệ thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong tổng quát hóa sự đa dạng của tín hiệu tiếng nói. Một vấn đề nữa là với cây quyết định rất khó phục hồi lỗi nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích. Mô hình Markvo ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh được áp dụng thành công trong nhận dạng tiếng nói. Đa số các hệ thống nhận dạng tiếng nói đều dùng mô hình Markov ẩn. Chi tiết về mô hình Markov ẩn sẽ được trình bày trong mục 3.6.2. 12 Chương 3: Lý thuyết nhận dạng tiếng nói 2009 Đồ án môn học 2 Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong muốn sử dụng khả năng phân lớp mạnh của mạng. Mạng neuron truyền thẳng đa lớp perceptron thường được sử dụng trong nhận dạng tiếng nói. Tuy nhiên m ạng neuron có hạn chế về khả năng mô hình hoá sự biến thiên của tiếng nói theo thời gian. Mô hình mạng Neuron sẽ được trình bày trong chương 4. 3.4.3 Xử lý ngôn ngữ: Mục đích của mô hình này là tìm ra xác su của từ trong phát âm theo sau các từ. ất Một phương pháp đơn giản hay được áp dụng đó là dùng N-gram, với giả thiết rằng từ chỉ phụ thuộc vào n-1 các từ đứng trước nó. Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp, ngữ nghĩa, suy đoán và chúng tập trung vào sự phụ thuộc lân cận của một từ. Các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ cơ sở dữ liệu mà không cần đến các luật ngôn ngữ như ngữ pháp hình thức của ngôn ngữ. Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu. Tuy nhiên vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba là quá lớn. Do đó sẽ có nhiều bộ ba không xuất hiện hoặc xuất hiện rất ít chỉ một hoặc hai lần trong cơ sở dữ liệu. Mặc dù có khó khăn về tính toán, mô hình ngôn ngữ vẫn chứng minh được là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng. Trong các hệ thống nhận dạng với kích thước lớn hiện nay. 3.5 Các tiếp cận nhận dạng tiếng nói Về cơ bản có ba tiếp cận nhận dạng tiếng nói chính như sau: 1. Tiếp cận âm thanh-ngữ âm. 2. Tiếp cận nhận dạng mẫu. 3. Tiếp cận trí tuệ nhân tạo. 3.5.1 Tiếp cận âm thanh-ngữ âm Phương pháp này dựa trên lý thuyết về Âm học-Ngữ âm học. Lý thuyết đó cho biết có sự tồn tại của các đơn vị ngữ âm trong ngôn ngữ tiếng nói; các đơn vị ngữ âm này được biểu diễn đặc trưng bởi một tập hợp những thuộc tính thể hiện trong tín hiệu âm thanh hay biểu diễn phổ theo thời gian. Cách tiếp cận này có 2 bước: • Bước 1: phân đoạn và gán nhãn. Gán một hoặc nhiều nhãn ngữ âm cho mỗi vùng phân đoạn dựa theo các thuộc tính âm học. 13 Chương 3: Lý thuyết nhận dạng tiếng nói 2009 Đồ án môn học 2 • Bước 2: nhận dạng tiếng nói. Cố gắng xác định một từ hợp lệ (hay chuỗi từ hợp lệ) từ một chuỗi các nhãn ngữ âm thu được tử bước 1 dựa trên cơ sở các ràng buộc (về từ vững và cú pháp) của tác vụ cần nhận dạng tiếng nói. Sơ đồ khối của phương pháp này được biểu diễn ở Hình 3.5.1 Bộ tách đặc trưng Tín hiệu tiếng nói Bộ tách đặc trưng Trích chọn đặc trưng . . . Tiếng nói được nhận dạng Phân đoạn Và Chọn lựa gán nhãn Bộ tách đặc trưng Hình 3.5.1: Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học Nguyên lý hoạt động của phương pháp có thể mô tả như sau: Trích chọn đặc trưng: Tín hiệu tiếng sau khi số hóa được đưa tới khối trích chọn đặc trưng nhằm xác định các phổ tín hiệu. Các kỹ thuật trích chọn đặc trưng tiếng nói phổ biến là sử dụng băng lọc (filter bank), mã hóa dự đoán tuyến tính (LPC)… Tách tín hiệu tiếng nói: nhằm biến đổi phổ tín hiệu thành một tập các đặc tính mô tả các tính chất âm học của các đơn vị ngữ âm khác nhau. Các đặc tính đó có thể là: tính chất các âm mũi, âm xát; vị trí các formant; âm hữu thanh, vô thanh; tỷ số mức năng lượng tín hiệu… Phân đoạn và gán nhãn: Ở bước này hệ thống nhận dạng tiếng xác định các vùng âm thanh ổn định (vùng có đặc tính thay đổi rất ít) và gán cho mỗi vùng này một nhãn phù hợp với đặc tính của đơn vị ngữ âm. Đây là bước quan trọng của hệ nhận dạng tiếng nói theo khuynh hướng Âm học-Ngữ âm học và là bước khó đảm bảo độ tin cậy nhất. 14 Chương 3: Lý thuyết nhận dạng tiếng nói Đồ án môn học 2 2009 Nhận dạng: Chọn lựa để kết hợp chính xác các khối ngữ âm tạo thành các từ nhận dạng. Đặc điểm của phương pháp nhận dạng tiếng nói theo hướng tiếp cận Âm học-Ngữ âm học: • Người thiết kế phải có kiến thức khá sâu rộng về Âm học-Ngữ âm học. • Phân tích các khối ngữ âm mang tính trực giác, thiếu chính xác. • Phân loại tiếng nói theo các khối ngữ âm thường không tối ưu do khó sử dụng các công cụ toán học để phân tích. 3.5.2 Tiếp cận nhận dạng mẫu Về cơ bản đây là một quan điểm sử dụng trực tiếp các mẫu tiếng nói (chính là đoạn tiếng nói cần nhận dạng) mà không cần xác định thật rõ các đặc trưng và cũng không cần phân đoạn tín hiệu.Phương pháp này cũng có 2 bước: • Bước 1: tích lũy các mẫu tiếng nói: Sử dụng tập mẫu tiếng nói (cơ sở dữ liệu mẫu tiếng nói) để đào tạo các mẫu tiếng nói đặc trưng (mẫu tham chiếu) hoặc các tham số hệ thống. • Bước 2: nhận dạng mẫu: đối sánh mẫu tiếng nói từ ngoài với các mẫu đặc trưng để ra quyết định. Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói cho đào tạo có đủ các phiên bản mẫu cần nhận dạng thì quá trình đào tạo có thể xác định chính xác các đặc tính âm học của mẫu (các mẫu ở đây có thể là âm vị, từ, cụm từ…). Hiện nay, một số kỹ thuật nhận dạng mẫu được áp dụng thành công trong nhận dạng tiếng nói là lượng tử hóa vector, so sánh thời gian động (DTW), mô hình Markov ẩn (HMM), mạng nơron nhân tạo (ANN). Hệ thống bao gồm các hoạt động sau: Trích chọn đặc trưng: Tín hiệu tiếng nói được phân tích thành chuỗi các số đo để xác định mẫu nhận dạng. Các số đo đặc trưng là kết quả xử lý của các kỹ thuật phân tích phổ như: lọc thông dải, phân tích mã hóa dự đoán tuyến tính (LPC), biến đổi Fourier rời rạc (DFT). Huấn luyện mẫu: Nhiều mẫu tiếng nói ứng với các đơn vị âm thanh cùng loại dùng để đào tạo các mẫu hoặc các mô hình đại diện, được gọi là mẫu tham chiếu hay mẫu chuẩn. Nhận dạng: Các mẫu tiếng nói được đưa tới khối phân loại mẫu. Khối này đối sánh mẫu đầu vào với các mẫu tham chiếu. Kối nhận dạng căn cứ vào các tiêu chuẩn đánh giá để quyết định mẫu tham chiếu nào giống mẫu đầu vào. 15 Chương 3: Lý thuyết nhận dạng tiếng nói 2009 Đồ án môn học 2 Tiếp cận nhận dạng mẫu thường được lựa chọn cho các ứng dụng nhận dạng tiếng nói bởi các lý do sau: ² Tính dễ sử dụng và dễ hiểu trong thuật toán. ² Tính bất biến và khả năng thích nghi đối với những từ vững, người sử dụng, các tập hợp đặc trưng, các thuật toán so sánh mẫu và các quy tắc quyết định khác nhau. ² Khẳng định tính năng cao trong thực tế. 3.5.3 Tiếp cận trí tuệ nhân tạo: Tiếp cận trí tuệ nhân tạo là tiếp cận cố gắng “máy móc hóa” chức năng nhận dạng theo cách mà con người áp dụng trí thông minh của mình trong việc quan sát, phân tích và thực hiện những quyết định trên các đặc trưng âm học của tín hiệu. Phương pháp ứng dụng trí tuệ nhân tạo kết hợp các phương pháp trên nhằm tận dụng tối đa các ưu điểm của chúng. Sơ đồ khối của phương pháp trí tuệ nhân tạo theo mô hình từ dưới lên (bottom-up) (Hình 3.5.3). Tiếng nói Phân tích tín hiệu Trích chọn đặc trưng Âm hữu thanh/Vô thanh/ Khoảng lặng Các Phân đoạn nguồn kiến Gán nhãn Nguyên tắc phân loại thức Phân lớp âm thanh Nguyên tắc ngữ âm Xác định từ Truy cập từ điển Xác định câu Mô hình ngôn ngữ Hình 3.5.3: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ dưới lên 16 Chương 3: Lý thuyết nhận dạng tiếng nói

Không có nhận xét nào :

Đăng nhận xét