2009
Đồ án môn học 2
Hai phương pháp trích chọn đặc trưng tiếng nói đang được sử dụng rộng rãi hiện
nay trong các hệ thống nhận dạng hiện nay: MFCC ( melscale frequency cepstral
coefficients) và PLP ( Perceptual Linear Prediction).
Phân tích cepstral theo thang đo mel MFCC
Phương pháp được xây dựng dựa trên sự cảm nhận của tai người đối với các dải
tần số khác nhau. Với các tần số thấp (dưới 1000 Hz), độ cảm nhận của tai người là tuyến
tính. Đối với các tần số cao, độ biến thiên tuân theo hàm logarit. Các băng lọc tuyến tính
ở tần số thấp và biến thiên theo hàm logarit ở tần số cao được sử dụng để trích chọn các
đặc trưng âm học quan trọng của tiếng nói.
Người ta chọn tấn số 1kHz, 40 dB trên ngưỡng nghe là 1000 Mel. Công thức gần đúng
biểu diễn quan hệ tần số ở thang mel và thang tuyến tính như sau:
mel(f) = 2595*log 10(1+f/700)
Một phương pháp để chuyển đổi sang thang mel là sử dụng băng lọc (Hình 3.4.2),
trong đó mỗi bộ lọc có đáp ứng tần số dạng tam giác. Số băng lọc sử dụng thường trên 20
băng. Thông thường, người ta chọn tần số từ 0 dến Fs/2 (Fs là tần số lấy mẫu tiếng nói).
Nhưng cũng có thể một dải tần giới hạn từ LOFREQ đến HIFREQ sẽ được dùng để lọc đi
các tần số không cần thiết cho xử lý. Chẳng hạn, trong xử lý tiếng nói qua đường điện
thoại có thể lấy giới hạn dải tần từ LOFREQ=300 đến HIFREQ=3400.
1
Tần số
0
Tần số mel
Hình 3.4.2: Các băng lọc tam giác theo thang tần số Mel
Phương pháp mã dự đoán tuyến tính LPC
Mô hình LPC được sử dụng để trích lọc các tham số đặc trưng của tín hiệu tiếng
nói. Kết quả của quá trình phân tích tín hiệu thu được một chuỗi gồm các khung tiếng
nói. Các khung này được biến đổi nhằm sử dụng cho việc phân tích âm học.
11
Chương 3: Lý thuyết nhận dạng tiếng nói
2009
Đồ án môn học 2
Nội dung phân tích dự báo tuyến tính là: một mẫu tiếng nói được xấp xỉ bởi tổ
hợp tuyến tính của các mẫu trước đó. Thông qua việc tối thiểu hóa tổng bình phương sai
số giữa các mẫu hiện tại với các mẫu dự đoán có thể xác định được một tập duy nhất các
hệ số dự báo. Các hệ số dự báo này là các trọng số được sử dụng trong tổ hợp tuyến tính.
Với dãy tín hiệu tiếng nói s(n), giá trị dự báo được xác định bởi:
trong đó αk : là các hệ số đặc trưng cho hệ thống.
Hàm sai số dự báo được tính theo công thức:
Để cực tiểu hóa lỗi cần tìm tập giá trị { αk } phù hợp nhất.
Phương pháp PLP
Phương pháp này là sự kết hợp của hai phương pháp đã trình bày ở trên
3.4.2 Phân lớp mẫu:
Ở bước này, hệ thống sẽ gán dãy các vector đặc tính thành dãy các tối ưu đơn vị
tiếng nói cơ bản. Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu, rule-based,
mô hình Markov ẩn, mạng Neuron
Nguyên tắc cơ bản của đối sánh mẫu đó là cất giữ một số lượng các mẫu tiếng
nói, bao gồm các vector đặc tính.Tín hiệu tiếng nói cần nhận dạng được phân tích và các
vector đặc tính của chúng sẽ được so sánh với các mẫu đã được cất giữ trước đó. Do tốc
độ phát âm là rất khác nhau, kỹ thuật DWT (Dynamic Time W arping)được áp dụng để
dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với các mẫu.
Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để
xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói. Đối với hệ thống
nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong tổng quát hóa sự đa dạng
của tín hiệu tiếng nói. Một vấn đề nữa là với cây quyết định rất khó phục hồi lỗi nếu như
một quyết định sai được xác định ngay từ khi bắt đầu phân tích.
Mô hình Markvo ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh
được áp dụng thành công trong nhận dạng tiếng nói. Đa số các hệ thống nhận dạng tiếng
nói đều dùng mô hình Markov ẩn. Chi tiết về mô hình Markov ẩn sẽ được trình bày trong
mục 3.6.2.
12
Chương 3: Lý thuyết nhận dạng tiếng nói
2009
Đồ án môn học 2
Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với
mong muốn sử dụng khả năng phân lớp mạnh của mạng. Mạng neuron truyền thẳng đa
lớp perceptron thường được sử dụng trong nhận dạng tiếng nói. Tuy nhiên m
ạng neuron
có hạn chế về khả năng mô hình hoá sự biến thiên của tiếng nói theo thời gian. Mô hình
mạng Neuron sẽ được trình bày trong chương 4.
3.4.3 Xử lý ngôn ngữ:
Mục đích của mô hình này là tìm ra xác su của từ trong phát âm theo sau các từ.
ất
Một phương pháp đơn giản hay được áp dụng đó là dùng N-gram, với giả thiết rằng từ
chỉ phụ thuộc vào n-1 các từ đứng trước nó.
Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp, ngữ
nghĩa, suy đoán và chúng tập trung vào sự phụ thuộc lân cận của một từ. Các xác suất của
mô hình ngôn ngữ có thể được tính toán trực tiếp từ cơ sở dữ liệu mà không cần đến các
luật ngôn ngữ như ngữ pháp hình thức của ngôn ngữ.
Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực
tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu.
Tuy nhiên vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba là
quá lớn. Do đó sẽ có nhiều bộ ba không xuất hiện hoặc xuất hiện rất ít chỉ một hoặc hai
lần trong cơ sở dữ liệu.
Mặc dù có khó khăn về tính toán, mô hình ngôn ngữ vẫn chứng minh được là
chúng đóng vai trò quan trọng trong các hệ thống nhận dạng. Trong các hệ thống nhận
dạng với kích thước lớn hiện nay.
3.5 Các tiếp cận nhận dạng tiếng nói
Về cơ bản có ba tiếp cận nhận dạng tiếng nói chính như sau:
1. Tiếp cận âm thanh-ngữ âm.
2. Tiếp cận nhận dạng mẫu.
3. Tiếp cận trí tuệ nhân tạo.
3.5.1 Tiếp cận âm thanh-ngữ âm
Phương pháp này dựa trên lý thuyết về Âm học-Ngữ âm học. Lý thuyết đó cho
biết có sự tồn tại của các đơn vị ngữ âm trong ngôn ngữ tiếng nói; các đơn vị ngữ âm
này được biểu diễn đặc trưng bởi một tập hợp những thuộc tính thể hiện trong tín hiệu âm
thanh hay biểu diễn phổ theo thời gian. Cách tiếp cận này có 2 bước:
• Bước 1: phân đoạn và gán nhãn. Gán một hoặc nhiều nhãn ngữ âm cho
mỗi vùng phân đoạn dựa theo các thuộc tính âm học.
13
Chương 3: Lý thuyết nhận dạng tiếng nói
2009
Đồ án môn học 2
• Bước 2: nhận dạng tiếng nói. Cố gắng xác định một từ hợp lệ (hay chuỗi
từ hợp lệ) từ một chuỗi các nhãn ngữ âm thu được tử bước 1 dựa trên cơ sở các ràng buộc
(về từ vững và cú pháp) của tác vụ cần nhận dạng tiếng nói.
Sơ đồ khối của phương pháp này được biểu diễn ở Hình 3.5.1
Bộ tách
đặc trưng
Tín hiệu
tiếng
nói
Bộ tách
đặc trưng
Trích
chọn
đặc trưng
.
.
.
Tiếng nói
được nhận
dạng
Phân
đoạn
Và
Chọn
lựa
gán nhãn
Bộ tách
đặc trưng
Hình 3.5.1: Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học
Nguyên lý hoạt động của phương pháp có thể mô tả như sau:
Trích chọn đặc trưng: Tín hiệu tiếng sau khi số hóa được đưa tới khối trích chọn
đặc trưng nhằm xác định các phổ tín hiệu. Các kỹ thuật trích chọn đặc trưng tiếng nói phổ
biến là sử dụng băng lọc (filter bank), mã hóa dự đoán tuyến tính (LPC)…
Tách tín hiệu tiếng nói: nhằm biến đổi phổ tín hiệu thành một tập các đặc tính
mô tả các tính chất âm học của các đơn vị ngữ âm khác nhau. Các đặc tính đó có thể là:
tính chất các âm mũi, âm xát; vị trí các formant; âm hữu thanh, vô thanh; tỷ số mức năng
lượng tín hiệu…
Phân đoạn và gán nhãn: Ở bước này hệ thống nhận dạng tiếng xác định các
vùng âm thanh ổn định (vùng có đặc tính thay đổi rất ít) và gán cho mỗi vùng này một
nhãn phù hợp với đặc tính của đơn vị ngữ âm. Đây là bước quan trọng của hệ nhận dạng
tiếng nói theo khuynh hướng Âm học-Ngữ âm học và là bước khó đảm bảo độ tin cậy
nhất.
14
Chương 3: Lý thuyết nhận dạng tiếng nói
Đồ án môn học 2
2009
Nhận dạng: Chọn lựa để kết hợp chính xác các khối ngữ âm tạo thành các từ
nhận dạng.
Đặc điểm của phương pháp nhận dạng tiếng nói theo hướng tiếp cận Âm học-Ngữ
âm học:
• Người thiết kế phải có kiến thức khá sâu rộng về Âm học-Ngữ âm học.
• Phân tích các khối ngữ âm mang tính trực giác, thiếu chính xác.
• Phân loại tiếng nói theo các khối ngữ âm thường không tối ưu do khó sử dụng
các công cụ toán học để phân tích.
3.5.2 Tiếp cận nhận dạng mẫu
Về cơ bản đây là một quan điểm sử dụng trực tiếp các mẫu tiếng nói (chính là
đoạn tiếng nói cần nhận dạng) mà không cần xác định thật rõ các đặc trưng và cũng
không cần phân đoạn tín hiệu.Phương pháp này cũng có 2 bước:
• Bước 1: tích lũy các mẫu tiếng nói: Sử dụng tập mẫu tiếng nói (cơ sở dữ
liệu mẫu tiếng nói) để đào tạo các mẫu tiếng nói đặc trưng (mẫu tham chiếu) hoặc các
tham số hệ thống.
• Bước 2: nhận dạng mẫu: đối sánh mẫu tiếng nói từ ngoài với các mẫu đặc
trưng để ra quyết định.
Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói cho đào tạo có đủ các phiên
bản mẫu cần nhận dạng thì quá trình đào tạo có thể xác định chính xác các đặc tính âm
học của mẫu (các mẫu ở đây có thể là âm vị, từ, cụm từ…). Hiện nay, một số kỹ thuật
nhận dạng mẫu được áp dụng thành công trong nhận dạng tiếng nói là lượng tử hóa
vector, so sánh thời gian động (DTW), mô hình Markov ẩn (HMM), mạng nơron nhân
tạo (ANN). Hệ thống bao gồm các hoạt động sau:
Trích chọn đặc trưng: Tín hiệu tiếng nói được phân tích thành chuỗi các số đo để
xác định mẫu nhận dạng. Các số đo đặc trưng là kết quả xử lý của các kỹ thuật phân tích
phổ như: lọc thông dải, phân tích mã hóa dự đoán tuyến tính (LPC), biến đổi Fourier rời
rạc (DFT).
Huấn luyện mẫu: Nhiều mẫu tiếng nói ứng với các đơn vị âm thanh cùng loại
dùng để đào tạo các mẫu hoặc các mô hình đại diện, được gọi là mẫu tham chiếu hay mẫu
chuẩn.
Nhận dạng: Các mẫu tiếng nói được đưa tới khối phân loại mẫu. Khối này đối
sánh mẫu đầu vào với các mẫu tham chiếu. Kối nhận dạng căn cứ vào các tiêu chuẩn
đánh giá để quyết định mẫu tham chiếu nào giống mẫu đầu vào.
15
Chương 3: Lý thuyết nhận dạng tiếng nói
2009
Đồ án môn học 2
Tiếp cận nhận dạng mẫu thường được lựa chọn cho các ứng dụng nhận dạng tiếng
nói bởi các lý do sau:
² Tính dễ sử dụng và dễ hiểu trong thuật toán.
² Tính bất biến và khả năng thích nghi đối với những từ vững, người
sử dụng, các tập hợp đặc trưng, các thuật toán so sánh mẫu và các quy tắc quyết định
khác nhau.
² Khẳng định tính năng cao trong thực tế.
3.5.3 Tiếp cận trí tuệ nhân tạo:
Tiếp cận trí tuệ nhân tạo là tiếp cận cố gắng “máy móc hóa” chức năng nhận dạng
theo cách mà con người áp dụng trí thông minh của mình trong việc quan sát, phân tích
và thực hiện những quyết định trên các đặc trưng âm học của tín hiệu. Phương pháp ứng
dụng trí tuệ nhân tạo kết hợp các phương pháp trên nhằm tận dụng tối đa các ưu điểm của
chúng. Sơ đồ khối của phương pháp trí tuệ nhân tạo theo mô hình từ dưới lên (bottom-up)
(Hình 3.5.3).
Tiếng nói
Phân tích tín hiệu
Trích chọn đặc trưng
Âm hữu thanh/Vô
thanh/ Khoảng lặng
Các
Phân đoạn
nguồn
kiến
Gán nhãn
Nguyên tắc phân loại
thức
Phân lớp âm thanh
Nguyên tắc ngữ âm
Xác định từ
Truy cập từ điển
Xác định câu
Mô hình ngôn ngữ
Hình 3.5.3: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ dưới lên
16
Chương 3: Lý thuyết nhận dạng tiếng nói
Không có nhận xét nào :
Đăng nhận xét