/*! Ads Here */

Mfcc là gì Đầy đủ

Mẹo về Mfcc là gì Chi Tiết

Pro đang tìm kiếm từ khóa Mfcc là gì được Cập Nhật vào lúc : 2022-04-11 11:25:12 . Với phương châm chia sẻ Thủ Thuật về trong nội dung bài viết một cách Chi Tiết 2022. Nếu sau khi đọc nội dung bài viết vẫn ko hiểu thì hoàn toàn có thể lại Comments ở cuối bài để Mình lý giải và hướng dẫn lại nha.

là tập những frame liên tục nhau, trích chọn đặc trưng MFCC cho ta tập đặc trưng cho mỗiframe tiếng nói này. Tại sao phải phân thành những frame và những frame rõ ràng chúng có đặctrưng thế nào, ta sẽ đề cập tới ở ngay phần sau này.2.2. TRÍCH CHỌN ĐẶC TRƯNG MFCC 2Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC là phương pháp phổbiến nhất. MFCC là viết tắt của Mel-frequency cepstral coefficients. Kỹ thuật này dựatrên việc thực thi biến hóa để chuyển tài liệu âm thanh nguồn vào (đã được biến hóa Fouriercho phổ) về thang đo tần số Mel, một thang đo diễn tả tốt hơn sự nhạy cảm của tai ngườiđối với âm thanh. Kỹ thuật trích chọn đặc trưng này gồm tiến trình biến hóa liên tục,trong số đó đầu ra của bước biến hóa trước sẽ là nguồn vào của bước biến hóa sau. Đầu vào củaquá trình trích chọn đặc trưng này sẽ là một đoạn tín hiệu tiếng nói. Vì tín hiệu âm thanhsau khi được đưa vào máy tính đã được rời rạc hóa nên đoạn tín hiệu tiếng nói này baogồm bộ sưu tập liên tục nhau, mỗi mẫu là một giá trị thực, thể hiện giá trị biên độ của âmthanh tại 1 thời gian.Trích chọn đặc trưng MFCC gồm sáu bước như trong hình vẽ sau, kết quả là một tập gồm39 giá trị đặc trưng cho từng một frame tiếng nói.Hình 2 (nguồn [2]): Sơ đồ quy trình trích chọn đặc trưng MFCC2.2.1. Pre-emphasisTín hiệu âm thanh thường được thu ở môi trường tự nhiên vạn vật thiên nhiên đời thường, tiếng nói bình thườngcủa một người cũng không được to, trừ khi nói to có chủ định, do đó nhiễu của môitrường (tần số thấp) nhiều khi có cường độ lớn bằng một phần đáng kể (nghe hoàn toàn có thể dễdàng nhận ra) của tiếng nói khi thu âm, bước thứ nhất của quy trình trích chọn đặc trưng2 Nội dung tìm hiểu thêm từ cuốn Speech and Language Processing, 2007, chapter 9. Tác giả Daniel Jurafsky &Jame H.Martin.8MFCC sẽ xử lý yếu tố này, bằng việc thực thi tăng cường mức độ của những tần số cao lênnhằm làm tăng nguồn tích điện ở vùng có tần số cao – vùng tần số của tiếng nói, một cách dễhiểu là làm tiếng nói to nhiều hơn lên để ảnh hưởng của những âm thanh môi trường tự nhiên vạn vật thiên nhiên và nhiễu trởthành không đáng kể. Việc tăng cường mức độ của vùng tần số cao lên đồng thời làm chothông tin rõ ràng hơn riêng với mẫu tiếng nói. Hình sau mô tả trước và sau quy trình Preemphasis của một đoạn tín hiệu âm thanh:Hình 3 (nguồn [2]): Một đoạn tần âm thanh trước và sau Pre-Emphasis2.2.2. WindowingTrong khối mạng lưới hệ thống nhận dạng tiếng nói được trình diễn ở khóa luận này, với mục đíchnâng cao độ đúng chuẩn của việc nhận dạng tiếng, thay vì nhận dạng từng từ riêng không liên quan gì đến nhau, mỗimột từ trong đoạn hội thoại sẽ tiến hành phân tích thành những âm vị (subphone) [7], và hệthống sẽ nhận dạng từng âm vị. Âm vị ở đấy là cty phát âm của một từ, những âm vị cấuthành tiếng nói, trong tiếng Anh, nó là cty cấu thành phiên âm của từ (ví dụ điển hình ONE:w-ah-n, âm vị ở đấy là w, ah và n), trong cách phát âm của tiếng Việt, cách viết của từchính là hình thức văn bản của âm vị (ví dụ điển hình “MOT” = “m-oo-t”, âm vị là m, oo và t).Vì nguyên do đó, những đặc trưng nên phải được trích chọn trên từng âm vị, thay vì cả từ hay cảđoạn tiếng nói dài. Windowing là việc cắt đoạn tín hiệu âm thanh nguồn vào ra thành cácmẩu tín hiệu có thời lượng nhỏ, gọi là những frame. Mỗi frame này tiếp theo này sẽ tiến hành nhậndạng nó thuộc âm vị nào. Nói cách khác, một frame sẽ là một tập gồm một số trong bộ sưu tập của tínhiệu ban đầu ta đã đề cập ở phần 2.1.9Một nguyên do khác đã cho toàn bộ chúng ta biết sự thiết yếu của việc windowing là vì tín hiệu âm thanh thay đổirất nhanh, do đó những thuộc tính như biên độ, chu kỳ luân hồi sẽ tạm bợ. Khi tín hiệu âmthanh được cắt ra thành những đoạn nhỏ thì ở mỗi đoạn, hoàn toàn có thể coi tín hiệu đó là ổn định,những đặc trưng của tín hiệu là không đổi theo thời hạn. Hình vẽ sau mô tả quá trìnhWindowing:Hình 4 (nguồn [2]): Minh họa quy trình WindowingĐể thực thi việc này, toàn bộ chúng ta sử dụng một hiên chạy cửa số (window) chạy dọc tín hiện âm thanhvà cắt ra những đoạn tín hiệu nằm trong hiên chạy cửa số đó. Một hiên chạy cửa số được định nghĩa bằng cácthông số:- Frame size: độ rộng của hiên chạy cửa số, cũng là độ lớn của frame tín hiệu sẽ tiến hành cắt ra.- Frame shift: bước nhảy của hiên chạy cửa số, là độ dài đoạn mà hiên chạy cửa số sẽ trượt để cắt raframe tiếp theo.Mỗi frame tiếp theo này sẽ tiến hành nhân với một thông số, giá trị của thông số này tùy thuộc vào từngloại hiên chạy cửa số.Trong số đó x[n] là giá trị của mẫu thứ n, y[n] là giá trị của mẫu thứ n sau khi nhân với hệsố, w[n] là thông số cho mẫu thứ n trong frame đó.10Loại hiên chạy cửa số đơn thuần và giản dị nhất là hiên chạy cửa số Rectangular, giá trị của những thông số w[n] được cho bởicông thức sau:Nói cách khác, của sổ Rectangular với bước nhảy là frame shift, ta lấy frame size giá trịliên tiếp của tín hiệu làm một frame.Một loại hiên chạy cửa số khác thông dụng hơn trong trích chọn đặc trưng MFCC là cửa sổHamming. Trong loại hiên chạy cửa số này, giá trị của tín hiệu sẽ giảm dần về 0 khi tiến dần ra haibiên của frame. Nói cách khác, nếu sử dụng hiên chạy cửa số Hamming để lấy ra những frame, nănglượng của mỗi frame sẽ triệu tập ở giữa frame, một ưu điểm nữa là những giá trị biên củacửa sổ Hamming tiến dần về 0 sẽ làm bước biến hóa Fourier ngay sau trở nên thuận tiện và đơn thuần và giản dị hơn(với hiên chạy cửa số Rectangular những giá trị không thay đổi so với mẫu tiếng nói, bên phía ngoài cửa sổnhận giá trị 0, những giá trị sẽ bị tăng đột ngột ở hai biên). Hệ thống nhận dạng trong khóaluận này trình diễn sẽ sử dụng hiên chạy cửa số Hamming. Biểu thức thông số của hiên chạy cửa số này là:So sánh hai loại hiên chạy cửa số Rectangular và HammingHình 5 (nguồn [2]): So sánh Rectangular (trái) và Hamming window (phải)2.2.3. DFT (Discrete fourier transform)Bước biến hóa tiếp theo là thực thi biến hóa Fourier rời rạc riêng với từng mẩu tínhiệu đã được cắt ra. Qua phép biến hóa này, tín hiệu sẽ tiến hành đưa về không khí tần số.Công thức của biến hóa Fourier:11Trong đó x[n] là giá trị của mẫu thứ n trong frame, X[k] là một số trong những phức màn biểu diễn cườngđộ và pha của một thành phần tần số trong tín hiệu gốc, N là số mẫu trong một frame.Thông thường người ta sử dụng biến hóa FFT (Fast fourier transform) thay vì DFT. Biếnđổi FFT nhanh hơn nhiều so với biến hóa DFT, tuy nhiên thuật toán này yên cầu giá trị Nphải là một lũy thừa của 2. Hình sau mô tả trước và sau khi biến hóa DFT của một hiên chạy cửa số:Hình 6 (nguồn [2]): Biến đổi DFT cho một Hamming window2.2.4. Mel filter-bank and logKết quả của quy trình biến hóa Fourier thể hiện nguồn tích điện của tín hiệu ở những dảitần số rất khác nhau. Tuy nhiên, tai của người lại không còn sự nhạy cảm như nhau đối vớimọi dải tần số. Do đó việc quy mô hóa tính chất này của tai người trong quy trình tríchchọn đặc trưng làm tăng kĩ năng nhận dạng của khối mạng lưới hệ thống. Trong quy mô trích chọn đặctrưng MFCC, tần số sẽ tiến hành chuyển sang thang đo tần số mel theo công thức:Trong số đó f là tần số ở thang đo thường, fmel là tần số ở thang đo mel. Người ta sử dụng cácbăng lọc để tính những thông số mel. Sử dụng bao nhiêu băng lọc thì sẽ cho ra bấy nhiêu hệ sốmel, và những thông số mel này sẽ là nguồn vào cho quy trình tiếp theo của trích chọn đặc trưngMFCC.12Hình vẽ sau màn biểu diễn quy mô những băng lọc trong thang đo tần số thông thường và thangđo mel:Hình 7 (nguồn [2]): Mô hình những băng lọc trong thang đo tần số thông thường và thang đo melCuối cùng của quy trình này, ta lấy logarit cơ số tự nhiên của phổ tính theo thang đoMel, thao tác này còn có 2 nguyên nhân, một là vì tai người nhạy cảm với âm thanh cường độthấp hơn, hai là làm những giá trị đặc trưng nhỏ đi, tiện cho việc tính toán.2.2.5. Discrete consinse transformBước tiếp theo của việc trích chọn đặc trưng MFCC là biến hóa fourier ngược vớiđầu vào là những thông số phổ mel của bước trước, đầu ra sẽ là những thông số cepstrum (MFCC –Mel Frequency Cepstrum Coefficients).Sau khi thực thi biến hóa Fourier thì dãy tín hiệu theo thời hạn đã được chuyểnthành phổ tần số, và việc vận dụng những băng lọc tần số mel giúp cô đọng phổ tần số về mộtsố thông số nhất định (bằng với số băng lọc). Các thông số này thể hiện những đặc trưng của nguồnâm thanh như tần số cơ bản, xung âm thanh… Tuy nhiên, những đặc trưng này sẽ không còn quantrọng riêng với việc phân biệt những âm rất khác nhau. Thay vào đó, những đặc trưng về bộ máyphát âm (khoang miệng, khoang mũi, thanh quản, hầu) rất thiết yếu cho việc nhận dạngcác âm. Việc thực thi biến hóa fourier ngược sẽ hỗ trợ tách biệt những đặc trưng về nguồn13âm và cỗ máy phát âm từ những thông số (những đặc trưng về cỗ máy phát âm là những thông số đầutiên).2.2.6. Feature extractionTừ những thông số mel thu được từ quy trình trước, thông thường toàn bộ chúng ta chỉ lấy ra 12 hệsố thứ nhất để chọn làm đặc trưng. 12 thông số này chỉ đặc trưng cho những bộ phận của cục máyphát âm. Như vậy toàn bộ chúng ta đã có 12 đặc trưng thứ nhất.Đặc trưng thứ 13 là nguồn tích điện của âm. Năng lượng của mỗi khung tín hiệu được tínhngay từ sau bước windowing:Với 13 đặc trưng đó, toàn bộ chúng ta thêm vào 13 đặc trưng delta thể hiện vận tốc thay đổi củacủa âm Một trong những khung tín hiệu, được xem bằng công thức:trong số đó d(t) là đặc trưng delta của khung t, c(t+1) và c(t-1) là những đặc trưng phổ củakhung ngay sau và trước khung t; và 13 đặc trưng double delta thể hiện tần suất thay đổicủa âm Một trong những khung tín hiệu. Công thức tính những đặc trưng double delta giống với côngthức tính những đặc trưng delta, khi coi c(t) là giá trị của những đặc trưng delta.2.2.7. Tổng kếtTrích chọn đặc trưng MFCC sẽ thu được những đặc trưng sau này:- 12 giá trị đặc trưng phổ Mel được biến hóa Fourier ngược- 12 giá trị delta phổ- 12 giá trị double delta phổ- 1 giá trị mức nguồn tích điện- 1 giá trị delta mức nguồn tích điện- 1 giá trị double delta mức năng lượng14Tổng cộng: 39 đặc trưng cho từng frame tiếng nói.Chương 3. ĐẶC TRƯNG VỀ THANH ĐIỆU CỦA TIẾNG VIỆTỞ chương trước ta đã trình diễn về việc chọn đặc trưng cho tiếng nói tiếng Việt thôngqua mô phỏng cỗ máy phát âm, này cũng là đặc trưng chung cho những ngôn từ khác. Tuynhiên, tiếng nói tiếng Việt còn tồn tại những điểm lưu ý riêng, đặc trưng và độc lạ, việc tìm hiểunhững đặc trưng này và đưa chúng vào phục vụ nhận dạng sẽ làm tăng độ đúng chuẩn toàncục của khối mạng lưới hệ thống nhận dạng tiếng nói.153.1. Khái niệm ngôn điệu, ngữ điệu và thanh điệu 3Nói một cách nôm na, trong ngôn từ nói, “ngôn điệu” là cái mang lại âm sắc chotiếng nói, âm sắc là biểu lộ tự nhiên của giọng nói, mang ý nghĩa nhấn mạnh yếu tố hoặc thểhiện sắc thái tình cảm, lời nói không còn ngôn điệu in như lời nói của robot, khônggiống tiếng nói tự nhiên. Các nhà ngôn từ học nhận định rằng bản chất ngôn điệu là yếu tố phủ lênâm tiết những yếu tố trọng âm, thanh điệu, ngữ điệu và trường độ. Vai trò của ngôn điệu rấtquan trọng trong tổng hợp tiếng nói, nếu không xử lý được yếu tố ngôn điệu thì khôngthể tổng hợp được tiếng nói tự nhiên của con người được. Đặc trưng quan trọng nhất củangôn điệu là độ cao, độ dài, độ to, tương ứng là những đại lượng tần số cơ bản F0, thời giancủa âm tiết, âm vị D, và cường độ I.Ngôn điệu của lời nói link ngặt nghèo với khái niệm “ngữ điệu”. Có thể nói ngữđiệu là yếu tố nâng cao hạ thấp của lời nói trong câu, khi xét là một âm tiết (trong tiếng Việtgọi là một tiếng) ngữ điệu thời gian hiện nay trở thành thanh điệu của âm tiết đó. Đặc trưng chínhcho tính chất này là tần số cơ bản của giọng nói: F0. Việc lấy những giá trị F0 theo thời giantạo thành đường nét F0. Trong lời nói liên tục, đường nét F0 cho từng thanh điệu có cácđặc trưng rất khác nhau, tín hiệu thô ban đầu là dạng thô của đường nét F0, ở chương này, tađi nghiên cứu và phân tích cách làm mịn đường nét F0 cho từng âm tiết riêng không liên quan gì đến nhau, theo như đúng giới hạnban đầu của bài toán.3.2. Tìm đường nét F0 và nghiên cứu và phân tích điểm lưu ý của từng thanh điệu trong tiếng ViệtTrong tiếng Việt, có 6 thanh điệu được sử dụng: thanh ngang, huyền, sắc, hỏi,nặng và ngã. Trong văn học xưa từng xuất hiện luật bằng trắc: thanh bằng chỉ âm tiết cóđường nét có khunh hướng đi ngang hoặc đi xuống (là thanh ngang, huyền) thanh trắc chỉâm tiết có đường nét tăng trưởng (thanh sắc, nặng, ngã), tuy nhiên phân loại như vậy là chưachặt chẽ và khá đầy đủ. Sau đây, ta sẽ đưa ra một cách làm mịn đường nét F0 thể hiện thanhđiệu tiếng nói và nghiên cứu và phân tích điểm lưu ý của từng thanh điệu.3 Nội dung tìm hiểu thêm trong tài liệu: “Mô hình Fujisaki và vận dụng trong phân tích thanh điệu tiếng Việt” của BạchHưng Nguyên, Nguyễn Tiến Dũng.16

Chia Sẻ Link Cập nhật Mfcc là gì miễn phí

Bạn vừa đọc tài liệu Với Một số hướng dẫn một cách rõ ràng hơn về Review Mfcc là gì tiên tiến và phát triển nhất Chia Sẻ Link Down Mfcc là gì Free.

Hỏi đáp vướng mắc về Mfcc là gì

Nếu sau khi đọc nội dung bài viết Mfcc là gì vẫn chưa hiểu thì hoàn toàn có thể lại Comments ở cuối bài để Admin lý giải và hướng dẫn lại nha #Mfcc #là #gì

*

Đăng nhận xét (0)
Mới hơn Cũ hơn

Responsive Ad

/*! Ads Here */

Billboard Ad

/*! Ads Here */