Biểu diễn năng lượng, biên độ, và tỉ lệ biến thiên qua giá trị không của tín hiệu tiếng nói theo thời gian

1.Các đặc tính cơ bản của tiếng nói

         Tiếng nói mà con người giao tiếp hằng ngày có bản chất là sóng âm thanh lan truyền trong không khí. Sóng âm trong không khí là sóng dọc do sự giản nở của không khí.Tín hiệu âm thanh tiếng nói là tín hiệu biến thiên liên tục về thời gian. Dải tần mà tai người có thể nghe được khá rộng, từ 20 đến 20.000Hz, là do đặc tính sinh lý qui định. Tín hiệu tiếng nói có độ dư thừa lớn do môi trường có nhiễu.Thực tế thì trong miền tần số 300 đến 3400Hz tiếng nói nghe được khá rõ, đây cũng chính dãi tần được người ta dùng trong điện thoại. Tín hiệu tiếng nói được tạo thành từ chuỗi các âm vị liên tiếp. Các âm vị này và các dạng chuyển đổi của chúng được xem như các ký hiệu biễu diễn thông tin. Sự sắp xếp những âm vị này được chi phối bởi các qui luật ngôn ngữ, cho nên các mô hình toán học khi được áp dụng đều phải gắn bó mật thiết với việc nghiên cứu các qui luật này.

1.1. Đặc tính vật lý của âm thanh

1.1.1. Độ cao

Độ cao hay còn gọi là độ trầm bổng của âm thanh. Độ trầm bổng của âm thanh phụ thuộc vào sự chuyển động nhanh hay chậm của các phần tử không khí trong một đơn vị thời gian. Nói cách khác, độ cao phụ thuộc vào tần số dao động. Đối với tiếng nói, tần số dao động của đôi dây thanh qui định độ cao giọng nói của con người và mỗi người có một độ cao giọng nói khác nhau.

1.1.2. Cường độ.

 Cường độ chính là độ to nhỏ của âm thanh, cường độ càng lớn thì âm thanh truyền đi càng xa trong môi trường có nhiễu. Cường độ của sóng tiếng nói do biên độ dao động của sóng qui định. Trong tiếng nói, cường độ của nguyên âm thường lớn hơn phụ âm nên tai người nghe nguyên âm dễ hơn.

1.1.3. Độ dài

 Độ dài của âm phụ thuộc vào sự chấn động lâu hay mau của các phần tử không khí. Cùng một âm nhưng trong các từ khác nhau thì độ dài khác nhau.

1.1.4. Âm sắc

 Âm sắc là sắc thái riêng của một âm, cùng một nội dung, cùng một độ cao nhưng mỗi người nói có âm sắc khác nhau.

1.2. Đặc tính âm học của âm thanh

   Tín hiệu tiếng nói là tín hiệu tương tự biễu diễn thông tin về mặt ngôn ngữ và được mô tả bởi các âm vị khác nhau. Mỗi ngôn ngữ có số lượng các âm vị khác nhau, thông thường cỡ 20-30 và bé hơn 50 cho mọi ngôn ngữ. Các âm vị được chia làm hai loại chính là nguyên âm và phụ âm.  Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa.

 1.2.1. Nguyên âm

          Nguyên âm được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh môn đẩy lên. Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau. Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định. Mỗi nguyên âm được đặc trưng bởi ba formant đầu.

 

 

1.2.2. Phụ âm

         Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Dòng không khí tại chổ đóng của vòm miệng tạo ra phụ âm tắc. Những phụ âm xát được phát ra từ chỗ co thắt lớn nhất và các âm tắc xát tạo ra từ khoảng giữa. Phụ âm có đặc tính hữu thanh và vô thanh tuỳ thuộc vào dây thanh có dao động để tạo thành cộng hưởng không. Đặc tính của phụ âm tuỳ thuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và sự truyền dẩn âm.

1.2.3. Tỷ suất thời gian

         Trong khi nói chuyện, khoảng nói chuyện và khoảng nghỉ xen kẻ nhau. Tỷ số thời gian nói và nghỉ gọi là tỷ suất thời gian.

1.2.4. Hàm năng lượng thời gian ngắn

          Hàm năng lượng thời gian ngắn được tính bằng cách chia tín hiệu tiếng nói thành nhiều khung chứa N mẫu và tính diện tích trung bình tổng các mẫu tín hiệu trong mỗi khung. Các khung này được đưa qua một cửa sổ có dạng hàm như sau:

                                                                                                                                                                           W(n)        với   0£  n £ N                                                                                                                      W(n)=

              0              với    n > N

    Hàm năng lượng ngắn được tính theo công thức sau:

               Em=S{x(n+m)* W(n)}2 ,   n=0,1,2,…,N-1.

Thông thường có ba dạng cửa sổ được dùng là cửa sổ Hamming, cửa sổ Hanning và cửa sổ chử nhật.

                                                             1      Với 0£ n £ N

              Dạng chữ nhật:    W(n)= {

                                                              0     với n >N.

                                                              0.54-0.46cos (n)      Với 0£ n £ N

              Dạng Hammming:  W(n)= {

                                                              0     với n >N.

                                                              0.5-0.5cos (n)      Với 0£ n £ N

              Dạng Hannming:  W(n)= {

                                                              0     với n >N.

Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn âm vô thanh.

 1.2.5, Tỉ lệ biến thiên qua điểm không.

         Tỉ lệ biến thiên qua điểm không là số lần biên độ tín hiệu tiếng nói vượt qua giá trị không trong khoảng thời gian cho trước. Thông thường giá trị này của âm vô thanh lớn hơn âm hữu thanh do đặc tính ngẫu nhiên của âm vô thanh. Đặc điểm này cũng được ứng dụng trong quá trình tiền xử lý trong nhân dạng tiếng nói tự động.

 

 1.2.6. Phát hiện điểm cuối

             Trong xử lý tiếng nói việc xác định khi nào bắt đầu xuất hiện tín hiệu tiếng nói và khi nào kết thúc quá trình nói rất cần thiết và quan trọng. Có nhiều phương pháp, ví dụ như phương pháp sau:

   Lấy một mẫu nhỏ của nền nhiễu trong khoảng thời gian yên lặng trước khi nói. Dùng hàm năng lượng thời gian ngắn để tính năng lượng cho mẫu. ngưỡng của tiếng nói được chọn là giá trị giữa năng lượng yên tĩnh và năng lượng đỉnh. Ban đầu giả thiết điểm cuối xuất hiện tại điểm năng lượng tín hiệu vượt quá ngưỡng. Để tính đúng ước lượng này, người ta giả thiết và so sánh chúng với giá trị đó trong vùng yên tĩnh. Khi những thay đổi phát hiện được trong khi tính toán tần suất trên ở ngoài ngưỡng giả thiết thì điểm cuối được giả thiết lại tại điểm mà sự thay đổi xảy ra.

1.2.7. Tần số cơ bản   

          Dạng sóng của tiếng nói gồm hai phần: Phần giống nhiễu trong đó biên độ biến đổi ngẫu nhiên và phần có tính chu kỳ trong đó tín hiệu lặp lại gần như tuần hoàn. Phần  tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều hoà. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của thanh môn. Đối với người nói khác nhau, tần số cơ bản cũng khác nhau. Bảng sau cho biết tần số cơ bản của giới tính và tuổi:

Tần số cơ bản Người nói
 80   – 200 Hz Đàn ông
150 ­­-  450 Hz Phụ nữ
200 –  600 Hz Trẻ em

         Đối với hai âm có cùng cường độ, độ cao, sẽ được phân biệt bởi tính tuần hoàn. Một âm hữu thanh có tính tuần hoàn khi phân tích phổ sẽ xuất hiện một vạch tại vùng tần số rất thấp. Vạch này đặc trưng cho tần số cơ bản của âm. Trong hội thoại tần số cơ bản thay đổi liên tục.

 1.2.8. Formant

          Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ cao nhất xét trong một khoảng nào đó( cực đại khu vực ) xác định một formant. Ngoài tần số, formant còn được xác định cả biên độ và dải thông của chúng. Về mặt vật lý các tần số formant tương ứng với các tần số cộng hưởng của tuyến âm. Trong xử lý tiếng nói đặc biệt là trong tổng hợp tiếng nói, để mô phỏng lại tuyến âm người ta phải xác định được các tham số formant đối với từng loại âm vị, do đó việc đánh giá ước lượng các formant có ý nghĩa rất quan trọng.

         Tần số formant biến đổi trong một dải rộng phụ thuộc vào giới tính người nói và đối với từng âm vị. Đồng thời formant còn phụ thuộc vào các âm vị trước và sau nó. Thông thường phổ tần số tiếng nói chứa khoảng 6 formant  nhưng ảnh hưởng lớn nhất đến đặc tính của âm vị là 3 formant đầu tiên.

         Tần số formant đặc trưng cho nguyên âm biến đổi tuỳ thuộc vào người nói trong điều kiện phát âm nhất định. Mặc dù phạm vi tần số formant của các nguyên âm có thể trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì sự xê dịch của các formant là song song.

  1. Cấu trúc file wave.

2.1. Khái niệm về tập tin Wav

          Tập tin wave là một dạng tập tin dùng để lưu trữ dữ liệu âm thanh số (dạng sóng)và nó là một trong những định dạng phổ biến nhất của hệ điều hành Windows.Tập tin wave thuộc chuẩn RIFF ( Resource Interchange File Format- dạng tập tin tài nguyên có thể trao đổi) và đặc điểm của những tập tin thuộc chuẩn RIFF đó là nó sẽ nhóm nội dung của tập tin thành các khối riêng biệt và mỗi một khối sẽ gồm một header (dùng để qui định kiểu và kích thước của khối ) và các byte dữ liệu.
2.2. Cấu trúc tập tin wave.

Cấu trúc file wave gồm 3 khối: khối mô tả dạng RIFF,khối thuộc tính “fmt “ và khối dữ liệu “data” trong đó khối thuộc tính “fmt” và khối dữ liệu “data” là 2 khối con của khối mô tả dạng RIFF.

  1. Khối mô tả dạng RIFF:
    Khối này xác định dạng RIFF và có kích thước là 12 byte gồm các trường:

+ ChunkID:
­            Kích thước: 4 byte
­            Chức năng: chứa chuỗi “RIFF” dưới dạng mã ASCII
+ ChunkSize:
­            Kích thước: 4 byte
­            Chức năng: cho biết tổng kích thước của các trường sau nó.
(ChunkSize=4+(8+Subchunk1Size)+(8+Subchunk2Size))
+ Format:
­            Kích thước: 4 byte
­            Chức năng: chứa chuỗi “WAVE”.

  1. Khối thuộc tính “fmt ”:

Khối này xác định các thuộc tính của dữ liệu âm thanh và có kích thước là 24 byte gồm các trường:
+ Subchunk1ID:
­                        Kích thước: 4 byte
Chứa chuỗi “fmt ”.
+ Subchunk1Size:
­                          Kích thước: 4 byte
­                          Chức năng:cho biết tổng kích thước của các trường thuộc khối thuộc tính đứng phía sau trường này.(đối với tập tin wave không nén thì Subchunk1Size bằng 16)
+ AudioFormat:
­                          Kích thước: 2 byte
­                          Chức năng: cho ta biết dạng nén của dữ liệu trong tập tin wave.
Một số giá trị thông dụng

0   : Không xác định
1   :  Không nén (PCM-Pulse Code Modulation)
80 : MPEG
49 : GSM 6.10
17 : IMA ADPCM

+ NumChannels:
­                          Kích thước: 2 byte
­                          Chức năng: cho biết số kênh của tập tin wave.
(Mono=1,Stereo=2,v.v)
+ SampleRate:
­                           Kích thước: 4 byte
­                           Chức năng: cho biết số mẫu trên 1 s và đây chính là tần số lấy mẫu của file wav
+ ByteRate:
­                           Kích thước: 4 byte
­                         Chức năng:cho biết số byte trên 1 s ứng với tần số lấy mẫu trên.
(ByteRate=SampleRate*NumChannels*(BitsperSample/8))
+ BlockAlign:
­                        Kích thước:2 byte
­                        Chức năng: cho biết số byte của 1 mẫu gồm tất cả các kênh.
+ BitsPerSample: cho biết số bit trên 1 mẫu chỉ tính cho 1 kênh.
( 8 bit=8,16 bit=16,v.v)

  1. Khối dữ liệu “data”:
    + Subchunk2ID:
    ­                        Kích thước: 4 byte
    ­                        Chức năng: chứa chuỗi “data”.
    + Subchunk2Size:
    ­                        Kích thước:4 byte
    ­                        Chức năng: cho biết kích thước của dữ liệu âm thanh thô trong trường data.
    (Subchunk2Size=NumSamples*NumChannels*BitsperSample/8)
    + Data: trường data chứa các byte dữ liệu âm thanh và các byte dữ liệu này sẽ nhóm thành các mẫu,mỗi mẫu có 1 hoặc 2 kênh.Tùy vào số kênh của một mẫu(xác định bởi trường NumChannels) và số bit trên 1 kênh (xác định bởi trường BitsPerSample) mà ta sẽ xác định được số byte của 1 mẫu.

 

Leave a Reply