[go: up one dir, main page]

MP3

Định dạng mã hóa cho âm thanh kỹ thuật số được phát triển bởi Fraunhofer Society

MP3 là một dạng file đã được nén bằng cách nén dữ liệu có tổn hao (lossy). Nó là một dạng âm thanh được mã hóa PCM (pulse-code modulation) và có dung lượng nhỏ hơn rất nhiều so với dữ liệu ban đầu do nó bỏ đi những phần âm thanh được cho là không quan trọng trong khoảng nghe được của con người, tương tự như định dạng nén JPEG dành cho hình ảnh.

MP3
Phần mở rộng tên file.mp3[1]
Kiểu phương tiện
  • audio/mpeg[2]
  • audio/MPA[3]
  • audio/mpa-robust[4]
Phát triển bởiMPEG
Phát hành lần đầu1991; 33 năm trước (1991)[5]
Kiểu định dạngÂm thanh kĩ thuật số
Được chứa bởiMPEG-ES
Định dạng mở?[6]

Đặc điểm

sửa

Tên của định dạng mp3 bắt nguồn từ "MPEG-1, layer 3", còn được gọi chính thức hơn là ISO/IEC 11172-3 lớp 3. Những tập tin theo dạng này được lưu với phần mở rộng .mp3. Đôi khi những tập tin theo tiêu chuẩn MPEG-2, layer 3 cũng sử dụng phần mở rộng này.

Có rất nhiều kỹ thuật đã được dùng trong chuẩn nén MP3 để xác định phần nào nên bỏ đi, trong đó có tâm lý học về âm thanh (psychoacoustic). Dữ liệu MP3 có thể được tạo ra với nhiều bitrate khác nhau để có thể dễ dàng chọn lựa giữa chất lượng cao hay dung lượng tập tin đầu ra nhỏ.

Cốt lõi của kỹ thuật nén MP3 là một dạng biến đổi phức để chuyển đổi tín hiệu sóng ngang theo thời gian thành tín hiệu dựa theo tần số:

  • 32 băng tần phép lọc cầu phương đa âm.
  • 36 hay 12 nhánh MDCT; kích cỡ có thể được định cho từng băng tần con từ 0 đến 1, từ 2 đến 31.
  • đặt ký hiệu (aliasing) để làm giảm cỡ tập tin sau nén.

MP3 vòm, một dạng MP3 hỗ trợ 5+1 kênh cho âm thanh vòm, được giới thiệu vào tháng 12 năm 2004. MP3 vòm có tính tương thích ngược với chuẩn MP3 trước đây, và kích cỡ file sau nén cũng tương tự.

Theo dự án mới của MPEG thì AAC (Advanced audio coding), một phần của chuẩn MPEG-4 sẽ là chuẩn kế thừ MP3. Đã có rất nhiều kỹ thuật nén khác được tạo ra nhưng sản phẩm kế thừa nào cũng khó lòng thay thế được MP3 vì nó đã trở nên quá phổ biến cả của người dùng và những nhà sản xuất các đầu đọc CD, DVD.

MPEG-1 hay MPEG-2 Audio Layer III, [4] thường được gọi là MP3, là một định dạng mã hóa cấp bằng sáng chế cho âm thanh kỹ thuật số trong đó sử dụng một hình thức nén dữ liệu lossy. Đây là một định dạng âm thanh phổ biến cho việc lưu trữ âm thanh của người tiêu dùng, cũng như một tiêu chuẩn trên thực tế của âm thanh nén kỹ thuật số cho việc chuyển giao và phát lại của âm nhạc trên hầu hết các máy nghe nhạc kỹ thuật số âm thanh.

MP3 là một định dạng âm thanh cụ thể đã được thiết kế bởi Moving Picture Experts Group (MPEG) như là một phần của tiêu chuẩn MPEG-1 và sau đó mở rộng trong tiêu chuẩn MPEG-2. The 1 MPEG nhóm nhỏ - âm thanh nhóm được hình thành bởi đội một số kỹ sư tại Fraunhofer IIS, Đại học Hannover, AT & T-Chuông Labs, Thomson-Brandt, CCETT, và những người khác [7] MPEG-1 âm thanh (MPEG-1 Phần 3)., trong đó bao gồm MPEG-1 lớp âm thanh I, II và III đã được phê duyệt như là một ủy ban dự thảo của tiêu chuẩn ISO / IEC vào năm 1991, [8] [9] hoàn thành vào năm 1992 [10] và xuất bản năm 1993 (ISO / IEC 11.172-3: 1993 [5]). Tương thích ngược MPEG-2 Audio (MPEG-2 Phần 3) với tốc độ bit bổ sung và tỷ lệ mẫu được xuất bản năm 1995 (ISO / IEC 13818-3:1995) [6]. [11]

Sử dụng trong MP3 của một thuật toán nén được thiết kế để làm giảm đáng kể số lượng dữ liệu cần thiết để đại diện cho âm thanh ghi âm và vẫn còn âm thanh như một sự sao chép trung thành của âm thanh không nén ban đầu cho hầu hết các thính giả. Một tập tin MP3 được tạo ra bằng cách sử dụng các thiết lập của 128 kbit / s sẽ cho kết quả trong một tập tin đó là khoảng 1/11 kích thước [1] lưu ý của file CD tạo ra từ nguồn âm thanh ban đầu. Một tập tin MP3 cũng có thể được xây dựng với tốc độ bit cao hơn hoặc thấp hơn, với chất lượng kết quả cao hơn hoặc thấp hơn.

Lịch sử

sửa

Phát triển

sửa

Lossy MP3 âm thanh nén dữ liệu thuật toán có lợi thế của một giới hạn nhận thức của người nghe gọi là nhĩ mặt nạ. Năm 1894, nhà vật lý người Mỹ Alfred Marshall Mayer đã báo cáo rằng một giai điệu có thể được trả lại không nghe được bởi một âm thanh tần số thấp hơn [14] Năm 1959, Richard Ehmer mô tả một bộ hoàn chỉnh các đường cong thính giác liên quan đến hiện tượng này. [15] Ernst Terhardt et al. tạo ra một thuật toán mô tả mặt nạ thính giác với độ chính xác cao. [16] Công việc này được thêm vào một loạt các báo cáo từ các tác giả hẹn hò trở lại Fletcher, và công việc mà ban đầu xác định tỷ lệ quan trọng và băng thông quan trọng.

Các codec che của tâm lý học đã được đề xuất lần đầu tiên vào năm 1979, dường như độc lập, Manfred R. Schroeder, et al [17] từ AT & T-Bell Labs ở Murray Hill, NJ, và MA Krasner. [18] ở cả Hoa Kỳ. Krasner là người đầu tiên để xuất bản và sản xuất phần cứng cho bài phát biểu (không có thể sử dụng như nén bit âm nhạc), nhưng việc công bố kết quả của mình tương đối ít người biết như là một phòng thí nghiệm Lincoln Báo cáo kỹ thuật không ngay lập tức ảnh hưởng đến dòng chính của tâm lý học phát triển bộ giải mã. Manfred Schroeder đã là một nhân vật nổi tiếng và được kính trọng trong cộng đồng trên toàn thế giới của các kỹ sư âm và điện, nhưng tờ báo của ông đã không được nhiều chú ý, vì nó mô tả kết quả tiêu cực do tính đặc thù của ngôn luận và dự đoán được mã hóa tuyến tính (LPC) trình bày trong bài phát biểu. Cả Krasner và Schroeder xây dựng dựa trên công việc thực hiện bởi Eberhard F. Zwicker trong các lĩnh vực điều chỉnh và mặt nạ của các ban nhạc quan trọng, [19] [20] mà lần lượt được xây dựng trên các nghiên cứu cơ bản trong khu vực từ Bell Labs Harvey Fletcher và cộng tác viên [21] Một loạt rộng của. (chủ yếu là cảm nhận) các thuật toán nén âm thanh đã được báo cáo trong Tạp chí refereed IEEE Khu vực được chọn trong Truyền thông [22] Đó là tạp chí báo cáo trong tháng 2 năm 1988 trên một loạt thành lập, công nghệ nén làm việc âm thanh bit., một số người trong số họ sử dụng mặt nạ thính giác như là một phần của thiết kế cơ bản của họ, và một số cho thấy việc triển khai phần cứng thời gian thực.

Những người tiền nhiệm của MP3 "mã hoá tối ưu trong miền tần số" (OCF), [23] và Perceptual chuyển đổi Coding (PXFM) [24]. Hai codec, cùng với khối chuyển đổi đóng góp từ Thomson-Brandt, đã được sáp nhập vào một codec được gọi là ASPEC, đã được gửi sang MPEG, và giành được sự cạnh tranh chất lượng, nhưng bị nhầm lẫn từ chối là quá phức tạp để thực hiện. Là người đầu tiên thực tế thực hiện của một coder cảm nhận âm thanh (OCF) trong phần cứng (phần cứng Krasner là quá cồng kềnh và chậm cho sử dụng thực tế), là một thực hiện một coder biến đổi của tâm lý học dựa trên Motorola 56.000 chip DSP.

Là một sinh viên tiến sĩ tại Đại học Erlangen-Nuremberg Đức Karlheinz Brandenburg đã bắt đầu làm việc trên nén nhạc kỹ thuật số đầu những năm 1980, tập trung vào cách người ta cảm nhận âm nhạc. Ông đã hoàn thành công việc tiến sĩ của mình vào năm 1989 [25] MP3 được trực tiếp xuống từ OCF và PXFM, đại diện cho các kết quả của sự hợp tác của Brandenburg -. Làm việc như là một tiến sĩ tại AT & T-Chuông Labs với James D. (JJ) Johnston của AT & T-Chuông Labs - với Viện Fraunhofer mạch tích hợp, Erlangen, với sự đóng góp tương đối nhỏ từ các chi nhánh MP2 sub-band lập trình tâm lý học. Năm 1990, Brandenburg đã trở thành một trợ lý giáo sư tại Erlangen-Nuremberg. Trong khi đó, ông tiếp tục làm việc trên nén nhạc với các nhà khoa học tại Hiệp hội Fraunhofer (vào năm 1993, ông tham gia các nhân viên của Viện Fraunhofer). [25]

"Diner Tom" bài hát của Suzanne Vega là bài hát đầu tiên được sử dụng bởi Karlheinz Brandenburg để phát triển các MP3. Brandenburg đã thông qua các bài hát cho mục đích thử nghiệm, nghe nó một lần nữa và một lần nữa mỗi lần tinh chỉnh các chương trình, đảm bảo nó không gây ảnh hưởng xấu đến sự tinh tế của tiếng nói của Vega.

Tiêu chuẩn

sửa

Năm 1991, chỉ có hai đề xuất có sẵn mà có thể được hoàn toàn đánh giá tiêu chuẩn cho một âm thanh MPEG: Musicam (Masking mô hình thích nghi Universal băng con tích hợp mã Và Multiplexing) và ASPEC (thích ứng quang phổ Perceptual Entropy Coding). Kỹ thuật Musicam, theo đề nghị của Philips (Hà Lan), CCETT (Pháp) và Institut für Rundfunktechnik (Đức) đã được lựa chọn do đơn giản và mạnh mẽ lỗi, cũng như điện năng thấp tính toán liên quan của nó với mã hóa chất lượng cao âm thanh nén [26] Các định dạng Musicam, dựa trên mã hóa băng tần phụ, là cơ sở của các định dạng nén MPEG Audio (tỷ lệ lấy mẫu, cấu trúc của khung hình, tiêu đề, số lượng mẫu cho mỗi frame).

Phần lớn của công nghệ và ý tưởng đã được đưa vào định nghĩa của ISO MPEG Audio Layer I và lớp II và ngân hàng các bộ lọc một mình vào lớp định dạng (MP3) III như là một phần của ngân hàng tính toán không hiệu quả lọc lai. Dưới sự chủ trì của giáo sư Musmann (Đại học Hannover), chỉnh sửa các tiêu chuẩn được thực hiện theo trách nhiệm của Leon van de Kerkhof (Layer I) và Gerhard Stoll (Layer II).

ASPEC là đề nghị của các phòng thí nghiệm AT & T Bell, Thomson Điện tử, Fraunhofer Society và CNET [27] Nó cung cấp hiệu quả mã hóa cao nhất.

Một nhóm công tác bao gồm Leon van de Kerkhof (Hà Lan), Gerhard Stoll (Đức), Leonardo Chiariglione (Italy), Yves-François Dehery (Pháp), Karlheinz Brandenburg (Đức) và James D. Johnston (USA) mất ý tưởng từ ASPEC, tích hợp các ngân hàng bộ lọc từ lớp 2, bổ sung thêm một số ý tưởng của mình và tạo ra MP3, được thiết kế để đạt được cùng một chất lượng tại 128 kbit / s như MP2 tại 192 kbit / s.

Tất cả các thuật toán cho âm thanh MPEG-1 lớp I, II và III đã được phê duyệt vào năm 1991 [8] [9] và hoàn tất vào năm 1992 [10] như là một phần của MPEG-1, bộ tiêu chuẩn đầu tiên MPEG, mà kết quả trong tiêu chuẩn quốc tế ISO / IEC 11.172-3 (hay còn gọi là MPEG-1 Audio hay MPEG-1 3), được xuất bản vào năm 1993. [5]

Tiếp tục làm việc trên MPEG audio [28] đã được hoàn thành vào năm 1994 như một phần của bộ ứng dụng thứ hai của tiêu chuẩn MPEG, MPEG-2, chính thức được gọi là tiêu chuẩn quốc tế ISO / IEC 13.818-3 (hay còn gọi là MPEG-2 Phần 3 hoặc tương thích ngược MPEG- 2 Audio MPEG-2 âm thanh BC [11]), ban đầu được xuất bản vào năm 1995 [6] [29] MPEG-2 Part 3 (ISO / IEC 13.818-3) xác định tỷ lệ bit thêm và tỷ lệ mẫu cho lớp âm thanh MPEG-1 I, II và III. Các tỷ lệ lấy mẫu mới chính xác là một nửa của những người ban đầu được xác định trong Audio-1 MPEG. Điều này giảm tỷ lệ lấy mẫu phục vụ để cắt âm tần có sẵn trong một nửa trong khi tương tự như vậy cắt giảm bitrate 50%. MPEG-2 Phần 3 cũng tăng cường âm thanh MPEG-1 của bằng cách cho phép mã hóa các chương trình âm thanh với hơn hai kênh, tăng tới 5,1 đa kênh. [28]

Một phần mở rộng bổ sung cho MPEG-2 được đặt tên là MPEG-2.5 âm thanh, như MPEG-3 đã có một ý nghĩa khác. Phần mở rộng này đã được phát triển tại Fraunhofer IIS, chủ sở hữu bằng sáng chế đăng ký MP3. Giống như MPEG-2, MPEG-2.5 cho biết thêm tỷ lệ lấy mẫu mới đúng một nửa mà trước đây có thể với MPEG-2. Do đó mở rộng phạm vi của MP3 để có bài phát biểu của con người và các ứng dụng khác đòi hỏi phải chỉ có 25% tái tạo tần số có thể với MPEG-1. Trong khi không phải một tiêu chuẩn ISO công nhận tiêu chuẩn, MPEG-2.5 được hỗ trợ bởi cả hai cầu thủ tên rẻ tiền và thương hiệu âm thanh kỹ thuật số cũng như phần mềm máy tính dựa trên bộ mã hóa và giải mã MP3. Một tỷ lệ mẫu so sánh giữa MPEG-1, 2 và 2,5 được tiếp tục xuống. [30] [31] MPEG-2.5 đã không được phát triển bởi MPEG và không bao giờ được chấp nhận như một tiêu chuẩn quốc tế. MPEG-2.5 là như vậy, một phần mở rộng không chính thức hoặc độc quyền sang định dạng MP3.

Lưu ý: Các tiêu chuẩn ISO ISO / IEC 11.172-3 (hay còn gọi là MPEG-1 Audio) xác định ba định dạng: MPEG-1 Audio Layer, Layer II và Layer III. Các tiêu chuẩn ISO ISO / IEC 13.818-3 (hay còn gọi là MPEG-2 Audio) được xác định phiên bản mở rộng của MPEG-1 Audio - MPEG-2 Audio Layer, Layer II và lớp III. MPEG-2 Audio (MPEG-2 Phần 3) không nên nhầm lẫn với MPEG-2 AAC (MPEG-2 Phần 7 - ISO / IEC 13.818-7). [11]

Nén hiệu quả của bộ mã hóa thường được định nghĩa bởi tỷ lệ bit, bởi vì tỉ lệ nén phụ thuộc vào độ sâu bit và tỷ lệ lấy mẫu của tín hiệu đầu vào. Tuy nhiên, tỷ lệ nén thường được xuất bản. Họ có thể sử dụng Compact Disc (CD) các thông số như tài liệu tham khảo (44,1 kHz, 2 kênh 16 bit cho mỗi kênh hoặc 2 × 16 bit), hoặc đôi khi Digital Audio Tape (DAT) SP các thông số (48 kHz, 2 × 16 bit). Tỷ lệ nén với tài liệu tham khảo thứ hai cao hơn, chứng tỏ vấn đề với việc sử dụng tỉ lệ nén hạn cho các bộ mã hóa lossy.

Karlheinz Brandenburg sử dụng ghi đĩa CD của bài hát "Tom Diner" để đánh giá và tinh chỉnh các thuật toán nén MP3 Suzanne Vega. Bài hát này được chọn vì tính chất gần như đơn âm và nội dung quang phổ rộng, làm cho nó dễ dàng hơn để nghe không hoàn hảo trong định dạng nén trong quá trình phát lại. Một số đùa tham khảo Suzanne Vega là "Người mẹ của MP3" [33] Một số trích đoạn âm thanh quan trọng hơn (glockenspiel, tam giác, accordion, vv) được lấy từ V3/SQAM EBU đĩa nhỏ gọn tài liệu tham khảo và đã được sử dụng bởi âm thanh chuyên nghiệp các kỹ sư để đánh giá chất lượng chủ quan của các định dạng âm thanh MPEG. Điều này theo dõi cụ thể có một tài sản thú vị trong hai kênh là gần như, nhưng không hoàn toàn giống nhau, dẫn đến một trường hợp mặt nạ Cấp gây ra khủng hoảng Binaural unmasking không gian của các đồ tạo tác tiếng ồn, trừ khi bộ mã hóa đúng cách nhận ra tình hình và áp dụng các điều chỉnh tương tự như những người chi tiết trong mô hình MPEG-2 psychoacoustic AAC.

Ra công chúng

sửa

Một tài liệu tham khảo thực hiện phần mềm mô phỏng, được viết bằng ngôn ngữ C và sau đó được gọi là ISO 11.172-5, được phát triển bởi các thành viên của ủy ban ISO MPEG Audio (1991-1996) để sản xuất bit tuân thủ MPEG Audio file (Layer 1, lớp 2, lớp 3). Nó đã được phê duyệt như là một dự thảo của ban soạn thảo báo cáo kỹ thuật của tiêu chuẩn ISO / IEC Tháng 3 năm 1994 và được in như 11.172-5 CD tài liệu trong tháng 4 năm 1994. [34] đã được phê duyệt như dự thảo báo cáo kỹ thuật (DTR / DIS) trong tháng 11 năm 1994, [35 hoàn thành vào năm 1996 và xuất bản như là tiêu chuẩn quốc tế ISO / IEC TR 11172-5:1998 vào năm 1998 [36] Các phần mềm tài liệu tham khảo trong ngôn ngữ C sau đó được xuất bản tự do có sẵn như là một tiêu chuẩn ISO. [37] Làm việc trong không-thời gian thực một số hệ điều hành, nó đã có thể chứng minh thực sự đầu tiên giải mã phần cứng thời gian (DSP based) của âm thanh nén. Một số khác thực hiện theo thời gian thực của các bộ mã hóa MPEG Audio đã có sẵn cho các mục đích kỹ thuật số phát sóng (radio DAB, truyền hình DVB) đối với thu của người tiêu dùng và thiết lập các hộp hàng đầu.

Ngày 07 Tháng Bảy 1994, Hiệp hội Fraunhofer phát hành các bộ mã hóa MP3 phần mềm đầu tiên được gọi là l3enc. [38] Các phần mở rộng tên tập tin mp3 đã được lựa chọn bởi nhóm Fraunhofer trên 14 tháng 7 năm 1995 (trước đây, các tập tin đã được đặt tên. Bit). [1] Với thời gian thực phần mềm đầu tiên máy nghe nhạc MP3 WinPlay3 (phát hành ngày 09 Tháng Chín năm 1995), nhiều người đã có thể để mã hóa và phát lại các tập tin MP3 trên máy tính của họ. Bởi vì các ổ đĩa cứng tương đối nhỏ trở lại trong thời gian đó (~ 500-1000 MB) tổn hao nén là điều cần thiết để lưu trữ không cụ dựa (xem theo dõi và MIDI) âm nhạc để phát lại trên máy tính.

Trong nửa thứ hai của năm 1994, các tập tin MP3 bắt đầu lan rộng trên Internet. Sự phổ biến của MP3 bắt đầu tăng lên nhanh chóng với sự ra đời của âm thanh máy nghe nhạc Winamp Nullsoft, phát hành vào năm 1997. Năm 1998, trạng thái rắn di động đầu tiên âm thanh kỹ thuật số máy nghe nhạc MPMAN, được phát triển bởi Hệ thống thông tin Saehan có trụ sở tại Seoul, Hàn Quốc, đã được phát hành và Rio PMP300 được bán sau đó vào năm 1998, bất chấp những nỗ lực đàn áp pháp lý của RIAA. [39]

Trong tháng 11 năm 1997, mp3.com trang web được cung cấp hàng ngàn bài nhạc MP3 được tạo ra bởi các nghệ sĩ độc lập miễn phí. [39] kích thước nhỏ của các tập tin MP3 cho phép chia sẻ file peer-to-peer phổ biến rộng rãi của tách nhạc từ đĩa CD, trong đó đã có trước đây đã được gần như không thể. Lớn đầu tiên chia sẻ file peer-to-peer mạng, Napster, đã được đưa ra vào năm 1999.

Dễ dàng tạo và chia sẻ nhạc MP3 kết quả vi phạm bản quyền rộng rãi. Các công ty thu âm lớn cho rằng chia sẻ miễn phí này của âm nhạc đã làm giảm doanh số bán hàng, và gọi đó là "âm nhạc vi phạm bản quyền". Họ đã phản ứng bằng cách theo đuổi các vụ kiện chống lại Napster (mà cuối cùng đã được đóng cửa và sau đó bán) và đối với người dùng cá nhân, những người tham gia trong việc chia sẻ tập tin.

Mặc dù sự phổ biến của các định dạng MP3, các nhà bán lẻ âm nhạc trực tuyến thường sử dụng các định dạng khác thuộc quyền sở hữu được mã hóa hoặc obfuscated để làm cho nó khó khăn để sử dụng các tập tin nhạc mua theo những cách không cụ thể được ủy quyền bởi công ty thu âm. Cố gắng kiểm soát việc sử dụng các tập tin theo cách này được gọi là quản lý quyền kỹ thuật số. Công ty thu âm cho rằng điều này là cần thiết để ngăn chặn các tập tin từ được làm sẵn có trên mạng chia sẻ file peer-to-peer. Điều này có tác dụng phụ khác, mặc dù, như ngăn chặn người sử dụng phát lại âm nhạc của họ mua trên các loại khác nhau của các thiết bị. Tuy nhiên, nội dung âm thanh của những tập tin này thường có thể được chuyển đổi thành một định dạng không được mã hóa. Ví dụ, người sử dụng thường được cho phép để ghi các tập tin audio CD, mà đòi hỏi phải chuyển đổi sang một định dạng âm thanh không được mã hóa.

Chia sẻ tập tin MP3 trái phép vẫn tiếp tục trên các thế hệ tiếp theo của mạng peer-to-peer. Một số dịch vụ có thẩm quyền, chẳng hạn như Beatport, Bleep, Juno ghi, eMusic, Zune Marketplace, Walmart.com, Rhapsody, ngành công nghiệp ghi âm đã được phê duyệt lại hóa thân của Napster, và Amazon.com bán nhạc không hạn chế trong các định dạng MP3.

Thiết kế

sửa

Mã hóa âm thanh

sửa

Các tiêu chuẩn MPEG-1 không bao gồm một đặc điểm kỹ thuật chính xác cho một bộ mã hóa MP3, nhưng không cung cấp các mô hình ví dụ của tâm lý học, tỷ lệ vòng lặp, và như thế ở phần không quy chuẩn của chuẩn [40] Hiện nay, các triển khai thực hiện đề nghị khá ngày. Thực hiện các tiêu chuẩn đã được nghĩa vụ phải đưa ra các thuật toán của họ phù hợp để loại bỏ các bộ phận thông tin từ đầu vào âm thanh. Kết quả là, có rất nhiều bộ mã hóa MP3 khác nhau có sẵn, mỗi file sản xuất chất lượng khác nhau. So sánh là phổ biến rộng rãi, vì vậy nó rất dễ dàng cho một người sử dụng tiềm năng của các bộ mã hóa để nghiên cứu các lựa chọn tốt nhất. Một bộ mã hóa là thành thạo mã hóa ở mức bit cao hơn (như LAME) là không nhất thiết phải là tốt ở mức bit thấp hơn.

Trong quá trình mã hóa, 576 mẫu miền thời gian được ghi lại và được chuyển đến 576 mẫu miền tần số. Nếu có là một thoáng qua, mẫu 192 được lấy thay vì 576. Điều này được thực hiện để hạn chế sự lây lan thời gian của tiếng ồn quantization kèm theo thoáng qua. (Xem psychoacoustics.)

Giải mã âm thanh

sửa

Giải mã, mặt khác, là cẩn thận định nghĩa trong chuẩn. Hầu hết các bộ giải mã là "bitstream tuân thủ", có nghĩa là sản lượng giải nén - mà họ sản xuất từ ​​một tập tin MP3 cho là như vậy, trong một mức độ quy định khoan dung làm tròn, như đầu ra quy định toán học trong các tài liệu ISO / IEC tiêu chuẩn cao (ISO / IEC 11.172-3). Vì vậy, so sánh các bộ giải mã thường dựa trên tính toán hiệu quả (ví dụ, bao nhiêu bộ nhớ hoặc CPU thời gian họ sử dụng trong quá trình giải mã).

Chất lượng âm thanh

sửa

Khi thực hiện mất dữ liệu mã hóa âm thanh, chẳng hạn như việc tạo ra một tập tin MP3, có là một thương mại-off giữa số lượng không gian được sử dụng và chất lượng âm thanh của kết quả. Thông thường, người sáng tạo được cho phép để thiết lập một tỷ lệ bit, trong đó xác định các tập tin có thể sử dụng bao nhiêu kilobits mỗi giây của âm thanh. Tốc độ bit cao hơn, lớn hơn các tập tin nén sẽ được, và, nói chung, gần gũi hơn nó sẽ âm thanh thành tập tin gốc.

Với quá thấp, tỷ lệ bit, nén (tức là, âm thanh không có mặt trong bản ghi gốc) có thể được nghe thấy trong sinh sản. Một số âm thanh để nén vì ngẫu nhiên và các cuộc tấn công sắc nét. Khi loại âm thanh này được nén, hiện vật chẳng hạn như nhạc chuông hoặc pre-echo thường được nghe nói. Một mẫu tràng pháo tay nén với một tốc độ bit tương đối thấp cung cấp một ví dụ tốt về nén.

Bên cạnh tỷ lệ bit của một phần mã hóa âm thanh, chất lượng của các tập tin MP3 cũng phụ thuộc vào chất lượng của các bộ mã hóa riêng của mình, và những khó khăn của các tín hiệu được mã hóa. Như là tiêu chuẩn MP3 cho phép khá một chút tự do với các thuật toán mã hóa, mã hóa khác nhau có thể tính năng chất lượng hoàn toàn khác nhau, ngay cả với tốc độ bit giống hệt nhau. Ví dụ, trong một bài kiểm tra nghe công với hai bộ mã hóa MP3 khác nhau, khoảng 128 kbit / s, [41], một ghi 3,66 trên thang điểm từ 1-5, trong khi chỉ ghi được 2,22.

Chất lượng là phụ thuộc vào sự lựa chọn của các thông số mã hóa và mã hóa [42].

Loại đơn giản nhất của tập tin MP3 sử dụng một tỷ lệ bit cho toàn bộ tập tin này được gọi là tốc độ không đổi (CBR) mã hóa. Sử dụng một tốc độ không đổi làm cho mã hóa đơn giản và nhanh hơn. Tuy nhiên, nó cũng có thể tạo ra các tập tin mà tốc độ bit thay đổi trong suốt các tập tin. Chúng được gọi là Variable Bit Rate (VBR) các tập tin. Ý tưởng đằng sau này là rằng, trong bất kỳ đoạn âm thanh, một số phần sẽ được dễ dàng hơn nhiều để nén, chẳng hạn như sự im lặng hoặc âm nhạc có chứa chỉ có một vài công cụ, trong khi những người khác sẽ khó khăn hơn để nén. Vì vậy, chất lượng tổng thể của tập tin có thể được tăng lên bằng cách sử dụng một tỷ lệ bit thấp hơn cho những đoạn ít phức tạp hơn và một cao hơn cho các bộ phận phức tạp hơn. Với một số bộ mã hóa, nó có thể chỉ định một chất lượng nhất định, và các bộ mã hóa sẽ thay đổi tốc độ bit cho phù hợp. Người dùng biết một "thiết lập chất lượng" cụ thể mà là trong suốt đối với đôi tai của họ có thể sử dụng giá trị này khi mã hóa tất cả các âm nhạc của họ, và nói chung không cần phải lo lắng về việc thực hiện các bài kiểm tra cá nhân lắng nghe trên mỗi tác phẩm âm nhạc để xác định tỷ lệ bit chính xác.

Chất lượng cảm nhận có thể bị ảnh hưởng bởi môi trường âm nhạc (môi trường xung quanh tiếng ồn), sự chú ý của người nghe, và đào tạo người biết lắng nghe và trong nhiều trường hợp thiết bị âm thanh nghe (chẳng hạn như card âm thanh, loa và tai nghe).

Một thử nghiệm cho sinh viên mới của trường Đại học Stanford Music Giáo sư Jonathan Berger cho thấy sinh viên ưu tiên cho chất lượng âm nhạc MP3 đã tăng mỗi năm. Berger cho biết các sinh viên dường như thích những lời sáo rỗng 'âm thanh MP3 mang đến cho âm nhạc. [43]

Bit rate

sửa

Một số tốc độ bit được quy định cụ thể trong MPEG-1 Audio III Lớp tiêu chuẩn: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 và 320 kbit / s, với tần số lấy mẫu có sẵn 32, 44,1 và 48 kHz. [31] MPEG-2 Audio Layer III cho phép bit tỷ lệ 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit / s với lấy mẫu tần số 16, 22,05 và 24 kHz [31]. MPEG-2.5 Audio Layer III được giới hạn tốc độ bit của 8, 16, 24, 32, 40, 48, 56 và 64 kbit / s với tần số lấy mẫu 8, 11.025, và 12 kHz. Bởi vì định lý Nyquist / Shannon, tần số sinh sản luôn luôn là một nửa của tần số lấy mẫu, vì vậy 8 kHz lấy mẫu tỷ lệ giới hạn tần số tối đa 4 kHz, trong khi 48 kHz tỷ lệ lấy mẫu tối đa giới hạn MP3 tái tạo âm thanh đến 24 kHz.

Một tỷ lệ mẫu là 44,1 kHz được hầu như luôn luôn được sử dụng, bởi vì điều này cũng được sử dụng cho đĩa CD âm thanh, nguồn chính được sử dụng để tạo ra các tập tin MP3. Một loạt lớn hơn tốc độ bit được sử dụng trên Internet. Tỷ lệ 128 kbit / s được sử dụng phổ biến, [44] một tỉ lệ nén của 11:01, cung cấp đầy đủ chất lượng âm thanh trong một không gian tương đối nhỏ. Khi tinh Internet băng thông và kích thước ổ đĩa cứng đã tăng lên, tốc độ bit cao hơn lên đến 320 kbit / s là phổ biến rộng rãi.

Âm thanh không nén được lưu trữ trên một đĩa CD âm thanh có tốc độ bit 1,411.2 kbit / s, lưu ý 2] để bitrate 128, 160 và 192 kbit / s đại diện cho tỷ lệ nén khoảng 11:01, 9:1 và 07:01 tương ứng.

Phi tiêu chuẩn tốc độ bit lên đến 640 kbit / s có thể đạt được với bộ mã hóa LAME và tùy chọn freeformat, mặc dù vài cầu thủ MP3 có thể chơi các tập tin. Theo tiêu chuẩn ISO, bộ giải mã chỉ yêu cầu để có thể giải mã các dòng lên tới 320 kbit / s [45].

Đầu bộ mã hóa MPEG Layer III sử dụng những gì bây giờ được gọi là liên tục Bit Rate (CBR). Các phần mềm chỉ có thể sử dụng một bitrate thống nhất trên tất cả các khung hình trong một tập tin MP3.

Sau đó phức tạp hơn bộ mã hóa MP3 có thể sử dụng hồ chứa chút để nhắm mục tiêu một tỷ lệ bit trung bình lựa chọn mức mã hóa cho mỗi khung dựa trên sự phức tạp của những âm thanh trong đó phần của việc ghi chép.

MP3 encoder phức tạp hơn có thể sản xuất âm thanh Variable Bit Rate. MPEG âm thanh có thể sử dụng bitrate chuyển đổi trên cơ sở mỗi frame, nhưng chỉ có lớp III giải mã phải hỗ trợ nó [31] [47] [48] [49] VBR được sử dụng khi mục tiêu là để đạt được một mức cố định của chất lượng. Kích thước tập tin cuối cùng của một mã hóa VBR là khó dự đoán hơn hơn so với bitrate liên tục. Bitrate trung bình là VBR thực hiện như là một thỏa hiệp giữa hai bitrate được phép thay đổi về chất lượng ổn định hơn, nhưng được kiểm soát vẫn còn gần một giá trị trung bình là lựa chọn bởi người sử dụng, cho kích thước file dự đoán. Mặc dù một bộ giải mã MP3 phải hỗ trợ VBR là tiêu chuẩn phù hợp, lịch sử một số bộ giải mã có lỗi với VBR giải mã, đặc biệt là trước VBR bộ mã hóa trở nên phổ biến.

Lớp III âm thanh cũng có thể sử dụng một "hồ chứa bit", một khung một phần đầy đủ khả năng nắm giữ một phần của dữ liệu âm thanh của frame kế tiếp, cho phép thay đổi tạm thời trong bitrate hiệu quả, ngay cả trong một dòng bitrate không đổi [31]. [47]

Cấu trúc tập tin

sửa

MP3filestructure.svg

Một tập tin MP3 được tạo thành từ nhiều khung hình MP3, trong đó bao gồm một tiêu đề và một khối dữ liệu. Chuỗi các khung này được gọi là một dòng tiểu. Do "hồ chứa byte", khung không phải là mặt hàng độc lập và có thể không thường được chiết xuất trên ranh giới khung tùy ý. Các khối dữ liệu MP3 chứa các thông tin âm thanh (nén) về tần số và biên độ. Đồ thị cho thấy Header MP3 bao gồm một từ đồng bộ, được sử dụng để xác định sự khởi đầu của một khung hợp lệ. Tiếp theo là một chút chỉ ra rằng đây là tiêu chuẩn MPEG và hai bit chỉ ra rằng lớp 3 được sử dụng, vì vậy MPEG-1 Audio Layer 3 hoặc MP3. Sau này, các giá trị sẽ khác nhau, tùy thuộc vào các tập tin MP3. ISO / IEC 11.172-3 xác định phạm vi của các giá trị cho mỗi phần của tiêu đề cùng với các đặc điểm kỹ thuật của tiêu đề. Hầu hết các tập tin MP3 hôm nay chứa ID3 siêu dữ liệu, trước hoặc sau các khung MP3, như đã nêu trong biểu đồ.

Thiết kế hạn chế

sửa

Có một số những hạn chế cố hữu đối với các định dạng MP3 mà không thể được khắc phục bởi bất kỳ bộ mã hóa MP3. Mới hơn các định dạng nén âm thanh như AAC, WMA Pro và Vorbis thường miễn phí của một số những hạn chế [50] Trong thuật ngữ kỹ thuật, một số hạn chế bao gồm:

Thời gian giải quyết có thể là quá thấp cho tín hiệu cao thoáng và có thể gây nhòe của âm thanh bộ gõ. [51]

Do cấu trúc cây của các ngân hàng bộ lọc, các vấn đề về pre-echo được thực hiện tồi tệ hơn, là đáp ứng xung kết hợp của hai ngân hàng bộ lọc không, và có thể không cung cấp một giải pháp tối ưu trong thời gian / tần số có độ phân giải [51].

Việc kết hợp các kết quả đầu ra của hai ngân hàng bộ lọc tạo ra các vấn đề răng cưa phải được xử lý một phần của giai đoạn "răng cưa bồi thường", tuy nhiên, tạo ra năng lượng dư thừa sẽ được mã hóa trong miền tần số, do đó làm giảm hiệu quả mã hóa [cần dẫn nguồn]. Độ phân giải tần số được giới hạn bởi kích thước nhỏ dài cửa sổ khối, làm giảm hiệu quả mã hóa. [51]

Không có ban nhạc yếu tố quy mô cho các tần số trên 15.5/15.8 kHz [nghiên cứu ban đầu?]

Stereo phần chỉ được thực hiện trên cơ sở khung-to-frame. [51]

Xử lý nội bộ của hồ chứa bit tăng chậm trễ mã hóa. [Cần dẫn nguồn]

Bộ mã hóa / giải mã chậm trễ tổng thể không xác định, có nghĩa là không có quy định chính thức cho Gapless phát lại. Tuy nhiên, một số bộ mã hóa như LAME có thể đính kèm thêm siêu dữ liệu mà sẽ cho phép người chơi có thể xử lý nó để cung cấp phát lại liền mạch.

Các dòng dữ liệu có thể chứa một tổng kiểm tra tùy chọn, nhưng tổng kiểm tra các chỉ bảo vệ các dữ liệu tiêu đề, không phải là dữ liệu âm thanh.

ID3 và các thẻ khác

sửa
 

Một "tag" trong một tập tin âm thanh là một phần của tập tin có chứa siêu dữ liệu chẳng hạn như tiêu đề, nghệ sĩ, album, số lượng theo dõi hoặc các thông tin khác về nội dung của tập tin. Các tiêu chuẩn MP3 không xác định các định dạng thẻ cho các tập tin MP3, và cũng không có một định dạng container tiêu chuẩn có thể hỗ trợ siêu dữ liệu và loại trừ nhu cầu cho các thẻ.

Tuy nhiên, một số thực tế tiêu chuẩn cho các định dạng tag tồn tại. Năm 2010, phổ biến nhất là ID3v1 và ID3v2, và gần đây hơn giới thiệu APEv2. Các thẻ này thường được nhúng ở đầu hoặc cuối của các tập tin MP3, tách biệt với khung dữ liệu MP3 thực tế. Bộ giải mã MP3 bình thường hoặc đọc thông tin từ các thẻ, hoặc chỉ cần đối xử với họ như không tính, dữ liệu rác không-MP3.

Chơi & chỉnh sửa phần mềm thường có chức năng chỉnh sửa từ khóa, nhưng cũng có thẻ ứng dụng trình soạn thảo dành riêng cho mục đích này.

Ngoài siêu dữ liệu liên quan đến nội dung âm thanh, thẻ cũng có thể được sử dụng cho DRM. [Cần dẫn nguồn]

Lượng bình thường

sửa

Kể từ mức âm lượng của nguồn âm thanh khác nhau có thể khác nhau rất nhiều, do cuộc chiến tranh độ ồn và các yếu tố khác, đó là đôi khi mong muốn điều chỉnh âm lượng phát lại các tập tin âm thanh như vậy mà độ ồn trung bình phù hợp được cảm nhận. Bình thường, trong khi tương tự như trong mục đích, là khác biệt từ nén dải động.

Xem lại là một trong những tiêu chuẩn để đo lường và lưu trữ về độ to của một tập tin MP3 trong thẻ siêu dữ liệu của nó, cho phép một cầu thủ xem lại tuân thủ để tự động điều chỉnh âm lượng tổng thể cho mỗi tập tin. MP3Gain có thể được sử dụng để thuận nghịch sửa đổi các tập tin dựa trên các phép đo xem lại để điều chỉnh phát lại có thể đạt được trên máy nghe nhạc mà không có khả năng xem lại.

Các vấn đề về cấp phép và bằng sáng chế

sửa

Nhiều tổ chức đã tuyên bố quyền sở hữu bằng sáng chế có liên quan để giải mã MP3 hoặc mã hóa. Những khẳng định này đã dẫn đến một số các mối đe dọa và hành động pháp lý từ nhiều nguồn khác nhau, dẫn đến sự không chắc chắn về những bằng sáng chế phải được cấp phép để tạo ra các sản phẩm MP3 mà không có hành vi phạm bằng sáng chế ở các nước cho phép các bằng sáng chế phần mềm.

Các gần-hoàn chỉnh đầu tiên MPEG-1 tiêu chuẩn (1 phần, 2 và 3) là công bố công khai ngày 6 năm 1991 như ISO CD 11.172. [52] [53] Trong hầu hết các quốc gia, các bằng sáng chế không thể được nộp sau khi nghệ thuật trước đã được thực hiện công khai, và bằng sáng chế hết hạn 20 năm sau khi ngày nộp đơn ban đầu, có thể lên đến 12 tháng sau cho các hồ sơ ở các nước khác. Kết quả là, bằng sáng chế cần thiết để thực hiện MP3 hết hạn ở hầu hết các quốc gia tháng 12 năm 2012, 21 năm sau khi công bố của ISO CD 11.172.

Một ngoại lệ là Hoa Kỳ, bằng sáng chế nộp trước khi đến 8 tháng 6 năm 1995 hết hạn 17 năm, kể từ ngày công bố bằng sáng chế, và một lỗ hổng được gọi là bằng sáng chế tàu ngầm đã làm cho nó có thể kéo dài tuổi thọ của một bằng sáng chế có hiệu lực thông qua mở rộng ứng dụng. MP3-liên quan đến bằng sáng chế khác nhau hết hạn vào ngày tháng khác nhau, 2007-2017 tại Hoa Kỳ [54] Bằng sáng chế nộp cho bất cứ điều gì được tiết lộ trong ISO CD 11.172 một năm hoặc hơn sau khi tác phẩm được công bố lần đầu tiên là vấn đề, nếu chỉ có bằng sáng chế nổi tiếng MP3 nộp tháng 12 năm 1992 xem xét, sau đó giải mã MP3 có thể có bản quyền miễn phí tại Mỹ vào tháng 9 năm 2015 khi US Patent 5.812.672 hết hạn có một nộp đơn PCT trong tháng 10 năm 1992. [55] [56] [57]

Technicolor (trước đây gọi là Thomson Điện tử tiêu dùng) tuyên bố kiểm soát cấp phép MP3 lớp 3 bằng sáng chế ở nhiều quốc gia, bao gồm Hoa Kỳ, Nhật Bản, Canada và các nước EU. [58] Technicolor đã được tích cực thực thi các bằng sáng chế. [59]

Thu giấy phép MP3 tạo ra khoảng € 100 triệu USD cho Hiệp hội Fraunhofer trong năm 2005. [60]

Trong tháng 9 năm 1998, Viện Fraunhofer đã gửi một bức thư cho một số nhà phát triển của phần mềm MP3 nói rằng giấy phép được yêu cầu để "phân phối và/hoặc bán bộ giải mã và/hoặc các bộ mã hóa". Bức thư cho rằng các sản phẩm không có giấy phép "vi phạm quyền sáng chế của Fraunhofer và Thomson. Để làm cho, bán và/hoặc phân phối các sản phẩm sử dụng MPEG Layer-3 tiêu chuẩn và do đó bằng sáng chế của chúng tôi, bạn cần để có được một giấy phép theo các bằng sáng chế của chúng tôi ". [61]

Tuy nhiên, có tồn tại cả hai lựa chọn thay thế miễn phí và độc quyền. Định dạng thay thế miễn phí bao gồm Vorbis, Opus, và những người khác. Microsoft sử dụng định dạng riêng của sở hữu độc quyền truyền thông của Windows của nó cho phép nó để tránh các vấn đề cấp giấy phép liên kết với các bằng sáng chế bằng cách tránh sử dụng các định dạng MP3 hoàn toàn. [Trích dẫn cần thiết] Cho đến khi các bằng sáng chế quan trọng hết hạn, mã hóa không có giấy phép và người chơi có thể được vi phạm ở các nước nơi các bằng sáng chế là hợp lệ.

Mặc dù các hạn chế bằng sáng chế, sự tồn tại của các định dạng MP3 tiếp tục. Những lý do cho điều này xuất hiện để được hiệu ứng mạng gây ra bởi:

quen thuộc với các định dạng số lượng lớn của âm nhạc bây giờ đã có trong các định dạng MP3 nhiều loại phần cứng hiện có (và một số phần mềm) mà lợi dụng các định dạng tập tin và không hỗ trợ các lựa chọn thay thế thiếu DRM hạn chế, làm cho tất cả các file MP3 một cách dễ dàng để chỉnh sửa, sao chép và chơi trong các máy nghe nhạc kỹ thuật số xách tay khác nhau (Apple, Creative, Samsung,...) có liên quan? - Thảo luận đa số người dùng gia đình không biết hoặc không quan tâm đến sự tồn tại của các bằng sáng chế và thường không xem xét các vấn đề pháp lý khi lựa chọn định dạng âm nhạc của họ để sử dụng cá nhân

Tham khảo

sửa
  1. ^ Lỗi chú thích: Thẻ <ref> sai; không có nội dung trong thẻ ref có tên mp3-name
  2. ^ Lỗi chú thích: Thẻ <ref> sai; không có nội dung trong thẻ ref có tên audio/mpeg
  3. ^ Lỗi chú thích: Thẻ <ref> sai; không có nội dung trong thẻ ref có tên RTP
  4. ^ Lỗi chú thích: Thẻ <ref> sai; không có nội dung trong thẻ ref có tên rfc5219
  5. ^ Lỗi chú thích: Thẻ <ref> sai; không có nội dung trong thẻ ref có tên 11172-3
  6. ^ “MP3 technology at Fraunhofer IIS”.

Liên kết ngoài

sửa