Plot batang-dan-daun
Plot batang-dan-daun ialah suatu gambaran untuk mempersembahkan data kuantitatif dalam format grafik, serupa dengan histogram, untuk membantu dalam menggambarkan bentuk taburan. Gambara ini berkembang daripada kerja Arthur Bowley pada awal 1900-an, dan merupakan alat yang berguna dalam analisis data penerokaan. Plot ini menjadi lebih lazim digunakan pada tahun 1980-an selepas penerbitan buku John Tukey mengenai analisis data penerokaan pada tahun 1977.[1] Populariti pada tahun-tahun tersebut adalah disebabkan oleh penggunaan gaya taip monospace (mesin taip) yang membolehkan teknologi komputer pada masa itu menghasilkan grafik dengan mudah. Keupayaan grafik komputer moden yang lebih baik menjadikan teknik ini kurang kerap digunakan lagi.
Plot ini telah dilaksanakan dalam Octave[2] dan R.[3]
Tidak seperti histogram, paparan batang dan daun mengekalkan data asal kepada sekurang-kurangnya dua digit bererti, dan menyusun data secara tertib, dengan itu memudahkan peralihan kepada statistik inferens dan bukan parametrik berdasarkan susunan.
Pembinaan
[sunting | sunting sumber]Untuk membina paparanplot batang-dan-daun, pemerhatian mesti disusun terlebih dahulu dalam tertib menaik: ini boleh dilakukan paling mudah jika bekerja dengan tangan dengan membina draf plot batang-dan-daun dengan daun tak tersusun, kemudian menyusun daun untuk menghasilkan plot akhir. Berikut ialah set nilai data tersusun yang akan digunakan dalam contoh berikut:
- 44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106
Seterusnya, ia mesti ditentukan apa yang akan diwakili oleh "batang" dan apa yang akan diwakili oleh "daun". Biasanya, daun mengandungi digit terakhir nombor dan batang mengandungi semua digit lain. Dalam kes nombor yang sangat besar, nilai data mungkin dibundarkan kepada nilai tempat tertentu (seperti tempat ratusan) yang akan digunakan untuk daun. Baki digit di sebelah kiri nilai tempat bulat digunakan sebagai batang.
Dalam contoh ini, daun mewakili nilai sa dan batang akan mewakili nombor yang lain (nilai sepuluh dan ratus).
Plot batang-dan-daun dilukis dengan dua lajur yang dipisahkan oleh garis menegak. Batang disenaraikan di sebelah kiri garis menegak. Adalah penting bahawa setiap batang disenaraikan sekali sahaja dan tiada nombor dilangkau, walaupun ia bermakna sesetengah batang tidak mempunyai daun. Daun disenaraikan dalam susunan yang semakin meningkat berturut-turut di sebelah kanan batang.
Adalah penting untuk ambil perhatian bahawa apabila terdapat nombor berulang dalam data (seperti dua nombor 72) maka plot mesti mencerminkan sedemikian (jadi plot akan kelihatan seperti 7 | 2 2 5 6 7 apabila ia mempunyai nombor 72 72 75 76 77).
- Contoh:
- Unit daun: 1.0
- Unit batang: 10.0
Pembundaran mungkin diperlukan untuk membuat plot batang-dan-daun. Berdasarkan set data berikut, plot batang di bawah akan dibuat:
- −23.678758, −12.45, −3.4, 4.43, 5.5, 5.678, 16.87, 24.7, 56.8
Untuk nombor negatif, negatif diletakkan di hadapan unit batang, yakni masih nilai X / 10. Nilai bukan integer dibundarkan. Ini membolehkan plot batang dan daun mengekalkan bentuknya, walaupun bagi set data yang lebih rumit seperti contoh di bawah:
- Contoh:
Penggunaan
[sunting | sunting sumber]Plot batang-dan-daun berguna untuk memaparkan ketumpatan relatif dan bentuk data, memberikan pembaca gambaran ringkas tentang taburan. Ia mengekalkan (sebahagian besar) data asal, selalunya dengan integriti yang sempurna. Ia juga berguna untuk menyerlahkan nilai luaran (ekstrem) dan mencari mod. Walau bagaimanapun, paparan batang-dan0daun hanya berguna untuk set data bersaiz sederhana (sekitar 15–150 titik data). Dengan set data yang sangat kecil, paparan batang-dan-daun tidak banyak digunakan kerana bilangan titik data yang munasabah diperlukan untuk mewujudkan sifat pengedaran muktamad. Plot titik mungkin lebih sesuai bagi data sedemikian. Dengan set data yang sangat besar, paparan batang dan daun akan menjadi sangat besar kerana setiap titik data mesti diwakili secara berangka. Plot kotak atau histogram mungkin menjadi lebih sesuai ketika saiz data bertambah.
Penggunaan bukan berangka
[sunting | sunting sumber]Paparan batang dan daun juga boleh digunakan untuk menyampaikan maklumat bukan berangka. Dalam contoh perkataan dua huruf yang sah dalam Collins Scrabble Words (senarai perkataan yang digunakan dalam kejohanan Scrabble di luar Amerika) dengan huruf awalnya sebagai batang, dapat dilihat dengan mudah bahawa tiga huruf awal teratas adalah o, a dan e.[4]
Nota
[sunting | sunting sumber]- ^ Tukey, John W. (1977). Exploratory Data Analysis (ed. 1). Pearson. ISBN 0-201-07616-0.
- ^ Function in Octave
- ^ Function in R
- ^ Gideon Goldin, Two-Letter Scrabble Words Visualized as Stem and Leaf Plot, 2020-10-01