Minggu, 31 Mei 2015

ANALISIS BUTIR SOAL

A.      Pengertian Analisi Butir Soal

Menurut Kamus Besar Bahasa Indonesia (2002) analisis adalah penguraian suatu pokok atas berbagai bagiannya dan penelaahan bagian itu sendiri serta hubungan antar bagian untuk memperoleh pengertian yang tepat dan pemahaman arti keseluruhan.
Analisis butir soal yang dalam bahasa inggris disebut item analiysis dilakukan terhadap empirik. Maksudnya, analisis itu baru dapat dilakukan apabila suatu tes telah dilaksanakan dan hasil jawaban terhadap butir-butir soal telah kita peroleh. Analisis butir soal adalah suatu kegiatan analisis untuk menentukan tingkat kebaikan butir-butir soal yang terdapat dalam suatu tes sehingga informasi yang dihasilkan dapat kita pergunakan untuk memperbaiki butir soal dan tes tersebut.

Identifikasi terhadap setiap butir item soal dilakukan dengan harapan akan menghasilkan berbagai informasi berharga, yang pada dasarnya akan merupakan umpan balik (feed back) guna melakukan perbaikan, pembenahan, dan penyempurnaan kembali terhadap butir-butir soal, sehingga pada masa-masa yang akan yang akan dating tes hasil belajar yang disusun atau dirancang oleh guru itu betul-betul dapat menjalankan fungsinya sebagai alat pengukur hasil belajar yang memiliki kualitas yang tinggi.
Aiken dalam Suprananto (2012) berpendapat bahwa kegiatan analisis butir soal merupakan kegiatan penting dalam penyusunan soal agar diperoleh butir soal yang bermutu. Tujuan kegiatan ini adalah:
1.         Mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum digunakan,
2.         meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak efektif,
3.         mengetahui informasi diagnostik pada siswa apakah mereka telah memahami materi yang telah diajarkan.
Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-tepatnya tentang siswa mana yang telah menguasai materi dan siswa mana yang belum menguasai materi. Selanjutnya menurut Anastasia dan Urbina (1997) dalam Suprananto (2012), analisis butir soal dapat dilakukan secara kualitatif (berkaitan dengan isi dan bentuknya) dan kuantitatif (berkaitan dengan ciri-ciri statistiknya). Analisis kualitatif mencakup pertimbangan validitas isi dan konstruksi, sedangkan analisis kuantitatif mencakup pengukuran validitas dan reliabilitas butir soal, kesulitan butir soal serta diskriminasi soal. Kedua teknik ini masing-masing memiliki keunggulan dan kelemahan, oleh karena itu teknik terbaik adalah menggunakan atau memadukan keduanya. 

B.       Teknik Analisis Butir Soal
Analisis soal dilakukan untuk mengetahui berfungsi atau tidaknya sebuah soal. Analisis pada umumnya dilakukan melalui dua cara, yaitu analisis kualitatif (qualitatif control) dan analisis kuantitatif (quantitatif control).
  1. Analisis Butir Soal Secara Kualitatif
Pada prinsipnya analisis butir soal secara kualitatif dilaksanakan berdasarkan kaidah penulisan soal (tes tertulis, perbuatan, dan sikap). Penelaahan ini biasanya dilakukan sebelum soal digunakan atau diujikan. Aspek yang diperhatikan dalam penelaahan secara kualitatif mencakup aspek materi, konstruksi, bahasa atau budaya, dan kunci jawaban.
Ada beberapa teknik yang digunakan untuk menganalisis butir soal secara kualitatif, yaitu teknik moderator dan teknik panel. Teknik moderator merupakan teknik berdiskusi yang didalamnya terdapat satu orang sebagai penengah. Berdasarkan teknik ini, setiap butir soal didiskusikan secara bersama-sama dengan beberapa ahli.
Sedangkan teknik panel adalah teknik menelaah butir soal berdasarkan kaidah penulisan butir soal. Kaidah itu diantaranya adalah materi, kontruksi, bahasa atau budaya, kebenaran kunci jawaban. Caranya beberapa penelaah diberikan beberapa butir soal yang akan ditelaah, format penelaahan, dan pedoman penelaahan.  
Dalam menganalisis butir soal secara kualitatif penggunaan format penelaahan soal akan membantu dan mempermudah prosedur pelaksanaannya. Format penelaahan soal digunakan sebagai dasar untuk menganalisis setiap butir soal.
  1. Analisis Butir Soal Secara Kuantitatif
Penelaahan soal secara kuantitatif adalah penelaahan butir soal didasarkan pada bukti empirik. Salah satu tujuan utama pengujian butir-butir soal secara emperik adalah untuk mengetahui sejauh mana masing-masing butir soal membedakan antara mereka yang tinggi kemampuannya dalam hal yang didefinisikan oleh kriteria dari mereka yang rendah kemampuannya.
Data empirik ini diperoleh dari soal yang telah diujikan. Ada dua pendekatan dalam analisis secara kuantitatif yaitu pendekatan secara klasik dan modern.
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta tes guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik. Pada teori tes klasik, analisis item tes dilakukan dengan memperhitungkan kedudukan item dalam suatu kelas atau kelompok. Karakteristik atau kualitas item sangat tergantung pada kelompok dimana diujicobakan sehingga kualitas item terikat pada sampel responden atau peserta tes yang memberikan respons (sample bounded).
Ada beberapa kelebihan analisis butir soal secara klasik adalah murah, sederhana, familiar, dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer dan dapat menggunakan beberapa data dari peserta tes.
Analisis butir soal secara modern adalah penelaahan butir soal dengan menggunakan teori respon butir atau item response theory. Teori ini merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu butir dengan kemampuan siswa.
Teori ini muncul karena adanya beberapa keterbatasan pada analisis secara klasik, yaitu:
  1. Tingkat kemampuan dalam teori klasik adalah true score. Artinya, jika suatu tes sulit maka tingkat kemampuan peserta tes akan rendah.sebaiknya, jika suatu tes mudah maka tingkat kemampuan peserta tes tinggi.
  2. Tingkat kesukaran butir soal didefinisikan sebagai proporsi peserta tes yang menjawab benar. Mudah atau sulitnya butir soal tergantung pada kemampuan peserta tes.
  3. Daya pembeda, reliabilitas, dan validitas tes tergantung pada kondisi peserta tes.
C.      Parameter Item Tes yang Baik
Sebagaimana telah disebut sebelumnya, bahwa item tes yang baik adalah item yang memenuhi syarat sebagaimana kriteria atau karakteristik item tes yang baik. Karakteristik item yang dimaksud adalah tingkat kesulitan atau kesukaran, daya pembeda, dan efektivitas pengecoh.
  1. Tingkat Kesulitan atau Kesukaran
Tingkat kesukaran soal adalah peluang menjawab benar suatu soal pada tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Tingkat kesukaran dinyatakan dalam indeks kesukaran (dificulty index), yaitu angka yang menunjukkan proporsi siswa yang menjawab benar soal tersebut. Semakin besar indeks tingkat kesukaran yang diperoleh dan hasil hitungan, berarti semakin mudah soal itu.
Dalam hal ini, item yang baik adalah item yang tingkat kesukarannya dapat diketahui,  tidak terlalu sukar dan tidak terlalu mudah. Sebab, tingkat kesukaran item itu memiliki korelasi dengan daya pembeda. Bilamana item memiliki tingkat kesukaran yang maksimal, maka daya pembedanya akan rendah, demikian pula bila item itu terlalu mudah maka tidak akan memiliki daya pembeda.
Oleh karena itu, sebaiknya tingkat kesukaran soal itu dipertahankan dalam batas yang mampu memberikan daya pembeda. Namun, jika terdapat tujuan khusus dalam penyusunan tes, maka tingkat kesukaran itu bisa dipertimbangkan.  Misalnya, tingkat kesukaran item untuk tes sumatif berbeda dengan tingkat kesukaran pada tes diagnostik.
Untuk menghitung taraf kesukaran soal dari suatu tes dipergunakan rumus sebagai berikut:
TK = U + L
             T
Keterangan:
U  = jumlah siswa yang termasuk kelompok pandai (upper group) yang menjawab benar untuk tiap soal.
L    =  jumlah siswa yang termasuk kurang (lower group) yang menjawab benar untuk tiap soal.
T    =  jumlah siswa dari kelompok pandai dan kelompok kurang (jumlah upper group dan lower group)
Misalkan suatu tes yang terdiri atas N soal yang diberikan kepada 40 siswa. Dari hasil tes tersebut, tiap-tiap soal dianalisis taraf kesukarannya. mula-mula hasil tes itu kita susun kedalam peringkat, kemudian kita ambil 25% (10 lembar jawaban siswa kelompok pandai), dan 10 lembar jawaban siswa dari kelompok yang kurang pandai. Kemudian kita tabulasikan. Misalkan dari tabulasi soal kita peroleh hasil sebagai berikut: yang menjawab benar dari kelompok pandai ada 9 siswa, dan yang menjawab benar dari kelompok kurang pandai ada 4 siswa.
Dengan menggunakan rumus diatas, maka taraf kesukaran atau TK dari soal adalah:
TK =  U + L  =  9 + 4  =  0,65 atau 65%
             T             20 
Jadi dapat disimpilkan bahwa nilai dari TK atau tingkat kesukarannya adalah 65%.  
Sedangkan dalam bukunya Drs. H. Daryanto, rumus untuk mencari taraf kesukaran atau indeks kesukaran adalah:
P =    B
         JS
Keterangan:
P      =  indeks kesukaran.
B     =  banyaknya siswa yang menjawab soal itu dengan benar.
JS    =  jumlah seluruh siswa peserta tes.
Contoh:
Jumlah siswa peserta tes dalam suatu kelas ada 40 siswa. Dari 40 siswa tersebut terdapat 12 siswa yang mampu mengerjakan soal no. 1 dengan benar. Maka berapa indeks kesukarannya?
Jawab:
P  =    B   
          JS
    =    12
           40
    =   0,30
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut:
a.          Soal dengan P 0,00 sampai 0,30 adalah soal sukar.
b.         Soal dengan P 0,30 sampai 0,70 adalah soal sedang.
c.          Soal dengan P 0,70 sampai 1,00 adalah soal mudah.
  1. Daya Pembeda
Perhitungan daya pembeda adalah pengukuran sejauh mana suatu butir soal mampu membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum atau kurang menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koofisien daya pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan antara peerta didik yang menguasai kompetensi dengan pesertan didik yang kurang menguasai kompetensi.
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi. Daya pembeda suatu soal tes dapat dihitung dengan menggunakan rumus sebagai berikut:
DP  =   U – L
              ½ T
Keterangan:
DP =   indeks DP atau daya pembeda yang dicari.
U = jumlah siswa yang termasuk dalam kelompok pandai yang mampu      menjawab benar untuk tiap soal.
L    =   jumlah siswa yang termasuk kurang yang menjawab benar untuk tiap soal.
T    =   jumlah siswa keseluruhan.
Contoh:
Dari hasil tes lomba olimpiade IPS, jumlah siswa yang dites adalah 40 siswa, sedangkan tes tersebut terdiri dari 20 soal. Setelah hasil tes tersebut diperiksa, kemudian disusun kedalam peringkat untuk menentukan 25% siswa yang termasuk kelompok pandai (upper group) dan 25% siswa yang termasuk kelompok kurang (lower group).
Kemudian hasil tes tersebut ditabulasikan dengan menggunakan format tabulasi jawaban tes, kemudian hasil tabulasi dari kedua kelompok tersebut dimasukkan kedalam format analisis soal tes, sehingga kita dapat menghitung tingkat kesukaran dan daya pembeda tiap soal yang kita analisis.
Misalkan dari tabulasi soal no. 1 kita peroleh hasil sebagai berikut: yang menjawab benar dari kelompok pandai ada 10 siswa, dan yang menjawab benar dari kelompok kurang ada 9 siswa. Maka daya pembedanya adalah:
 DP  =   U – L
              ½ T
       =    10 – 9
            ½ x (20)
       =      1
              10
      =     0,10
Jadi dapat disimpulkan bahwa indeks pembedanya adalah 0,10.
Dalam bukunya Prof. Dr. Suharsimi Arikunto, dijelaskan mengenai klasifikasi daya pembeda, yaitu:
D =  0,00 – 0,20  =  jelek (poor).
D =  0,20 – 0,40  =  cukup (satisfactory).
D =  0,40 – 0,70  =  baik (good).
D =  0,70 – 1,00  =  baik sekali (excellent).
  1. Analisis pengecoh (Efektifitas Distraktor )
Instrumen evaluasi yang berbentuk tes dan objektif, selain harus memenuhi syarat-syarat yang telah disebutkan terdahulu, harus mempunyai distraktor yang efektif. Yang disebut dengan distraktor atau pengecoh adalah opsi-opsi yang bukan merupakan kunci jawaban (jawaban benar).
Butir soal yang baik pengecohnya akan dipilih secara merata oleh peserta didik yang menjawab salah. Sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal. Indeks pengecoh dihitung dengan rumus:
IP =   P  x   100%
       (N - B) (n - 1)
 Keterangan:
IP =  indeks pengecoh
P  =  jumlah peserta didik yang memilih pengecoh
N =  jumlah peserta didik yang ikut tes
B =  jumlah peserta didik yang menjawab benar pada setiap soal
n  =  jumlah alternatif jawaban
      1=  bilangan tetap
Catatan:
Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai kunci jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan demikian pengecoh tidak berfungsi. 
Contoh:
50 orang peserta didik dites dengan 10 soal bentuk pilihan ganda. Tiap soal memiliki alternatif jawaban (a, b, c, d, e). Kunci jawaban (jawaban yang benar) no. 8 adalah c. Setelah soal no.8 diperiksa untuk semua peserta didik, ternyata dari 50 orang peserta didik, 20 peserta didik menjawab benar dan 30 peserta didik menjawab salah. Idealnya, pengecoh dipilih secara merata.
Berikut ini adalah contoh soal no.8.
Alternatif jawaban
A
B
C
D
E
Distribusi jawaban peserta didik
7
8
20
7
8
IP
93%
107%
**
93%
107%
Kualitas pengecoh
++
++
++
++
++

                   Keterangan:
**   =    kunci jawaban
++   =   sangat baik
+     =   baik
  •  =    kurang baik
 _    =    jelek
_ _  =    sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93%, dan 107%. Semuanya dekat dengan angka 100%, sehingga digolongkan sangat baik sebab semua pengecoh itu berfungsi. Jika pilihan jawaban peserta didik menumpuk pada satu alternatif jawaban, misalnya seperti berikut:
Alternatif jawaban
A
B
C
D
E
Distribusi jawaban peserta didik
20
2
20
8
0
IP
267%
27%
**
107%
0%
Kualitas pengecoh
_
-
**
++
_
 Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh (e) dan (b) tidak berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena termasuk jelek, danpengecoh (b) perlu direvisikarena kurang baik. adapun kualitas pengecoh berdasar indeks pengecoh adalah:
Sangat baik    IP  =  76% - 125%
Baik               IP  =  51% - 75%  atau  126% - 150%
Kurang baik   IP  =  26% - 50%  atau  151% - 175%
Jelek               IP  =  0% - 25%  atau  176% - 200%
Sangat jelek   IP  =  lebih dari 200% 
D.      Manfaat Kegiatan Menganalisis Butir Soal
Berdasarkan pendapat yang diungkapkan oleh Anastasia dan Urbina (1997) dalam Suprananto (2012), analisis butir soal memiliki banyak manfaat, diantaranya yakni:
1.         Membantu pengguna tes dalam mengevaluasi kualitas tes yang digunakan,
2.         relevan bagi penyusunan tes informal seperti tes yang disiapkan guru untuk siswa dikelas,
3.         mendukung penulisan butir soal yang efektif,
4.         secara materi dapat memperbaiki tes di kelas,
5.         meningkatkan validitas soal dan reliabilitas.
     Linn dan Gronlund (1995) dalam Suprananto (2012: 163), menambahkan bahwa pelaksanaan kegiatan analisis butir soal, biasanya didesain untuk menjawab pertanyaan-pertanyaan berikut:
1.         Apakah fungsi soal sudah tepat?
2.         Apakah soal telah memiliki tingkat kesukaran yang tepat?
3.         Apakah soal bebas dari hal-hal yang tidak relevan?
4.         Apakah pilihan jawabannya efektif?
Selain itu, data hasil analisis butir soal juga sangat bermanfaat sebagai dasar untuk:
1.      Diskusi tentang efisien hasil tes,
2.      kerja remedial
3.      peningkatan secara umum pembelajaran di kelas,
4.      peningkatan keterampilan pada kontruksi tes.
Berdasarkan uraian di atas menunjukkan bahwa analisis butir soal memberikan manfaat:
1.         Menentukan soal-soal yang cacat atau tidak berfungsi dengan baik,
2.         meningkatkan butir soal melalui tiga komponen analisis yaitu, tingkat kesukaran, daya pembeda dan pengecoh soal,

3.         merevisi soal yang tidak relevan degan materi yang diajarkan, ditandai dengan banyaknya anak yang tidak dapat menjawab butir soal tertentu.

1.1  Validitas Instrumen
1.1.1        Pengertian
Karakter pertama dan memiliki peranan sangat penting  dalam instrument evaluasi adalah valid. Suatu instrument dikatakan valid, seperti yang duterangkan oleh Gay (1983) dan Johnson & Johnson (2002), apabila instrument yang digunakan dapat mengukur apa yang seharusnya diukur (Sukardi, 2008).
Pernyataan serupa juga disampaikan oleh Scarvia B. Anderson (dalam Arikunto, 1997) bahwa “A test is valid if it measures what is purpose to measure”. Atau jika diartikan krang lebih, sebuah tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Dalam bahasa Indonesia “Valid” disebut dengan istilah “Sahih”.
Menurut Sukardi (2008: 31) validitas instrument suatu evaluasi, tidak lain adalah derajat yang menunjukkan dimana suatu tes mengukur apa yang hendak diukur. Validitas suatu instrument evaluasi mempunyai beberapa makna penting diantaranya seperti berikut:
1)      Validitas berhubungan dengan ketepatan interpretasi hasil tes atau instrument evaluasi untuk group individual dan bukan instrument itu sendiri.
2)      Validitas diartikan sebagai derajat yang menunjukkan kategori yang bisa mencakup kategori rendah, menengah dan tinggi.
3)      Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang perlu diperhatikan oleh para peneliti adalah bahwa Ia hanya valid untuk suatu tujuan tertentu saja.
1.1.2        Macam-macam Validitas
Menurut Sukardi (2008) secara metodologis validitas suatu tes dapat dibedakan menjadi empat macam, yaitu validitas isi, validitas konstruk, validitas konkruen dan validitas prediksi. Macam-macam validitas tersebut akan diuraikan sebagai berikut:
1)      Validitas isi
Yang dimaksud validitas isi ialah derajat dimana sebuah tes evaluasi mengukur cakupan substansi yang ingin diukur. Untuk mendapatkan validitas isi memerlukan dua spek penting, yaitu valid isi dan valid teknik sampling.Valid isi mencakup khususnya, hal-hal yang berkaitan dengan apakah item-item evaluasi menggambarkan pengukuran dalam cakupan yang ingin diukur. Sedangkan validitas teknik sampling pada umunya berkaitan dengan bagaimanakah baiknya suatu sampel tes mempresentasikan total cakupan isi (Sukardi, 2008).
Sedangkan Arikunto (1997: 64) sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh karena materi yang diberikan tertera dalam kurikulum maka validitas isi juga disebut validitas kurikuler.
2)      Validitas Konstruk
Validitas konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah konstruk sementara atau Hyptotetical construct. Secara definitife, konstruk merupakan suatu sifat yang tidak dapat diobservasi, tetapi kita dapat merasakan pengaruhnya melalui salah satu atau dua indera kita (Sukardi, 2008).
Sedangkan Arikunto(1997: 64) sebuah tes dikatakan memiliki validitas konstruksi apabila butir-butir soal yang membangun tes tersebut mengukur setiap aspek berfikir seperti disebutkan dalam tujuan instruksional khusus. Dengan kata lain jika butir-butir soal mengukur aspek berfikir tersebut sudah sesuai dengan aspek berfikir yang menjadi tujuan instruksional.
3)      Validitas Konkruen
Validitas konkruen adalah derajat dimana skor dalam suatu tes dihubungkan dengan skor lain yang telah dibuat. Tes dengan validitas konkruen biasanya diadministrasi dalam waktu yang sama atau dengan criteria valid yang sudah ada. Sering kali juga terjadi bahwa tes dibuat atau dikembangkan untuk pekerjaan yang sama seperti beberapa tes lainnya, tetapi dengan cara yang lebih mudah dan lebih cepat. Validitas konkruen ditentukan dengan membangun analisis hubungan dan perbedaan (Sukardi, 2008).
4)      Validitas Prediksi
Validitas prediksi adalah derajat yang menunjukkan suatu tes dapat memprediksi tentang bagaimana baik seseorang akan melakukan suatu prospek  atau tugas atau pekerjaan yang direncanakan. Validitas prediksi suatu tes pada umumnya ditentukan dengan membangun hubungan antara skor tes dan beberapa ukuran keberhasilan dalam situasi tertentu yang digunakan untuk memprediksi keberhasilan, yang selanjutnya disebut sebagai predictor. Sedangkan tingkah laku yang diprediksi disebut criterion (Sukardi, 2008).
Sedangkan menurut Arikunto(1997: 66) memprediksi artinya meramal, dan meramal selalun mengenai hal yang akan datang jika sekarang belum terjadi. Sebuah tes memiliki validitas prediksi atau validitas ramalan apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa yang akan datang.
1.1.3        Faktor-faktor yang Mempengaruhi Validitas
Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid. Beberapa faktor tersebut secara garis besar dapat dibedakan menurut sumbernya, yaitu faktor internal dari tes, faktor eksternal tes, dan faktor yang berasal dari siswa yang bersangkutan.
1)      Faktor yang berasal dari dalam tes
  1. Arahan tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi validitas tes
  2. Kata-kata yang digunakan dalam struktur instrument evaluasi, tidak terlalu sulit
  3. Item tes dikonstruksi dengan jelas.
  4. Tingkat kesulitan item tes tidak tepat dengan materi pembelajaran yang diterima siswa.
  5. Waktu yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang atau terlalu longgar.
  6. Jumlah item terlalu sedikit sehingga tidak mewakili sampel
  7. Jawaban masing-masing item evaluasi bisa diprediksi siswa
2)      Faktor yang berasal dari administrasi dan skor tes.
  1. Waktu pengerjaan tidak cukup sehingga siswa dalam memberikan jawaban dalam situasi tergesa-gesa.
  2. Adanya kecrangan dalam tes sehingga tidak membedakan antara siswa yang belajar dengan melakukan kecurangan.
  3. Pemberian petunjuk dari dari pengawas yang tidak dapat dilakukan pada semua siswa.
  4. Teknik pemberian skor yang tidak konsisten.
  5. Siswa tidak dapat memngikuti arahan yang diberikan dalam tes baku.
  6. Adanya joki (orang lain bukan siswa) yang masuk dalam menjawab item tes yang diberikan.
3)      Faktor yang berasal dari jawaban siswa
Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena dipengaruhi oleh jawaban siswa dari pada interpretasi item-item pada tes evaluasi (Sukardi, 2008).
1.1.4        Cara Mengetahui Validitas Alat Ukur
Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium, dalam arti memilki kesejajaran antara hasil tes tersebut dengan kriterium. Teknik yang digunakan untuk mengetahui kesejajaran adalah dengan teknik korelasi product moment yang dikemukakan oleh pearson (Arikunto, 1997)
1.2  Reliabelitas Instrumen
1.2.1        Pengertian
Menurut Sukardi (2008: 43) relaibelitas adalah karakter lain dari evaluasi. Reliabelitas juga dapat diartikan sama dengan konsistensi atau keajegan. Suatu instrument evaluasi dikatakan mempunyai nilai reliabelitas tinggi, apabila tes yang dibuat mempunyai hasil konsisten dalam mengukur yang hendak diukur.
Sehubungan dengan reliabelitas ini Scarvia B. Anderson dan kawan-kawan (dalam Arikunto, 1997) menyatakan bahwa persyaratan bagi tes, yaitu validitas dan reliabelitas ini penting. Dalam hal ini validitas lebih penting, dan reliabelitas ini perlu, karena menyokong terbentuknya validitas. Sebuah tes mungkin reliable tapi tidak valid. Sebaliknya tes yang valid biasanya reliable.
1.2.2        Tipe-tipe Reliabelitas
Menurut Sukardi (2008) Ada beberapa tipe reliabelitas yang digunakan dalam kegiatan evaluasi dan masing-masing reliebelitas mempunyai konsistensi yang berbeda-beda. Beberap tipe reliebelitas di antaranya: tes-retes, ekivalen, dan belah dua yang ditentukan melalui korelasi.
Berbagai tipe tersebut akan diuraikan sebagai berikut:
1)      Relibalelitas Dengan Tes-Retes
Reliabelitas tes-retes tidak lain adalah derajat yang menunjukkan konsistensi hasil sebuah tes dari waktu ke waktu. Tes-Retes menunjukkan variasi skor yang diperoleh dari penyelenggaraan satu tes evaluasi yang dilaksanakan dua kali atau lebih, sebagai akibat kesalahan pengukuran. Dengan kata lain, kita tertarik dalam mencari kejelasan bahwa skor siswa mencapai suatu tes pada waktu tertentu adalah sama hasilnya, ketika siswa itu dites lagi dengan tes yang sama. Dengan melakukan tes-retes tersebut. Seorang guru akan mengetahui seberapa jauh konsistensi suatu tes mengukur apa yang ingin diukur (Sukardi, 2008).
Sedangkan Arikunto (1997: 88) Metode tes ulang (tes-retes) dilakukan untuk menghindari dua penyusunan dua seri tes. Dalam menggunakan teknik atau metode ini pengetes hanya memiliki satu seri tes tapi dicobakan dua kali. Oleh karena tesnya satu dan dicobakan dua kali, maka metode ini dapat disebut juga dengan single-test-double-trial-method.
Reliebelitas tes retes dapat dilakukan dengan cara seperti berikut:
  1. Selenggarakan tes pada suatu kelompok yang tepat sesuai dengan rencana.
  2. Setelah selang waktu tertentu, misalnya satu minggu atau dua minggu, lakukan kembali tes yang sama dengan kelompok yang sama tersebut.
  3. Korelasikan kedua hasil tes tersebut.
Jika hasil koefisien menunjukkan tinggi, berarti reliabilias tes adalah bagus. Sebaliknya, jika korelasi rendah, berarti tes tersebut mempunyai konsistensi rendah (Sukardi, 2008).
2)      Reliabelitas Dengan Bentuk Ekivalensi
Sesuai dengan namanya yaitu ekivalen, maka tes evaluasi yang hendak diukur reliabelitasnya dibuat identik dengan tes acuan. Setiap tampilannya, kecuali substansi item yang ada, dapat berbeda. Kedua tes tersebut sebaliknya mempunyai karate yang sama. Karakteristik yang dimaksud misalnya mengukur variabel yang sama, mempunyai jumlah item sama, struktur sama, mempunyai tingkat kesulitan dan mempunyai petunjuk, cara penskoran, dan interpretasi yang sama (Sukardi 2008).
Pernyataan serupa juga disampaikan oleh Arikunto (1997: 87) tes paralel atau equivalent adalah dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan, tetapi butir-butirnya berbeda. Dalam istilah bahasa Inggris disebut Alternate-forms method (parallel forms).
Tes reliabelitas secara ekivalen dapat dilaksanakan dengan mengikuti langkah-langkah sebagai berikut:
  1. Tentukan sasaran yang hendak dites
  2. Lakukan tes yang dimaksud kepada subjek sasaran tersebut.
  3. Administrasinya hasilnya secara baik.
  4. Dalam waktu yang tidak terlalu lama, lakukan pengetesan yang kedua kalinya pada kelompok tersebut
  5. Korelasikan kedua hasil skor tersebut (Sukardi, 2008).
Perlu diketahui juga bahwa tes ekivalensi mempunyai kelemahan yaitu bahwa membuat dua buah tes yang secara esensial ekivalen adalah sulit. Akibatnya akan selalu terjadi kesalahan pengukuran (Sukardi, 2008). Pernyataan lain juga disampaikan oleh Arikunto (1997: 88) kelemahan dari metode ini adalah pengetes pekerjaannya berat karena harus menyusun dua seri tes. Lagi pula harus tersedia waktu yang lama untuk mencobakan dua kali tes.
3)      Reliebilitas Dengan Bentuk Belah Dua
Menurut Sukardi (2008: 47) Reliabilitas belah dua ini termasuk reliabilitas yang mengukur konsistensi internal. Yang dimaksud konsistensi internal adalah salah satu tipe reliabilitas yang didasarkan pada keajegan dalam setiap item tes evaluasi. Relibilitas belah dua ini pelaksanaanya hanya satu kali.
Cara melakukan reliabilitas belah dua pada dasarnya dapat dilakukan dengan urutan sebagai  berikut:
  1. Lakukan pengetesan item-item yang telah dibuat kepada subjek sasaran.
  2. Bagi tes yang ada menjadi dua atas dasar dua item, yang paling umum dengan membagi item dengan nomor ganjil dengan item dengan nomor genap pada kelompok tersebut.
  3. Hitung skor subjek pada kedua belah kelompok penerima item genap dan item ganjil.
  4. Korelasikan kedua skor tersebut, menggunakan formula korelasi yang relevan dengan teknik pengukuran (Sukardi, 2008).
Untuk mengetahui seluruh tes harus digunakan rumus Spearman-Brown (Arikunto, 1997):
1.2.3        Faktor-Faktor Yang Mempengaruhi Reliabilitas Instrumen
Menurut Sukardi (2008:51-52) koefisien reliabilitas dapat dipengaruhi oleh waktu penyelenggaraan tes-retes. Interval penyelenggaraan yang terlalu dekat atau terlalu jauh, akan mempengaruhi koefisien reliabilitas. Faktor-faktor lain yang juga mempengaruhi reliabilitas instrument evaluasi di antaranya sebagai berikut::
1)      Panjang tes, semakin panjang suatu tes evaluasi, semakin banyak jumlah item materi pembelajaran diukur.
2)      Penyebaran skor, koefisien reliabelitas secara langsung dipengaruhi oleh bentuk sebaran skor dalam kelompok siswa yang di ukur. Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliable.
3)      Kesulitan tes, tes normative yang terlalu mudah atau terlalu sulit untuk siswa, cenderung menghasilkan skor reliabilitas rendah.

4)      Objektifitas, yang dimaksud dengan objektif yaitu derajat dimana siswa dengan kompetensi sama, mencapai hasil yang sama

8 komentar:

Unknown mengatakan...

Daftar Agen Judi Poker, Adukiu, QQ, BandarQ Online Terpercaya Di Indonesia Sekarang Juga...
Tingkat kemenangan 80% Ayo Buruan Tunggu Apa Lagi Daftarkan Diri anda sekarang juga...
CentralQQ
CentralQQ
CentralQQ
CentralQQ
CentralQQ
CentralQQ

Love Fis Mat mengatakan...

Terimakasih banyak atas bantuannya. sangat sangat membantu

Y. ROHAYATI mengatakan...

terimakasih banyak atas informasinya, sangat membantu dan bermanfaat, saya izin utk mencopy.

AMRI USMAN mengatakan...

terima kasih banyak, ijin share

Unknown mengatakan...

Terima kasih, imformasinya sangat membantu

Neng Lani, S. Pd mengatakan...

terimakasih sangat bermanfaat

Unknown mengatakan...

TERIMAKAASI BANYAK..

Syifa Fauziah mengatakan...

Tolong sertakan daftar pustakanya kak

Posting Komentar

 

This Template Was Found On Elfrida Chania's Blog. Copyrights 2011.