Rabu, 29 Februari 2012

materi evaluation and language testing


1. FUNGSI EVALUASI DALAM PEMBELAJARAN
Dini Irawati, M.Pd


PENDAHULUAN
            Penyelenggaraan pembelajaran memerlukan tiga hal yang saling terkait: perumusan tujuan pembelajaran, pelaksanaan pembelajaran, dan tes untuk mengetahui hasil pembelajaran (Gagne dan Briggs, 1974).  Dalam tahap perumusan tujuan pembelajaran, diperlukan pemikiran cermat mengenai target yang akan diajarkan, bahan yang akan dipilih, dan tahapan pembelajaran sesuai dengan target yang akan dicapai.  Pada tahap pelaksanaan pembelajaran, diperlukan pemilihan metode mengajar yang sesuai dengan tahapan-tahapan bahan yang disusun.  Setelah bahan ajar disusun dan proses pembelajaran diterapkan di kelas, guru memerlukan dua informasi penting.  Pertama informasi mengenai sejauh mana pembelajar mampu menyerap apa yang sudah diajarkan.  Untuk itu, guru memerlukan umpan balik yang di antaranya diperoleh melalui pemberian tes.  Selain itu, guru juga memerlukan informasi sejauh mana tujuan pembelajaran, pelaksanaan pembelajaran, dan bahan yang disusun mencapai sasaran sesuai dengan kemampuan pembelajar.  Pada tahap ini, guru juga memerlukan informasi yang diperoleh dari hasil tes.
            Hakikat tes dalam pembelajaran dengan demikian bukanlah proses tunggal yang terpisah dengan unsur pembelajaran atau berdiri sendiri.  Djiwandono (1996) menegaskan, dalam pembelajaran, tes umumnya dikaitkan dengan usaha untuk memperoleh informasi tentang peningkatan kemampuan siswa sebagai hasil pengajaran. Selain itu, tes juga merupakan sumber informasi seperti ketepatan identifikasi dan rumusan tujuan pembelajaran, kesesuaian jenis dan cakupan bahan ajar, kesesuaian metode dan kemampuan mengajar, dan kesesuaian penyediaan waktu.  Oleh karena itu, pengajar perlu merancang dan menyediakan tes secara baik dan benar.  Pengembangan tes, kesesuaian prosedur, dan penggunaan tes yang sesuai dengan kaidah-kaidah yang berlaku mutlak diperlukan oleh pengajar.
            Pengembangan tes sebenarnya juga dipengaruhi oleh metode pembelajaran yang digunakan.  Karena itu, pengembangan tes harus juga memperhatikan ciri-ciri metode pembelajaran yang digunakan dan karakteristik bahan ajar yang diberikan.  Pemberian tes yang tidak mengacu pada tujuan pembelajaran dan karakteristik bahan ajar, bisa menghasilkan informasi yang menyesatkan.  Dalam praktik dewasa ini, banyak pengajar yang menyelenggarakan tes tanpa secara teliti memperhatikan karakteristik bahan ajar dan metode pembelajaran yang digunakan.  Tes dalam model ini disusun mengikuti urutan materi yang sudah ada sebelumnya.  Misalnya, guru yang mengejar nilai Ujian Nasional umumnya menentukan bahan ajar mengikuti bahan dalam tes.  Dengan  demikian, proses pembelajaran yang dibuat ditentukan dengan urutan (1) menentukan tes, (2) menyusun bahan ajar, dan (3) memilih metode yang sesuai dengan bentuk tes.  Pola ini disebut dengan backwash, yang tidak sesuai dengan kaidah pembelajaran. Pembelajaran model backwash ini melatih pembelajar menghafalkan konsep dan jawaban soal dan bertentangan dengan tujuan pembelajaran untuk mengembangkan analisis dan berpikir kritis.
            Dengan mengacu pada haikat tes dalam pembelajaran yang mencakup tujuan pembelajaran,  metode mengajar, dan penyusunan perangkat tes, jelaslah bahwa pengajar dituntut untuk menguasai bukan hanya bagaimana menyusun tes yang sesuai kaidah, tetapi juga harus tahu tentang kurikulum, buku teks, dan metode mengajar. Pemahaman yang kurang proporsional tentang aspek tes dan komponen pendukungnya sebagaimana dikemukakan di atas akan menyebabkan penyelenggaraan tes kurang proporsional dan menyesatkan karena terjadi proses backwash. 
            Dalam pelaksanaan tes secara komprehensif, diperlukan pemahaman mengenai konsep tes secara umum dan seluk-beluk penyusunannya.  Selain itu, terkait dengan model pembelajaran di kelas, bentuk tes juga mengalami perkembangan yang nyata sehingga penekanan dan pola pengetesan juga perlu menyesuaikan dengan model tersebut. Makalah ini mencoba mengulas konsep tes dikaitkan dengan pendekatan pembelajaran, kecenderungan jenis tes, taknik pengembangan tes, dan model tes pada perkembangan terbaru dalam pembelajaran.

PERKEMBANGAN ALIRAN DALAM TES
            Secara tradisional tes melibatkan tiga jenis aktivitas: pengukuran, tes, dan evaluasi.  Pengukuran mengacu pada identifikasi untuk memperoleh angka-angka sebagai representasi perilaku yang diukur.  Dalam tahap ini angka belum memiliki makna.  Tes mengacu pada pemberian butir-butir pertanyaan kepada yang dites. Jadi, tes merujuk pada proses pengambilan angka.  Selanjutnya, evaluasi artinya proses mempertimbangkan angka-angka hasil pengukuran dibandingkan dengan kriteria tertentu. Dalam evaluasi terjadi pengambilan keputusan sesuai dengan jenis kriterianya, misalnya sangat baik (A), baik (B), cukup (C), kurang (D), dan sangat kurang (E).  Dalam praktik, proses memberikan evaluasi itu sering disebut dengan testing walaupun yang dimaksud sebenarnya ialah pengumpulan data berupa angka-angka untuk dibandingkan dengan kriteria sebagai bahan untuk mengambil keputusan. Jadi, yang sebenarnya dilakukan guru untuk mengukur kemampuan pembelajar atau mengetahui kesesuaian proses pembelajaran ialah evaluasi.  Proses pengambilan datanya, untuk memudahkan penyebutan, disebut dengan tes atau testing.
            Hakikat pengukuran dalam kelas dengan demikian ialah evaluasi.  Karena dengan pengukuran saja, pengajar tidak bisa mengambil kesimpulan.  Tetapi dengan membandingkan antara hasil pengukuran dengan kriteria, pengajar bisa mengambil keputusan tentang bagaimana keadaan pembelajar sesuai hasil pengukurannya.
            Dalam melaksanakan evaluasi sebagaimana dikemukakan di atas, terdapat tiga aliran yang sejauh ini mendominasi sebagaimana dikemukakan oleh Briggs (1994).  Ketiga aliran tersebut ialah: (1) discrepancy model, (2) product/outcome oriented, dan (3) decision making oriented.  Aliran discrepancy model menekankan untuk mengetahui kelemahan dan kekurangan.  Pola ini umumnya dilakukan untuk investigasi kasus seperti yang dilakukan oleh polisi atau jaksa.  Pada pendekatan product oriented, penekanan evaluasi difokuskan pada hasil akhir.  Di sini, proses pembelajaran sebelum pemberian tes tidak penting.  Model ini dilaksanakan sekian lama untuk mengetahui hasil belajar siswa dalam praktik pengajaran di Indonesia.  Pada pendekatan decision-making oriented, hasil evaluasi difungsikan sebagai salah satu bahan pertimbangan untuk membuat keputusan akhir tentang nasib pembelajar.  Karena fungsi hasil evaluasi hanya sebagai bagian dalam pengambilan keputusan, berarti diperlukan sumber-sumber lain yang mendukung hasil tes.  Dalam pembelajaran, unsur-unsur tersebut merupakan proses dalam pembelajaran di kelas yang terdiri dari kehadiran, tugas, partisipasi, dan pekerjaan lain yang mendukung.


PENDEKATAN DALAM TES
            Pelaksanaan tes mengalami perubahan sesuai dengan perkembangan teknologi dan ilmu pengetahuan. 
Pertama, disebut zaman pra ilmiah.  Dalam era ini bentuk tes dan tata cara penilaiannya belum ada standar tertentu. Begitu juga syarat-syarat pengembangan tes yang baik, belum ditetapkan dan belum disepakati.  Bahan yang diteskan juga belum standar.  Umumnya bahan tes mengikuti kemauan apa yang dibuat guru.  Materi yang dibuat mengacu pada penguasaan konsep bidang ilmu tertentu sampai sangat mendalam.  Ketentuan lulus tidaknya pembelajar dalam menjawab tes sangat tergantung pada mood si pengajar.  Karena tidak ada kriteria yang digunakan, guru menjadi sangat powerful.  Apa yang akan diteskan tidak bisa dilacak dari bahan ajar atau metode mengajar yang pernah disampaikan oleh guru di kelas.       
Kedua, era psikometrik atau era ilmiah.  Era ini disebut ilmiah karena pemberian tes sudah didasarkan pada kriteria dan kaidah tertentu.  Kriteria yang digunakan merujuk pada penggunaan angka-angka untuk merepresentasikan perilaku belajar.  Jadi, proses tes diberikan dengan mengidentifikasi perilaku belajar ke dalam angka-angka.  Proses penilaian ini sejalan dengan perkembangan psikometrik. Aliran ini memandang bahwa segala sesuatu yang abstrak harus bisa dikuantifikasi.  Data yang bukan berupa angka dianggap lemah, sehingga data-data tersebut harus diubah dulu ke dalam angka-angka.
Kehadiran aliran prikometrik ini memang menandai revolusi ilmu pengetahuan. Patokan penilaian mulai bisa digunakan secara baku dan seragam.  Salah satu contoh penggunaan kriteria ialah penggunaan katagori sangat baik (80-100), baik (70-79), sedang (60-69), kurang (50-59), dan sangat kurang (10-49).  Yang menonjol dalam pendekatan ini ialah katagori dalam ”slogan normal”.  Menurut aliran ini, segala sesuatu di dunia terjadi secara normal.  Karena itu, hasil tes juga dikelompokkan ke dalam jenis normal.  Butir-butir pertanyaan yang disusun juga harus mengacu pada “hukum serba normal ini”.  
Implikasi dari hukum serba normal ini ialah: peserta tes rata-rata ”hanya boleh” mendapat nilai normal (sedang atau dalam rentangan 60).  Siswa yang sangat pintar, pintar, atau sangat kurang hanya berjumlah sedikit saja.  Inilah sebabnya, pada era ini misalnya dari 100 mahasiswa yang mengikuti ujian, antara 70% memperoleh nilai C. Kalau ada yang mendapat A, B, D, atau E hanya antara 10% saja.  Dalam beberapa kasus malahan rentangan nilai mahasiswa hanya C, D dan E.
Implikasi lain di bidang pengembangan tes juga substansial.  Dalam era ini sudah disepakati aturan mengenai kualitas butir soal, validitas, dan reliabilitas.  Kualitas butir soal mengacu pada pembobotan tingkat kesulitan, daya pembeda, dan penggunaan distraktor yang efektif.  Penggunaan kriteria validitas dan reliabilitas mengacu pada pembuatan kisi-kisi tes dan pembandingan hasil tes yang sedang disusun dengan hasil tes lain yang sudah dianggap memliki kualitas yang baik.
Dari segi bahan ajar dan metode mengajar, era ilmiah ini menekankan pada pembelajaran berpusat pada siswa.  Karena itu, tujuan pembelajaran dan tujuan tes ditekankan pada penguasaan konsep tentang materi yang diajarkan sebanyak-banyaknya. Analisis tingkat kesulitan butir soal mengacu pada taksonomi pembelajaran yang dikemukakan oleh Bloom (1959).  Tujuan pembelajaran dikelompokkan ke dalam tiga jenis: cognitif, afektif, dan psikomotorik, masing-masing dielaborasi menggunakan kata-kata kerja operasional yang sudah baku.  Dalam tahap awal, taksonomi yang banyak diikuti ialah aspek kognitif.  Untuk itu, ukuran tingkat kesulitan butir soal menggunakan ranah: recall, comprehension, application, analysis, synthesis, dan evalution.  Domain afektif dan spikomorotik kurang digunakan.
Ketiga, pendekatan proses.  Pendekatan proses dalam tes mengacu pada model evaluasi yang menekankan pada penggunaan bahan ajar dalam kehidupan senyatanya di lapangan.  Pendekatan ini dalam pembelajaran sains merujuk pada belajar inquiry atau pendekatan proses.  Dalam pembelajaran bahasa, pendekatan ini merujuk pada communicative approach.  Hakikat evaluasi ialah untuk mengetahui kemampuan siswa dalam menerapkan konsep yang dipelajari secara nyata di lapangan. 
Pada era ini, penggunaan jenis tes objektif dan esai sangat populer.  Tes objektif digunakan untuk menguji kompetensi dan tes esai digunakan untuk menguji penalaran. Di luar negeri, ranah yang dinilai sudah berkembang tidak hanya pada aspek kognitif tetapi juga afektif dan psikomotorik.  Di Indonesia terjadi kecenderungan menggunakan aliran tes product oriented.  Untuk itu, model tes yang lebih ditekankan ialah tes objektif karena dianggap mudah dikoreksi.  Selain itu, untuk tujuan penggunaan tes massal seperti EBTANAS atau UMPTN, tes objektif mudah dikoreksi dan dengan cepat memberikan informasi. 
Kelemahan era ini secara nyata melahirkan lulusan yang kurang daya nalar dan analisisnya.  Penguasaan logika kurang tajam dan argumentasi dalam menyampaikan pandangan tertentu tidak kritis.  Hal ini juga secara langsung berdampak pada proses pembelajaran di kelas.  Dalam pembelajaran di kelas, tujuan utamanya ialah menuntaskan materi.  Karena materi akan diukur menggunakan tes nasional, apabila bahan tidak habis akan berdampak pada nasib si guru. 
Keempat, pendekatan berbasis konteks.  Dalam pendekatan ini, yang diutamakan dalam evaluasi ialah proses bagaimana pembelajar mencapai kompetensi tertentu.  Untuk itu, penilaian diarahkan pada portofolio pembelajar. Portofolio ini menuntut adanya rekam jejak hasil belajar, seperti PR, partisipasi, kehadiran, tugas, dan juga hasil tes harian.  Dalam pendekatan berbasis konteks, tujuan tes tidak semata-mata didasarkan pada apa yang diajarkan saja, tetapi meliputi: stándar kompetensi, kompetensi dasar, dan kompetensi minimal. 
Dalam kompetensi dasar materi ajar sudah ditetapkan dalam kurikulum dan kemampuan dasarnya dibandingkan dengan kriteria nasional.  Misalnya, dalam pembelajaran speaking, kompetensi dasarnya ialah bisa berkomunikasi dengan native speaker.  Jadi, setelah speaking diajarkan, mahasiswa harus mampu berkomunikasi dengan native speaker.
Tapi tidak semua mahasiswa akan bisa mencapai tingkatan itu.  Karena itu, dosen harus membuat tahapan materi dan proses pembelajaran secara cermat.  Yang pertama-tama dilakukan ialah menetapkan kompetensi dasar mahasiswa.  Kompetensi dasar ini sesuai dengan bahan yang akan diajarkan.  Misalnya, agar mampu berkomunikasi secara lancar, mahasiswa harus menguasai topik secara instan, tidak boleh mempersiapkan diri tertulis atau diskusi, dan kalimat-kalimat serta ucapan harus disampaikan secara jelas.  Inilah kompetensi dasar yang menjadi target pembelajaran dosen.  Setelah beberapa kali dilatih dengan target kompetensi dasar yang demikian tadi, mahasiswa akan mampu mencapai standar kompetensi. 
Karena kemampuan mahasiswa di kelas tidak merata, tentu ada yang mencapai maksimum dan ada yang kurang.  Untuk itu, dosen memerlukan kompetensi minimal. Ini disebut dengan standar kompetensi minimal.  Dengan demikian, mahasiswa yang sudah menempuh speaking dari dosen A, sekurang-kurangnya bisa berkomunikasi menggunakan kalimat yang benar dan ucapan yang jelas.
Implikasi dari pendekatan berbasis konteks ini cukup kompleks.  Pertama, ranah yang diukur tidak lagi terbatas pada aspek kognitif, tetapi juga afektif dan spikomotorik. Dengan demikian, tataran berpikir dalam menjawab pertanyaan bukan lagi ditekankan pada kemampuan mengingat atau menghafal, tetapi sekurang-kurangnya menganalisis dan mengevaluasi.  Kompetensi dalam konteks ini mengacu pada penguasaan skill sekaligus: mengetahui konsep, bisa menjelaskan, dan bisa mempraktikkan sewaktu-waktu diminta.  Kedua, tujuan pembelajaran, model pembelajaran, dan pola evaluasi yang digunakan tidak cukup hanya tes objektif, tetapi juga harus esai dan praktik.  Dalam hal ini, secara umum digunakan portfolio, proyek, performance, dan menulis paper.  Implikasinya, selain pengajar harus menguasai model tes yang sudah lazim, mereka harus dilatih dan dibiasakan menggunakan tes berbasis kelas dalam model pembelajaran berbasis konteks.


PERMASALAHAN DALAM EVALUASI
            Dengan merunut perkembangan tes dan karakteristiknya yang demikian ini, permasalahan yang muncul ialah: bagaimana menguasai jenis tes dan mengembangkan jenis tes sesuai dengan tujuan pembelajaran dan perkembangan metode mengajar?  Uraian ini mencoba meringkas lima hal dalam upaya menjawab pertanyaan tersebut. Kelima hal itu ialah:  jenis tes, format tes, syarat tes yang baik, interpretasi hasil tes, pengembangan butir tes, dan evaluasi berbasis kelas.

Jenis Tes
            Jenis tes di sini dibatasi hanya pada jenis tes berdasarkan tujuan penyelenggaraannya dan jenis tes berdasarkan cara membuatnya.  Berdasarkan tujuan penyelenggaraannya, tes dibagi ke dalam tiga jenis: tes formatif, tes sumatif, dan tes profisiensi.  Tes formatif atau tes harian diselenggarakan setelah satu atau dua unit selesai diajarkan. Penekanan pada tes ini ialah ketuntasan bahan ajar dalam waktu pendek.  Di perguruan tinggi, tes formatif biasanya diberikan untuk memberi penguatan penguasaan bahan ajar dan variasi tes diberikan dalam bentuk kuiz, tugas, atau UTS (ujian tengah semester). Tes sumatif diselenggarakan dalam rentang waktu setelah satu periode belajar diselesaikan, misalnya satu semester. Karena akhir semester bisa juga terjadi bersamaan dengan kenaikan kelas atau lulusan, tes sumatif difungsikan juga untuk tes kenaikan kelas atau evaluasi akhir.  Tes formatif dan sumatif mengacu pada ketuntasan proses belajar dalam periode tertentu.  Tes lain yang tidak terikat oleh waktu pelaksanaan pembelajaran, tetapi mengacu pada hasil yang bisa ditunjukkan pembelajar disebut dengan achievement test.  Tes jenis ini disebut juga tes profisiensi atau mastery test.  Jika tes formatif dan sumatif menekankan pada penguasaan bahan yang sudah diajarkan pada kurun waktu tertentu, tes profisiensi mengacu pada sejauh mana lulusan tertentu menguasai pengetahuan tertentu setelah mereka lulus dari tingkat tertentu.
            Dilihat dari cara membuatnya, tes dibedakan ke dalam tes buatan sendiri dan tes terstandar. Tes buatan sendiri (sering disebut teacher-made test) ialah tes yang dibuat sendiri oleh pengajar untuk mengetahui keberhasilan pembelajaran dan kemampuan siswanya.  Disebut tes buatan sendiri karena tes tersebut akan digunakan sendiri di kelas. Karena itu, tes buatan sendiri disebut juga tes untuk evaluasi di kelas (classroom test) dan digunakan untuk tes formatif.
            Implikasi dari tes ini ialah: guru tidak perlu menyusun kisi-kisi secara rinci sebelum menyusun butir soal. Selain itu, tes tidak perlu diuji-coba untuk mengetahui kualitas butirnya sebelum digunakan untuk mengetes siswa.  Dengan kriteria demikian, tes buatan guru biasanya kualitasnya rendah karena tidak melalui seleksi butir soal yang teliti.  Selain itu, bentuk soal yang dibuat juga cenderung yang memudahkan pembuat, misalnya berbentuk esai dan disusun untuk pokok bahasan terbatas.
            Tes terstandar ialah tes yang kualitasnya memenuhi kriteria tertentu. Tes ini disusun secara cermat melalui tahapan yang jelas dan proses seleksi butir soalnya dilakukan melalui uji-coba (try-out).  Yang dimaksud disusun secara cermat mencakup kegiatan menyiapkan kisi-kisi, proporsi materi diteliti secara mendalam, perumusan butir pertanyaan dibuat secara rinci, dan setelah butir-butir disusun, dilakukan uji-coba untuk menyeleksi butir-butir soal yang masuk kriteria.  Karena prosesnya yang demikian, tes terstandar disusun dalam waktu yang tidak pendek.
            Jika tes buatan sendiri digunakan untuk tes kelas saja, tes terstandar digunakan untuk tujuan massal, misalnya UNAS atau UMPTN.  Kekuatan tes terstandar ialah adanya kalibrasi butir soal.  Kalibrasi ini bertujuan untuk mengetahui tingkat kesulitan butir, daya pembeda, efektivitas distraktor, validitas, dan reliabilitas.

Format Tes
            Format tes ialah bentuk tes dilihat berdasarkan cara memberikan skor.  Format tes ada dua: objektif dan non-objektif.  Tes objektif ialah tes yang caranya menskor diberikan secara diskrit, jawaban benar mendapat poin dan jawaban salah mendapat poin nol. Karena sifat pemberian skor didasarkan pada fakta benar salah, tes ini disebut dengan tes objektif.  Jenis tes objektif ini antara lain: menjodohkan, benar salah, pilihan ganda, isian pendek dengan satu jawaban.  
Format tes yang kedua disebut dengan tes non-objektif.  Skoring untuk tes jenis ini diberikan melalui skala (scaling points) dari rentangan minimum ke maksimum. Jawaban yang memenuhi kriteria penuh mendapat skor semakin tinggi dan yang kurang penuh mendapat skor kurang. Penskoran untuk tes jenis ini, melibatkan kesan dan perasaan penilai.  Selain itu, jawaban tes berupa uraian yang menunjukkan penalaran si penjawab.  Karena cirinya yang demikian, tes ini disebut juga tes subjektif atau tes esai. Kekuatan tes esai ialah tes ini menguji penalaran, analisis, sintesis dan evaluasi. Semakin mendalam uraian dan didukung dengan data-data, semakin sempurna jawaban tes.  Dalam bentuk lebih luas, tes jenis ini bisa berupa paper, laporan hasil penelitian, atau kajian terhadap topik tertentu. Berikut ialah contoh tes esai.
(1)       Sebutkan tiga alasan mengapa bangsa Indonesia memilih negara demokrasi (skor 15).

Butir pertanyaan dalam soal dalam bentuk kalimat disebut dengan stem, di dalam
stem terdapat task (beban pekerjaan) yang harus dijawab oleh peserta tes.  Pada contoh (1) di atas, pertanyaan yang harus dijawab ialah negara demokrasi, sedangkan task yang harus dikemukakan penjawab ialah tiga alasan.
            Penilaian yang diberikan untuk jawaban soal di atas, harus didasarkan pada kriteria dengan rentangan skor tertentu.  Ilustrasi kriteria dan rentangan skornya bisa dikemukakan berikut ini:

Tabel 1.  Kunci Soal Esai dan Rentangan Skor
----------------------------------------------------------------------------------------------------------
No       Indikator Jawaban                                                      Baik    Sedang               Kurang           
----------------------------------------------------------------------------------------------------------
1          Indonesia terkungkung orde baru                               5          3             1
2          Dasar negara Indonesia ialah demokrasi                   5          3             1
3          Indonesia ingin lepas dari kekangan militer              5          3             1
----------------------------------------------------------------------------------------------------------

            Tabel di atas menjelaskan bahwa kunci jawaban soal terdiri dari tiga pokok pikiran.  Setiap pokok pikiran diberi poin 5, sehingga apabila satu jawaban saja yang benar, skor yang diberikan 5, 10 untuk 2 jawaban benar, dan 15 untuk tiga jawaban benar.  Masalahnya ialah, dalam menyajikan uraian tidak semua penjawab menggunakan kalimat yang sama.  Dalam hal ini, guru bisa menempuh dua cara: jawaban dianggap benar apabila poin jawaban sama dengan kunci atau uraian dan poin jawaban harus mendetil.  Angka 15 di belakang pertanyaan menunjukkan berapa skor maksimum jika jawaban benar.  Angka ini memudahkan pengoreksi untuk menentukan skala penilaian dan memberi petunjuk pada penjawab untuk membuat seberapa mendalam uraian yang diperlukan.

Syarat Tes Yang Baik
            Berbagai kepustakaan menyebutkan ada tiga syarat tes yang baik: kepraktisan, validitas, dan reliabilitas.  Karena tes yang baik juga melibatkan pemilihan tingkat kesulitan butir yang baik, penulis berpendapat, kualitas butir soal juga bagian dari syarat tes yang baik.  Jadi secara lengkap, syarat tes yang baik meliputi: tingkat kesulitan butir soal, validitas, dan reliabilitas.  Uraian mengenai tingkat butir soal sudah dibahas di muka dengan mengacu pada uji-coba butir soal.
            Kepraktisan ialah kemudahan dalam menggunakan butir tes. Kemudahan ini meliputi kemudahan dalam skoring dan penggunaan.  Tes yang didesign untuk dikoreksi menggunakan komputer, mungkin praktis dan mudah apabila digunakan di dalam kota yang ada listrik.  Tetapi tes teserbut akan menyulitkan apabila digunakan di perbatasan Indonesia-Malaysia yang belum ada listrik.  Karena kepraktisan tidak terkait dengan substansi tes, beberapa ahli menganggap kepraktisan bukan syarat tes yang baik.
            Syarat kedua ialah validitas.  Validitas artinya kecocokan antara hasil tes dengan kemampuan yang diuji.  Misalnya, siswa yang mendapat nilai membaca Al Quran 9, harus menunjukkan kemampuan melafalkan ayat-ayat dengan sempurna.  Apabila misalnya, siswa tadi disuruh membaca Alfatikah saja tidak lancar, berarti skor 9 tadi tidak cocok. Berarti hasil tes tadi tidak valid. Jadi yang dimaksud valid ialah skornya, bukan tesnya.
            Pendekatan validitas digunakan untuk menunjukkan bahwa hasil tes memiliki kecocokan dengan penampilan yang diuji.  Validitas terdiri dari dua jenis: validitas logis dan validitas empiris.  Validitas logis ialah cara menunjukkan hasil tes cocok berdasarkan logika atau alasan.  Validitas logis terdiri dari: face validity, content validity, dan construct validity.  Face validity ialah kecocokan dilihat dari penampilan tes. Misalnya, guru yang menguji kemampuan menulis, di dalam kelas ternyata siswa disuruh berbicara.  Dalam melihat aktivitas ini, kita bisa melihat penampakkanya dengan berkomentar: “Tes menulis kok bicara ya?”.
            Validitas isi (content validity) ialah pembuktian melalui kecocokan antara butir tes dengan tujuan tes dan sebaran bahan tes.  Validitas ini bisa dilihat dari kisi-kisi soal. Validitas konstruk ialah pencocokan butir tes dengan teori belajar yang mendasari. Contoh validitas kontruk ialah sebagai berikut. Kelas A diajar oleh orang Jepang untuk membuat radio. Kelas B diajar insinyur ITB dalam membuat radio.  Baik orang Jepang maupun insinyur ITB telah menampilkan perilaku belajar, metode, dan langkah-langkah pembelajaran sesuai dengan konsep dan teori yang dianutnya.  Masing-masing menerapkan konstruk yang berbeda.  Apabila kalas A dan kelas B di akhir pembelajaran sama-sama mampu membuat radio, berarti konstruk yang digunakan oleh orang Jepang dan Insinyur ITB tadi memiliki kesamaan. Valid.
            Validitas jenis yang kedua ialah validitas empiris.  Validitas ini terdiri dari validitas prediktif dan validitas kriteria.  Kedua jenis validitas ini memerlukan nilai pembanding yang diperoleh dari tes lain yang sejenis.  Proses perbandingan dilakukan dengan cara uji statistik.  Jika nilai uji statistik menunjukkan korelasi yang tinggi, berarti validitas skor tes yang dicari memiliki kesamaan dengan validitas skor tes pembanding.
            Syarat ketiga ialah reliabilitas.  Reliabilitas artinya keajegan atau konsistensi.  Yang dimaksud konsisten ialah skor yang dihasilkan oleh tes.  Andaikan seperangkat tes dikoreksi oleh penilai A dan penilai B, skor yang diberikan oleh kedua penilai tersebut harus kurang lebih sama, konsisten. Jika terjadi perbedaan skor yang mencolok, berarti skor tersebut tidak konsisten atau tidak reliabel.
            Kalau validitas bisa dibuktikan melalui logika dan uji statistik, reliabilitas sepenuhnya harus menggunakan uji statistik.  Reliabilitas bisa diperoleh melalui empat cara: (1) test-retest, (2) split-halves method, (3) equivalent forms, dan (4) metode Kuder-Richardson.  Baik validitas dan reliabilitas memerlukan hitungan statistik sederhana utamanya untuk melihat korelasi.
           
Interpretasi Hasil Tes
            Hasil tes berupa skor selanjutnya harus diinterpretasi dengan cara dibandingkan dengan kriteria tertentu.  Ada dua cara dalam menginterpretasi hasil tes: menggunakan Patokan Acuan Norma (PAN) dan Patokan Acuan Patokan (PAP).  Dalam PAN, nilai batas lulus (passing grade) tidak ditentukan lebih dulu. Patokan yang digunakan ialah rata-rata kelas.  Jadi, nilai rata-rata dikatagorikan sebagai nilai sedang atau C. Selanjutnya, sebaran nilai ke dalam katagori A, B, D dan E ditetapkan berdasarkan besaran standar deviasai ditambah rata-rata.  Dalam penilaian PAP, kriteria batas lulus sudah ditetapkan secara ketat, misalnya 70 atau 80.  Dalam praktik, penggunaan PAN dan PAP sering dikombinasikan sehingga melahirkan kriteria tertentu.  Beberapa kriteria yang digunakan di perguruan tinggi di Indonesia dan sekolah internasional disajikan dalam tabel berikut.

Tabel 2.  Contoh Kriteria PAP
-----------------------------------------------------------------------------------------------------------
No       Skala 100        Skala 10          Skala 4                        Nilai                Kualifikasi
-----------------------------------------------------------------------------------------------------------
1          85-100             8.5-10              4                      A                     Sangat baik
2          70-84               7.0-8.4             3                      B                     Baik
3          55-69               5.5-6.9             2                      C                     Sedang
4          50-54               5.0-5.4             1                      D                     Kurang
5          10-49               1.0-4.9             0                      E                      Sangat Kurang
-----------------------------------------------------------------------------------------------------------

Tabel 3.  Kombinasi PAN dan PAP
-----------------------------------------------------------------------------------------------------------
No       Rentangan                               Skor                Nilai                Kualifikasi
-----------------------------------------------------------------------------------------------------------
1          80-100                                     4                      A                     Sangat baik
2          70-79                                       3                      B                     Baik
3          60-69                                       2                      C                     Sedang
4          50-59                                       1                      D                     Kurang
5          10-49                                       0                      E                      Sangat Kurang
-----------------------------------------------------------------------------------------------------------

Tabel 4.  Kriteria Penilaian di Perguruan Tinggi di Indonesia
-----------------------------------------------------------------------------------------------------------
No       Skala 100        Skala 10          Skala 4                        Nilai                Kualifikasi
-----------------------------------------------------------------------------------------------------------
1          91-100             3.8-4.0             4,0                   A                     Sangat baik
2          86-90               3.6-3.79           3,7                   A-                   
3          81-85               3.2-3.59           3.3                   B+                   Baik
4          76-80               2.9-3.19           3.0                   B                    
5          70-75               2.5-2.89           2.7                   B-                    Sedang
6          60-69               1.5-2.49           2.0                   C                     Kurang
7          50-59               0.5-1.49           1.0                   D                     Sangat Kurang
8          10-49               0.0-0.49           0                      E
-----------------------------------------------------------------------------------------------------------




Tabel 5.  Kriteria Penilaian di Sekolah Internasional
-----------------------------------------------------------------------------------------------------------
No       Skala 100                                Skala 4                        Nilai                Kualifikasi
-----------------------------------------------------------------------------------------------------------
1          97-100                                     4,3                   A+                   Outstanding
2          93-96                                       4.0                   A-                   
3          90-92                                       3.7                   A                    
4          87-89                                       3.3                   B+                   Sangat baik
5          83-86                                       3.0                   B                    
6          80-82                                       2.7                   B-                   
7          77-79                                       2.3                   C+                   Memuaskan
8          73-76                                       2.0                   C
9          70-72                                       1.7                   C-
10        67-69                                       1.3                   D+                   Di bawah rata-rata
11        63-66                                       1.0                   D
12        60-62                                       0.7                   D-
13        59/below                                 0                      F                      Gagal
-----------------------------------------------------------------------------------------------------------


Tabel 6.  Kriteria Penilaian TOEFL
-----------------------------------------------------------------------------------------------------------
No       Pencil Based   Computer Based         Kualifikasi
-----------------------------------------------------------------------------------------------------------
1          650 up             280 up                         Dijamin diterima di semua program
2          600-649           250-279                       Dijamin diterima untuk program S1
3          550-599           213-249                       Bisa diterima di program S2
4          500-549           173-212                       Bisa diterima di program S1
5          450-499           133-172                       Perlu review pribadi
6          449-less          132-less                      Harus ikut pelatihan khusus
-----------------------------------------------------------------------------------------------------------

Authentic Assessment
            Perkembangan model pembelajaran berbasis konteks menuntut model penilaian yang menekankan proses.  Evaluasi didasarkan pada proses pembelajaran dalam kelas yang terjadi berkesinambungan dan saling melengkapi.  Evaluasi demikian ini disebut dengan authentic assesment atau penilaian berbasis kelas (classroom based evaluation).  Authentic assessment terdiri dari empat jenis: portfolio, project, performance, dan extended writing.  
            Penilaian portfolio merupakan rekam jejak kemampuan akademis selama mengikuti pembelajaran.  Porfolio berisi artifak atau bukti-bukti pekerjaan yang dilakukan siswa selama periode tertentu, misalnya catatan, tugas, pekerjaan rumah.  Portfolio bisa berupa kliping yang berisi kumpulan dokumen pekerjaan siswa dalam mengikuti kegiatan pembelajaran.
            Project ialah pekerjaan mandiri yang harus dikerjakan siswa baik secara individu maupun kelompok.  Proyek bertujuan untuk memberikan beberapa tujuan pembelajaran sekaligus dan harus dikuasai oleh siswa melalui proses: persiapan, perencanaan, mengerjakan, memecahkan masalah, menyusun laporan, dan menyampaikan hasil. 
            Performance ialah penampilan siswa terhadap suatu kinerja.  Penampilan ini bisa berupa menyajikan ide dalam seminar, bermain drama, menyajikan karya ilmiah, menyanyi, atau melakukan tugas tertentu.  Dalam menilai performance, siswa lain bisa diminta sebagai penilai.
            Extended writing ialah menulis dalam tingkat lanjut.  Menulis jenis ini bisa berupa paper, mini riset, hasil observasi, kajian buku, menyusun karya tulis tertentu, atau menyusun laporan penelitian. 
            Dalam penilaian autentik, yang penting diperhatikan ialah model penilaian dan penguasaan kriteria penilaian.  Penilaian autentik ini melibatkan pola berpikir tahap tinggi dan berbagai tujuan belajar yang kompleks menjadi satu. Untuk itu, guru perlu menguasai dengan baik kaidah penilaian esai, karya tulis, kinerja dan kegiatan langsung yang menampilkan kemampuan belajar sekaligus.


PENUTUP
            Evaluasi merupakan syarat mutlak dalam mengetahui umpan balik hasil pembelajaran dan daya serap pembelajar terhadap materi yang diajarkan. Model dan teknik evaluasi berkembang sesuai dengan perubahan model pembelajaran di kelas.  Untuk menguasai evaluasi dengan baik, pengajar perlu menguasai juga kaidah, norma, prosedur, dan aturan dalam pembuatan tes, menyeleksi butir tes yang baik, dan menginterpretasi hasil tes. Syarat tes yang baik yang meliputi: seleksi butir soal, validitas, dan reliabilitas merupakan hal yang tidak bisa dihindari. Dalam menginterpretasi hasil tes, digunakan PAN dan PAP. Masalahnya, standar lulus yang digunakan di Indonesia selalu lebih rendah.  Dalam mengkaji tes untuk pembelajaran, aliran yang sekarang cocok dengan pendekatan berbasis konteks ialah authentic assessment.  Selaian itu penggunaan tes jenis esai juga terbukti mampu meningkatkan penalaran siswa secara lebih baik.


DAFTAR RUJUKAN
Anastasi, A. 1982. Psychological Testing. New York: Macmillan Publishing Co.             
Budiharso, T. 2005.  Evaluasi Berbasis Kelas dalam Pembelajaran Bahasa Kedua.
Jakarta: Lekdis.
Djiwandono, M.S. 1996.  Tes Bahasa dalam Pengajaran. Bandung: Penerbit ITB
Bandung.
Ebel, R. 1979. Essentials of Educational Measurement.  New Jersey: Prentice Hall Inc.
Grondlund, N. 1985.  Measurement and Evaluation in Teaching. New York: Macmillan
Publishing Co.
Johnson, E.B. 2002. Contextual Teaching and Learning: What It is and Why It is to Stay.
Thousand Oaks, California: Corwin Press Inc.
Lion, A. 1980. Measurement and Evaluation of Learning. Iowa: Brown Company
Publisher.


Tidak ada komentar:

Posting Komentar