Daftar Isi
Biografi dan Pemikiran Filsafat Ronald Aylmer Fisher
Ronald Aylmer Fisher adalah seorang raksasa yang menganugerahkan dua disiplin ilmu khas abad kedua puluh: genetika populasi (atau teori matematika evolusi), di mana ia adalah salah satu pendiri dan arsitek utama, dan statistik matematika, di mana ia memainkan peran penting.
Di satu sisi, ia memimpin sebuah revolusi yang menggantikan pendekatan Bayesian tentang probabilitas terbalik dengan pendekatan yang hanya didasarkan pada probabilitas langsung (yaitu, probabilitas hasil yang bergantung pada hipotesis).
Di sisi lain, ia dengan tegas menolak konsepsi statistik sebagai pengambilan keputusan di bawah ketidakpastian yang diilhami oleh karyanya sendiri.
Keretakan dalam ortodoksi statistik baru ini tidak pernah sembuh.
Dengan demikian, konsepsi Fisher tentang probabilitas sekaligus sering kali dan epistemik, pendekatannya terhadap statistik sekaligus inferensial dan non-Bayesian, dan pertanyaan utama yang diajukan oleh pekerjaan hidupnya adalah apakah teori yang konsisten dapat dibangun di sepanjang garis ini.
Setelah unggul dalam matematika di tingkat menengah, Fisher memenangkan beasiswa ke Universitas Cambridge pada tahun 1909 dan lulus pada tahun 1912 sebagai Wrangler (yaitu, dengan pujian) di Tripos Matematika, kemudian menghabiskan satu tahun lagi di Cambridge mempelajari mekanika statistik dan teori kuantum di bawah astronom James Jeans.
Dalam makalah tahun 1911 (saat itu tidak diterbitkan) “Mendelisme dan Biometri”, dia menunjukkan jalan menuju sintesis genetika Mendel dan evolusi Darwin.
Fisher menerima dua tawaran pekerjaan penting pada tahun 1919: satu sebagai kepala statistik di bawah Karl Pearson di Laboratorium Galton University College, London, dan yang lainnya posisi sementara di Stasiun Percobaan Rothamsted (Pertanian).
Fisher sudah terkenal memiliki hubungan yang buruk dengan Pearson, jadi dia menerima tawaran Rothamsted, membiarkannya bebas mengembangkan pendekatan non-Bayesiannya sendiri untuk statistik bebas dari pengawasan Pearson.
Selama lima belas tahun berikutnya Fisher mengembangkan Departemen Statistik yang terkenal di dunia di Rothamsted yang menjadi tempat pelatihan bagi banyak ahli statistik yang menyebarkan metode barunya jauh dan luas.
“Masa keemasan penemuan” Fisher di Rothamsted berakhir pada tahun 1933 ketika Karl Pearson pensiun dan departemennya dipecah menjadi Departemen Statistik, dengan Egon S.Pearson (putra Karl) sebagai kepala, dan Departemen Eugenika, dengan Fisher sebagai kepala.
Hubungan antara kedua departemen tidak pernah ramah.
Rincian lebih lanjut dapat ditemukan dalam biografi oleh putri Fisher, Joan Fisher Box (1978), yang memberikan sketsa yang sangat baik dari banyak dan beragam kontribusi serta sisinya dari banyak perdebatan berlarut-larut di mana ia terlibat.
Fisher dan Bayesian
Meskipun disapih pada probabilitas terbalik di sekolah (Fisher 1950, 27.
248), Fisher menganggap solusi Bayesian sebagai dirusak oleh karakter sewenang-wenang dan subjektif dari distribusi sebelumnya yang tidak didasarkan pada data frekuensi.
Membalas kritik oleh Karl Pearson tentang solusi Bayesian yang dia usulkan dalam makalahnya yang paling awal diterbitkan, dia mencatat bahwa solusi yang disukai oleh Pearson “hampir seluruhnya bergantung pada pendapat komputer yang terbentuk sebelumnya dan hampir tidak sama sekali pada data aktual” (Fisher 1971–1974, 14.17).
Ini membuatnya menekankan perlunya “membiarkan data berbicara sendiri”, sebuah perintah yang dilakukan oleh beberapa pengikutnya secara ekstrem dengan sengaja mengabaikan, misalnya, semua informasi sebelumnya yang berkaitan dengan kemanjuran perawatan medis baru.
Untuk paliatif Bayesian bahwa kesalahan estimasi apa pun yang muncul dari penggunaan prior yang tidak tepat akan menjadi diabaikan dengan mengumpulkan data, ia menjawab bahwa “tampak lebih alami untuk menyimpulkan bahwa mungkin untuk menarik kesimpulan yang valid dari data saja dan tanpa asumsi sebelumnya.” Kemudian dia menambahkan, “kita mungkin mempertanyakan apakah seluruh kesulitan belum muncul dalam upaya untuk mengungkapkan dalam istilah konsep tunggal probabilitas matematika, suatu bentuk penalaran yang membutuhkan pernyataan yang tepat yang berbeda meskipun konsep-konsep yang sama-sama terdefinisi dengan baik” (Fisher 1950, 24.287).
Dari langkah-langkah alternatif yang cocok untuk “menyediakan urutan preferensi alami” di antara perkiraan atau hipotesis yang bersaing, Fisher merekomendasikan fungsi kemungkinan (LF) atau fungsi distribusi data qua dari parameter yang tidak diketahui dari model seseorang.
Atau, ketika LF tidak terdefinisi (yaitu, ketika probabilitas hasil yang diamati tergantung pada hipotesis alternatif tidak dapat dihitung dari model), uji signifikansi dilakukan.
Sekarang LF hanya memberikan probabilitas relatif dan nonaditif, tetapi logaritma LF adalah aditif dan ini memungkinkan seseorang untuk menggabungkan bukti dari sumber yang berbeda (independen).
Nilai dari parameter yang tidak diketahui yang memaksimalkan LF—yang disebut sebagai estimasi kemungkinan maksimum (MLE)—bila ada dan unik, maka harus menjadi nilai terbaik yang didukung.
Tugas pertama Fisher adalah memberikan alasan untuk penggunaan bukti LF ini, yang digambarkan oleh Pierre Simon de Laplace dan Carl Gauss sebagai akibat wajar dari pengkondisian Bayesian, tetapi, dari perspektif Fisher, “memiliki tidak ada hubungan nyata dengan probabilitas terbalik” (Metode Statistik untuk Pekerja Riset di Fisher 2003, hal.22).
teori estimasi Hal pertama yang mengejutkannya adalah, tidak seperti seragam sebelumnya Thomas Bayes dan Laplace tampaknya menyatu karena ketidaktahuan, MLE adalah invarian.
Artinya, jika suatu masalah diparameterisasi ulang sebagai z = g(q), maka MLE dari parameter baru, z, adalah g(qˆ), ditulis (qˆ) (seluruh) untuk MLE dari q (De Groot 1986, p .348).
Pada saat yang sama, dia mencatat, penduga tak bias—yang rata-ratanya sama dengan q—adalah noninvarian, penaksir tak bias dari q menjadi penaksir bias dari q 2 atau q -1.
Persyaratan invariansnya, pada kenyataannya, merupakan persyaratan konsistensi, yaitu, bahwa perkiraan dan kesimpulan seseorang tidak bergantung pada bentuk masalah yang setara mana yang diadopsi.
Ini sudah membawa Fisher lebih dekat ke posisi protagonisnya, Harold Jeffreys, atau pengganti layak Jeffreys, Edwin T.Jaynes.
Tidak pernah terpikir oleh Fisher, seperti yang terjadi pada Jeffreys dan Jaynes, untuk menggunakan invarian sebelum mewakili, bukan ketidaktahuan murni, tetapi keadaan pengetahuan yang tidak diubah oleh kelompok transformasi yang dapat ditentukan.
Mengetahui, misalnya, tidak lebih dari itu q adalah parameter skala, prior yang cocok—prior Jeffreys—akan menjadi salah satu invarian di bawah perubahan skala.
Namun, Fisher tidak puas dengan pembenaran MLE ini, tetapi bersikeras bahwa “ketergantungan untuk ditempatkan” pada satu “harus bergantung pada distribusi frekuensinya.” (Fisher 1950, 10.327) Jadi, Gauss telah menunjukkan bahwa rata-rata aritmatika (atau rata-rata sampel) dari satu set kesalahan terdistribusi normal dari varians yang diketahui, , itu sendiri terdistribusi normal tentang mean populasi, m, dengan varians m2 /n.
Karena distribusi normal ditentukan oleh parameter lokasinya, m, yang menempatkan kurva kerapatan berbentuk lonceng di sepanjang sumbu x, dan parameter skalanya, s2 , yang mengukur penyebaran, varians menampilkan dirinya sebagai ukuran unik yang cocok dari konsentrasi estimator yang distribusinya normal atau normal asimtotik terhadap parameter yang diestimasi.
Apa yang diklaim Fisher untuk ditunjukkan dalam makalahnya tahun 1922, “On the Mathematical Foundations of Theoretical Statistics” (Fisher 1971–1974: paper 18; Fisher 1950, paper 10), adalah bahwa MLE adalah yang paling terkonsentrasi.
Dia menjuluki penaksir seperti itu (secara asimtotik) varians terkecil yang efisien.
Salah satu sumber ketegangan di Fisher adalah bahwa penggunaan kemungkinannya menyiratkan ketidakrelevanan hasil yang mungkin telah tetapi tidak diamati, dan, di berbagai tempat, ia secara eksplisit mendukung implikasi ini (Metode Statistik dan Inferensi Ilmiah dalam Fisher 2003, hlm.71 , 91; selanjutnya SMSI).
Karena jika seperti yang dia katakan “seluruh informasi yang diberikan oleh sampel terdiri dari kemungkinan” (hal.73), LF dari hasil yang benar-benar diamati, semua titik lain dari ruang sampel harus tidak relevan.
Namun, distribusi sampling (atau frekuensi) dari penduga, T, bergantung pada seluruh ruang sampel, dan penggunaannya untuk membandingkan penduga melanggar prinsip kemungkinan ini.
Dalam perjalanan penyelidikannya tentang properti sampel besar MLE, Fisher menemukan kelas statistik yang pengetahuannya membuat semua statistik lain tidak relevan untuk inferensi tentang q, dan karenanya dia menyebutnya cukup untuk q.
Dalam makalah klasik tahun 1922, ia menunjukkan bahwa estimator yang cukup efisien secara asimtotik, sehingga menghubungkan persyaratan informasi-logika murni — yaitu memanfaatkan semua informasi yang disediakan oleh data — dengan karakteristik kinerja — yang memiliki presisi maksimal.
Bahkan, ia hampir menyamakan sifat tidak membuang-buang informasi dengan efisiensi.
Kemudian dia bisa menggambarkan pekerjaan ahli statistik secara ringkas dalam istilah kognitif murni seperti yang mempengaruhi pengurangan informasi yang maksimum melestarikan data (Fisher 1950, 26.366).
Pengurangan maksimal seperti itu disebut statistik cukup minimal dan secara matematis merupakan fungsi dari setiap statistik cukup lainnya.
Para filsuf akan mengakui kecukupan sebagai kerabat dekat persyaratan Rudolf Carnap tentang bukti total, dan Fisher menyatakan bahwa “kesimpulan kami harus dijamin oleh keseluruhan data, karena kurang dari keseluruhan mungkin menyesatkan” (Fisher 1950, 26.54 ).
Klaim Fisher bahwa estimasi kemungkinan maksimal adalah “sangat unggul” untuk semua metode lain (Fisher 1950, 24.287) kemudian akan dibenarkan, setidaknya untuk sampel besar, dengan menunjukkan bahwa MLE cukup (karenanya, efisien secara asimtotik).
Buktinya tentang hal ini dalam makalah tahun 1922 kurang teliti, seperti yang dia akui secara terus terang (Fisher 1950, 10.323), dan dia menawarkan versi yang lebih baik dalam sekuel makalah itu.
Dalam makalah tahun 1934 “On Two New Properties of Mathematical Likelihood,” makalah CMS #.24, ia mempresentasikan kriteria kecukupan baru, yaitu bahwa faktor LF sebagai
yang memungkinkan seseorang untuk mengenali statistik yang cukup pada pandangan.
Ini sangat penting karena sifat memanfaatkan semua informasi dalam data seseorang dapat diterapkan pada estimator berdasarkan sampel kecil.
Dan karya eksperimental Fisher di bidang genetika dan agronomi (di Rothamsted) telah membuatnya terkesan dengan pentingnya praktis metode statistik yang berlaku untuk sampel kecil, dan, karenanya, tes eksak atau estimasi berdasarkan eksak, sebagai lawan perkiraan, distribusi sampel.
Dalam hal ini ia juga sangat dipengaruhi oleh penemuan W.S.Gossett tahun 1908 tentang distribusi statistik yang tepat,
adalah varians sampel, yang kemudian dapat digunakan untuk menguji hipotesis tentang rata-rata normal menggunakan sampel kecil ketika varians pengukuran tidak diketahui.
Dengan demikian, ia mulai melihat teori sampel besar, yang berkaitan dengan dunia perilaku asimtotik yang tidak pernah pernah ada, sebagai pendahuluan belaka untuk studi sampel kecil (SMSI, hal.163).
Untuk memfasilitasi studi sampel kecil, ia memperkenalkan ukuran informasi kuantitatif.
Ide utamanya adalah untuk mengukur informasi eksperimen dengan hasil variat X menyampaikan tentang parameter yang tidak diketahui q dengan presisi (atau invers varians) dari MLE dari q.
Karya awal Karl Pearson dan Francis Ysidro Edgeworth, dua tokoh terkemuka sekolah statistik Inggris dari generasi sebelum Fisher, telah menghubungkan ketepatan penduga dengan turunan kedua dari logaritma LF, ln p(x|q ), di mana x = (x1, …, xn), yang mana menyatakan L(x|q), atau bahkan dengan L(q).
Misalnya, untuk mencari MLE dari parameter binomial, p, dengan catatan bahwa LF dan logaritmanya memiliki nilai maksimum yang sama, selesaikan persamaan kemungkinan,
frekuensi relatif yang diamati dari keberhasilan. Mengambil turunan kedua, kita menemukan:
dimana mengganti x dengan meannya, np, mengurangi ini menjadi:
varian dari p. “Formula ini,” katanya, “menyediakan cara paling langsung yang saya ketahui untuk menemukan kemungkinan kesalahan statistik,” menambahkan (dengan referensi kritis ke Pearson) bahwa “bukti di atas [tidak ditampilkan di sini] hanya berlaku untuk statistik yang diperoleh oleh metode kemungkinan maksimum” (Fisher 1950, 10.329). Sekarang orang mungkin berharap untuk menunjukkan bahwa informasi Fisher, yang didefinisikan oleh
membebankan batas atas presisi penduga q untuk setiap ukuran sampel n. Untuk mempersingkat cerita panjang yang kusut, Edgeworth membuktikan kasus khusus ini menggunakan ketidaksetaraan Schwarz dan Fisher memperluas hasilnya (lihat Hald 1998, hlm. 703–707, 716–719, 724–726, 734), menawarkan bukti (sekali lagi kurang ketat) bahwa V(T) 1/In(q). Bukti ketat pertama datang pada tahun 1940-an (Cramer 1946, hlm. 475; De Groot 1986, hlm. 425) dan bentuk umum dari apa yang disebut ketidaksetaraan Cramer-Rao berbunyi:
di mana m(q) = E(T) = T(x)p(x|q)dx. Asumsi seseorang adalah bahwa densitas didefinisikan untuk interval nondegenerate yang tidak bergantung pada q dan memiliki momen (terhingga) hingga orde kedua. Ketika m(q) = q, sehingga T tidak bias, (3) disederhanakan menjadi var(T) 1/In(q), seperti yang diantisipasi oleh Edgeworth dan Fisher. Penaksir yang mencapai batas varians minimum ini disebut penduga MVB, dan kondisi ini secara efektif menggantikan efisiensi asimtotik karena berlaku untuk sampel semua ukuran. Cramer kemudian membuktikan (1946, hlm. 499 dst) bahwa jika estimator efisien (atau MVB) T dari q ada, maka persamaan kemungkinan memiliki solusi unik yang diberikan oleh T, dan jika ada estimator yang cukup untuk q, solusi apa pun dari persamaan kemungkinan akan menjadi fungsi dari estimator itu. Hasil ini melengkapi teori estimasi sampel kecil Fisher. Fisher menggunakan kriteria faktorisasinya (1) untuk statistik yang cukup untuk menunjukkan bahwa distribusi yang menerima statistik yang cukup adalah persis seperti yang berbentuk:
asalkan rentang X tidak bergantung pada q, seperti halnya untuk distribusi seragam pada [0, q] dengan q tidak diketahui. Disebut kelas eksponensial, (4) mencakup hampir semua distribusi lain yang menonjol dalam probabilitas dan statistik terapan, termasuk distribusi normal, Poisson, beta, gamma, dan khi-kuadrat (dan ada juga bentuk multiparameter dari (4) ). Dengan demikian, kelas (4) menempati posisi kepentingan sentral, mirip dengan teorema limit pusat. Dengan menggunakan perubahan variabel yang cerdas dalam kondisi persamaan dalam (3), Jaynes (2003, hlm. 519) menunjukkan bahwa kelas eksponensial juga merupakan kelas distribusi maxent, yang dihasilkan oleh prinsip memaksimalkan subjek entropi (Shannon). untuk satu atau lebih batasan nilai rata-rata yang diberikan. Jadi, seperti yang dinyatakan Jaynes, “jika kita menggunakan prinsip entropi maksimum untuk menetapkan distribusi pengambilan sampel, ini secara otomatis menghasilkan distribusi dengan sifat yang paling diinginkan dari sudut pandang … teori pengambilan sampel (karena varians pengambilan sampel dari penduga adalah nilai minimum yang mungkin) )” (520). Sekali lagi, hasil penyelidikan Fisher sendiri membawanya lebih dekat ke posisi Bayesian objektivis yang sangat ditentangnya. Memang, formalisme entropi maksimum dapat digunakan untuk menghasilkan baik distribusi data atau distribusi sebelumnya dan didukung oleh jenis sifat konsistensi yang juga didukung Fisher. Matematika membuat teman tidur yang aneh! Informasi Fisher didefinisikan oleh (2), atau, setara, oleh In(q) = E[L'(x|q) 2 ] = var[L'(x|q), juga memainkan peran penting, seperti yang diharapkan , dalam teori desain eksperimental Fisher. Diberikan data multinomial dengan jumlah kategori a1, … , ak dan probabilitas kategori p1(q), …, pk(q) yang bergantung pada parameter q, informasi Fisher untuk sampel satu adalah:
Contoh muncul dalam genetika, terutama keterkaitan. Sebagai contoh, seseorang mungkin ingin membandingkan informasi tentang parameter hubungan q (fraksi rekombinasi) yang dihasilkan oleh persilangan balik ganda, AB/ab ab/ab, dengan yang diberikan oleh persilangan balik tunggal, Abab Abab. Di bawah perkawinan sebelumnya, genotipe AB/ab, Ab/ab, aB/ab, ab/ab terjadi di antara keturunan dengan probabilitas 1 2(1 – q), 1 2(q), 1 2(q) , dan 1 2(1 – q), dan
sedangkan untuk persilangan balik tunggal juga menemukan I(q) = 1/2q(1 – q), atau setengah dari informasi yang dihasilkan oleh persilangan ganda.
Penyempurnaan lebih lanjut muncul ketika ada dominasi dalam satu atau kedua faktor (lihat Edwards 1992, hlm.148–149).
Untuk contoh lebih lanjut, lihat bab 11 dari The Design of Experiments (dalam Fisher 2003; selanjutnya DE) dan Kenneth Mather’s The Measurement of Linkage in Heredity (1938).
Tes Signifikansi
Satu datang, akhirnya, ke ukuran penting kedua Fisher untuk menyusun hipotesis, yaitu, tes signifikansi.
Tes signifikansi paling awal ditujukan untuk membedakan hipotesis kebetulan dari salah satu penyebab atau desain (Hald 1998, 4.1).
Misalnya, apakah kesepakatan yang sempurna dari jawaban yang salah dari dua siswa pada tes pilihan ganda karena kolusi atau kebetulan belaka? Dalam penggunaan Laplace, seseorang membandingkan probabilitas kesepakatan tersebut pada dua hipotesis dan ketika probabilitas ini “jauh lebih besar” pada hipotesis desain, “kita dituntun,” katanya, “untuk tidak percaya” bahwa kebetulan.
Laplace dengan mudah memperluas alasan ini ke pemisahan penyebab fisik “nyata” dari “palsu”, seperti ketika dia menyimpulkan bahwa “disposisi sebenarnya dari sistem planet kita,” yang dia maksudkan bahwa keenam planet dan satelitnya bergerak ke arah yang sama.
sebagai bumi dan memiliki kecenderungan ke ekliptika dalam lingkungan kecil nol, “akan menjadi sangat kecil jika itu karena kebetulan” dan dengan demikian menunjukkan “penyebab biasa” (4.4).
Dalam nada yang sama, Gustav Kirkhoff menyimpulkan bahwa kebetulan sempurna dari enam puluh garis gelap dalam spektrum matahari besi dengan enam puluh garis terang dari spektrum yang diperoleh dengan memanaskan serbuk besi dalam pembakar Bunsen tidak mungkin terjadi secara kebetulan tetapi menunjukkan adanya besi di bawah sinar matahari.
Dalam kasus seperti itu, kemungkinan persetujuan pada hipotesis desain mungkin hanya didefinisikan secara kualitatif, tetapi logikanya pada dasarnya adalah tes rasio kemungkinan.
Laplace juga tidak berbicara dalam hal menolak hipotesis kebetulan atau menetapkan ambang ketidakmungkinan di mana kepercayaan memberi jalan (atau harus memberi jalan) kepada ketidakpercayaan.
Dia mengambil sebagai kriteria pengujiannya probabilitas area ekor, yaitu probabilitas penyimpangan setidaknya sebesar yang diamati (Hald 1998, hal.25).
Selain itu, probabilitas rendah untuk mengamati penyimpangan yang begitu besar secara kebetulan menunjukkan beberapa penjelasan alternatif yang, bagaimanapun, tidak perlu dirumuskan sebelumnya.
Sebaliknya, “dengan membiarkan fitur luar biasa [dari data] menentukan statistik yang digunakan dalam pengujian, kami berkonsentrasi secara implisit pada hipotesis alternatif” (hal.67).
Fisher menganut sebagian besar tetapi tidak semua fitur ini.
Locus classicus dari catatannya adalah perlakuan terkenal dari wanita pencicip teh yang mengaku dapat mengetahui apakah susu atau teh ditambahkan terlebih dahulu ke dalam campuran keduanya (DE, bab 2).
Setiap siswa yang serius tentang penalaran induktif harus membaca dan membaca ulang bab ini dengan sangat hati-hati.
Yang juga sangat penting adalah bab keempat SMSI, “Beberapa Kesalahpahaman tentang Pengujian Signifikansi.” Pertama-tama, uji signifikansi, secara tegas, bukan aturan keputusan (DE, 12.1; SMSI, 4.1], perbedaan di antara mereka dicirikan sebagai “banyak dan luas” (SMSI, hal.80).
Dengan demikian membuka Fisher’s kritik tajam terhadap teori pengujian Neyman-Pearson.
Dalam memilih statistik uji, “eksperimen akan dengan tepat mempertimbangkan semua poin yang, berdasarkan pengetahuan saat ini, hipotesis mungkin tidak akurat secara sempurna, dan akan memilih tes sensitif terhadap ini kesalahan yang mungkin, daripada kesalahan orang lain” (hal.50).
Namun, Fisher jelas bahwa hipotesis yang dipilih untuk diuji dapat disarankan oleh data seseorang (hal.82).
Jadi, dalam melempar koin, hasilnya mungkin mengarah pada kesalahan.
untuk menguji hipotesis bahwa koin itu adil, bahwa percobaannya independen, atau bahwa koin yang sama dilempar setiap kali.
Setiap pengujian akan memerlukan kumpulan referensi yang berbeda dan ukuran penyimpangan yang berbeda dari hipotesis nol.
Poin ini diilustrasikan lebih lanjut dengan contoh-contoh dari genetika, di mana penyimpangan dari posisi ted 9:3:3:1 Rasio Mendel untuk persilangan hibrida mungkin disebabkan oleh pertalian, dominasi parsial pada salah satu faktor, kematian terkait, atau penyebab lainnya.
Dalam kasus seperti itu, pembagian statistik chi-kuadrat ke dalam komponen ortogonal memungkinkan seseorang untuk menunjukkan dengan tepat sumber dari perbedaan tersebut (untuk ilustrasi metode ini, lihat Mather 1938, bab 4).
Praktik ini sangat bertentangan dengan desakan Neyman-Pearsonite untuk menetapkan semua elemen tes terlebih dahulu.
Fisher melanjutkan untuk menggambar tiga kontras lagi antara pengujian signifikansi dan paradigma pengambilan sampel penerimaan yang menginformasikan teori Neyman-Pearsonite.
Pertama, dalam pengambilan sampel penerimaan, populasi dari banyak tempat pengambilan sampel ditentukan dengan baik dan satu memiliki urutan nyata dari percobaan berulang, “sedangkan satu-satunya populasi yang dapat dirujuk dalam uji signifikansi tidak memiliki realitas objektif, secara eksklusif produk imajinasi ahli statistik melalui hipotesis yang telah dia putuskan untuk diuji” (SMSI, hal.81).
Dengan demikian, tes dimungkinkan di mana tidak ada pengulangan eksperimen yang dimaksud.
Namun, populasi Fisher yang secara hipotetis tak terbatas memimpin keberadaan bayangan dan, seperti yang dikatakan Jaynes (2003), sulit untuk melihat bagaimana imajinasi semacam itu dapat memberikan objektivitas yang lebih besar pada metode seseorang.
Kedua, keputusan bersifat final, dan kesimpulan bersifat sementara.
Dan, ketiga, “dalam bidang penelitian murni, tidak ada penilaian atas biaya kesimpulan yang salah dapat dibayangkan lebih dari sekadar kepura-puraan, dan dalam hal apa pun tidak dapat diterima dan tidak relevan dalam menilai keadaan bukti ilmiah” (DE, hlm.25–26; lihat juga SMSI, hlm.106–107).
Namun, Fisher dapat dengan mudah mengakui relevansi fungsi biaya dengan perencanaan eksperimen dan masih menyangkal relevansinya dengan penimbangan bukti yang dihasilkan.
Dorongan utama kritik Fisher terhadap teori NeymanPearsonite, bagaimanapun, adalah untuk menyangkal bahwa tingkat signifikansi, yang mengukur kekuatan bukti terhadap hipotesis nol tidak ada perbedaan, dapat diidentifikasi dengan frekuensi penolakan hipotesis nol secara keliru dengan “probabilitas kesalahan tipe I” Neyman-Pearsonite (SMSI, hlm.93-96).
Memvariasikan Contoh Fisher yang lebih rumit, J.G.Kalbfleisch dan D.A.Sprott (1976, p.262) mempertimbangkan hipotesis komposit H bahwa setidaknya satu dari m koin adalah adil (m > 1).
Setiap koin dilempar sepuluh kali, dan jika masing-masing menunjukkan 0, 1, 9, atau 10 kepala (dengan setidaknya satu menunjukkan 1 atau 9), seseorang dapat mengutip tingkat signifikansi yang tepat dari 22 2-10 = 0,0215 terhadap kewajaran setiap koin, maka bukti tidak lebih kuat dari ini terhadap H.
(Secara intuitif, bukti bahwa semua koin bias tidak lebih kuat dari bukti bahwa salah satu dari mereka bias.) Namun, frekuensi menolak H menggunakan kriteria ini , bahkan ketika H adalah “paling benar” (yaitu, ketika semua koin adil) hanya 0,0215m, yang, bahkan untuk m yang cukup besar, jauh lebih kecil dari 0,0215.
Hal ini mengarahkan Kalbfleisch dan Sprott untuk menyimpulkan, dengan Fisher, bahwa “frekuensi penolakan hipotesis yang benar oleh pengujian dalam pengulangan percobaan tidak selalu menunjukkan kekuatan bukti terhadap H” (hal.263) .
Secara lebih umum, mungkin hampir tidak mungkin untuk mendapatkan bukti kuat secara bersamaan mengesampingkan semua konstituen sederhana dari hipotesis komposit (SMSI, hal.93), yang mendorong Fisher untuk menyimpulkan bahwa “infrekuensi yang, dalam keadaan tertentu, bukti yang menentukan adalah diperoleh, tidak boleh dikacaukan dengan kekuatan, atau kepastian, dari bukti semacam itu” (hal.96).
Fisher, seperti Laplace, menahan diri dari memaksakan tingkat signifikansi kritis universal dan hampir selalu melaporkan tingkat signifikansi yang tepat atau probabilitas area ekor, tetapi, tidak seperti Laplace, dia berbicara tentang menolak hipotesis, meskipun dalam banyak kasus ini hanya singkatan untuk “menganggap data sebagai sumbang atau tidak konsisten dengan hipotesis.” Namun demikian, bahasa ini mengundang kebingungan dengan pendekatan teoretis keputusan yang berbeda dari Jerzy Neyman dan Egon Pearson, dan, pada kenyataannya, menyesatkan generasi penulis buku teks, yang secara teratur mencangkokkan akun Neyman-Pearson tentang pengujian ke Fisher’s dan kertas atas banyak perbedaan yang luas.
diantara mereka.
Keberangkatan penting Fisher dari Laplace adalah untuk menafsirkan tingkat signifikansi sebagai bukti terhadap hipotesis nol.
Seperti Karl Popper, dia dengan tegas menolak untuk mengakui bahwa bukti yang cukup untuk menolak hipotesis nol pada tingkat signifikansi yang ketat adalah bukti untuk hipotesis alternatif yang menarik.
Namun, praktiknya sendiri mengingkari ajarannya.
Dalam pengujian hubungan genetik, penolakan hipotesis pemilihan bebas secara rutin diikuti dengan estimasi fraksi rekombinasi, yaitu derajat asosiasi.
Dan dalam contoh wanita pencicip teh, bahasanya adalah bahwa wanita itu “membuat klaimnya bagus” ketika dia mengklasifikasikan semua cangkir yang disajikan kepadanya dengan benar (DE, hlm.14).
Alasan yang dia berikan untuk menyangkal bahwa sebuah eksperimen dapat melakukan lebih dari sekadar menyangkal hipotesis nol (hal.16) adalah bahwa hipotesis alternatif yang dapat dibeda-bedakan wanita itu “tidak memenuhi syarat sebagai hipotesis nol untuk diuji melalui eksperimen, karena hipotesis itu tidak tepat.” Alasan itu agak mengundang pertanyaan.
Alasan sebenarnya, salah satu tersangka, adalah bahwa Fisher ingin dapat menyangkal hipotesis nol tanpa memberikan bukti untuk hipotesis alternatif apa pun.
Kemungkinan uji signifikansi negatif yang murni seperti itu telah menjadi inti dari kontroversi yang berputar-putar tentang topik ini (lihat Royall 1997, bab 3, terutama 3.9).
Untuk Laplace, seperti yang terlihat, uji signifikansi adalah perluasan dari uji rasio kemungkinan ke alternatif yang tidak jelas bentuknya.
Dan untuk Fisher juga, mereka ikut bermain ketika LF tidak tersedia — poin yang tampaknya telah hilang pada Neyman dan Pearson, yang metodologinya mengasumsikan bahwa probabilitas hasil bergantung pada alternatif hipotesis dapat dihitung dari model.
Namun, bagi Fisher, logika tes adalah bentuk probabilistik dari modus tollens.
Sebuah hipotesis ditolak ketika hasil yang menyertainya tidak terjadi; sama, itu ditolak pada tingkat signifikansi yang ketat ketika hasil yang diprediksinya dengan probabilitas tinggi tidak terjadi.
Dan logika eliminativisme ini berlaku apakah hipotesis alternatif telah memasuki arena atau tidak.
Kalbfleisch dan Sprott (1976) juga sangat bersikeras bahwa alternatif, katakanlah, hipotesis nol homogenitas mungkin terlalu amorf untuk mengakui spesifikasi.
Uji signifikansi memungkinkan seseorang untuk menunda kerja keras merumuskan alternatif semacam itu sampai uji signifikansi menunjukkan kebutuhan akan alternatif tersebut.
Tidak diragukan lagi, ada argumen kuat di kedua belah pihak dan masalah ini dapat dianggap belum terselesaikan.
Contoh kasus yang menarik disediakan oleh metode entropi maksimum di mana tanda dan besaran penyimpangan dari nilai yang diharapkan menunjukkan kendala nilai rata-rata baru yang kemudian mengarah ke distribusi maksimum baru.
Kehadiran kendala tambahan seperti itu ditunjukkan ketika entropi dari distribusi arus maksimum terletak cukup jauh di bawah maksimum yang diizinkan oleh kendala nilai rata-rata saat ini.
Namun, pada akhirnya, seseorang harus setuju dengan Gossett (lihat Royall 1997, hlm.68) bahwa seseorang tidak dapat dengan aman menolak hipotesis atau model kecuali atau sampai ia memiliki hipotesis atau model yang lebih pas untuk menggantikannya (bandingkan de Groot 1986, hlm.523).
Kritikus pengujian signifikansi juga mempertanyakan penggunaan area ekor, yang diakui Fisher, “tidak terlalu dapat dipertahankan kecuali sebagai perkiraan” (SMSI, hlm.71), karena tampaknya membuat impor dari apa yang diamati bergantung pada kemungkinan hasil yang tidak diamati.
Sebenarnya, dalam kasus di mana ukuran deviasi adalah variasi kontinu, seperti chi square Pearson atau n 1 2 Gossett (x – m)/s, probabilitas penyimpangan persis sebesar yang diamati adalah nihil dan jadi tidak ada pilihan selain menggunakan area ekor.
Namun, lebih tepatnya, area ekor memberikan (kurang lebih) proporsi kemungkinan hasil yang sesuai dengan hipotesis penyebab, desain, atau kemanjuran serta yang diamati, dan ini memberikan semacam standar perbandingan absolut, yang bahkan memungkinkan seseorang untuk membandingkan kekuatan bukti yang mendukung hipotesis di bidang yang berbeda.
Bagaimanapun, logika pengujian signifikansi Laplacean, yang memandang pengujian semacam itu sebagai indeks bukti yang mendukung beberapa hipotesis desain, menghindari sejumlah kesulitan interpretasi dan cocok dengan bentuk argumen—penumpukan ketidakmungkinan yang terjadi di seluruh spektrum sains yang luas.
Kesimpulan
Tidak ada artikel dengan panjang yang masuk akal yang bisa diharapkan untuk menyentuh lebih dari sebagian kecil dari hasil besar Fisher dan banyak masalah pelik yang diangkat di dalamnya.
Tidak ada yang dikatakan di sini, misalnya, tentang ukuran ketidakpastian ketiga yang terkenal dari Fisher, yaitu, probabilitas fidusial.
Tempat yang baik untuk memulai adalah dengan contoh uji-t Gossett (SMSI, hlm.84–86).
Beralih ke kritik terhadap argumen fiducial oleh A.W.F.Edwards (1992, 10.5), dan kemudian ke makalah yang sangat baik oleh Teddy Seidenfeld (1992) dan Sandy L.Zabell (1992).
Oscar Kempthorne di suatu tempat mengatakan bahwa itu akan membutuhkan setidaknya sepuluh tahun studi pendahuluan sebelum mencoba akun definitif pekerjaan Fisher dalam statistik saja, tetapi upaya itu akan terbayar dengan baik.
Hal yang sama dapat dikatakan tentang karyanya dalam genetika dan evolusi.
Orang mungkin memandang Fisher sebagai “pengembara berputar-putar yang gagal,” karena upaya heroiknya untuk membangun alternatif komprehensif untuk penjelasan Bayesian tentang penalaran induktif menariknya semakin kuat kembali ke posisi Bayesian yang dia mulai dan kemudian ditolak.
Pertanyaan yang harus dijawab, bagaimanapun, bukanlah apakah Fisher pada akhirnya akan kembali ke kelompok Bayesian seandainya dia hidup, katakanlah, satu dekade lagi, tetapi apakah persyaratan konsistensi yang dia dukung memaksa seseorang “kembali ke Bayes.” Seperti yang telah terlihat, posisinya dekat dengan objektivis Bayesianisme Laplace, Jeffreys, dan Jaynes di banyak titik (lihat Zabell 1992, hal.381 dan catatan 42 dan 56).
Pada saat yang sama, harus diakui bahwa Fisher menciptakan hampir sendirian kerangka konseptual dan kosakata teknis yang digunakan oleh semua ahli statistik, baik Bayesian atau non-Bayesian.
Untuk kesuburan penemuan belaka, Fisher memiliki sedikit persamaan dalam sejarah ilmu matematika.