Bilimsel veri ve yazılım paylaşımı

Tekrarlanabilir Araştırma (Reproducible Research), her türlü bilimsel çalışmanın, başka araştırmacıların o işi tekrarlayabileceği şekilde sunulması gerektiğini savunan bir fikir. Özellikle de dijital verilerin ve araştırmada kullanılan yazılımların, araştırma makalesi ile beraber, herkese açık olması elzem. Böylelikle başka araştırmacılar verilerin doğruluğunu kontrol edebilir, programları kendileri çalıştırabilir, varsa hataları bulabilir, veya kendi çalışmaları için önceki programları mihenk taşı olarak kullanabilir.

Aşağıdaki videoda Tekrarlanabilir Araştırma’nın en aktif savunucularından Victoria Stodden, verilerin ve yazılımın neden paylaşılması gerektiğini anlatıyor, ve neden hâlâ gerektiği kadar paylaşılmadığına dair bazı sonuçlar aktarıyor. Videoyu görmemi sağladığı için Emre Sevinç‘e teşekkür ederim.

Konuşmanın slaytları burada.

Hesaplamalı bilim, artık teori ve deneyin yanında üçüncü bir bilimsel araştırma yöntemi olarak kabul görüyor. Fakat Stodden’in de ifade ettiği gibi, hesaplamalı araştırmalar, meselâ matematiksel kanıtlar gibi, kontrol ve teyit edilebilir bir biçimde sunulmadıkça bilimsel bir yöntem olmuş sayılmazlar.

Bu apaçık bir gerçek gibi görünüyor. Ancak verilerin ve yazılımların paylaşıldığı yayınlar azınlıkta kalıyor. Bir uzman konferansında yaptıkları bir ankette, neden tam açık paylaşma yapılmadığı sorusuna 134 kişi şu şekilde cevap vermiş (19. slayt):

Kod Veri
%77 Belgeleme ve temizlemeye zaman harcamamak %54
%52 Kullanıcıların sorularına zaman harcamamak

%34
%44 Atıf almayacak olmak

%42
%40 Patentleme ihtimali

%34 Kanuni engeller (yayın hakkı)

%41
İdarecilerin teyidini almakla zaman harcamamak

%38
%30 Gelecekteki yayınları kaybetme ihtimali

%35
%30 Rakiplere avantaj vermemek

%33
%20 Web veya disk alanının sınırlılığı

%29

Görüldüğü gibi “ya yayınla ya öl” kültürünün hızlı yayın baskısından kaynaklanan sebepler ağırlıkta. Dergiler talep etmeyince, araştırmacılar gereğinden fazla zaman harcamadan hemen yayınlatmak istiyorlar. Diğer alanlarda da benzer bir yapı oluşacağını tahmin ediyorum.

Veri ve yazılımlarını paylaşmayı tercih edenlerin sebepleri de şöyle listelenmiş:

Kod Veri
%91 Bilimsel gelişmeyi teşvik etmek %81
%90 Başkalarını paylaşmaya teşvik etmek

%79
%82 Çalışma alanında bir standart oluşturmak

%76
%85 Araştırmanın kalitesini yükseltmek

%74
%81 Başkalarının aynı konuda çalışmasını sağlamak

%79
%85 Tanınmak

%73
%78 Feedback almak

%71
%71 İşbirliği yapabilecek araştırmacılara ulaşmak

%71

Daha fazla ayrıntı isteyenler için “Reproducible Research in Computational Harmonic Analysis” (Donoho vd., 2008) başlıklı makale faydalı olur. Tekrarlanabilir Araştırma öncülerinden David Donoho ve çalışma arkadaşları, çoğu yayında tekrarlanabilirliğin nasıl ihmal edildiğini anlatıyorlar. Hazırladıkları yazılım paketlerini anlatarak kendi yaklaşımlarını özetliyorlar ve tekrarlanabilirlik metoduna karşı itirazlara cevaplar veriyorlar.

Reklamlar

Kaan Öztürk hakkında

Kaan Öztürk İstanbul’da doğdu. İstanbul Lisesi ve Boğaziçi Fizik mezunu. Rice Üniversitesi‘nde uzay fiziği alanında doktora yaptı. Işık ve Yeditepe üniversitelerinde ders verdi. 2015-2016 döneminde Rice'da ziyaretçi araştırmacı olarak çalıştı. Bugünlerde Sabancı Üniversitesi'nde optimizasyon ve yapay öğrenme konularında doktoraüstü araştırmacı olarak çalışıyor.

01 Kasım 2011 tarihinde Bilimsel Programlama içinde yayınlandı ve olarak etiketlendi. Kalıcı bağlantıyı yer imlerinize ekleyin. 4 Yorum.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap / Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap / Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap / Değiştir )

Google+ fotoğrafı

Google+ hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap / Değiştir )

Connecting to %s

%d blogcu bunu beğendi: