13 Şubat 2024 Salı

Yapay zeka bilimi patlamasında dikkat

Sonuçlarınız yalnızca verileriniz kadar iyidir.

Veri odaklı bir bilim patlamasının ortasındayız. Genellikle çok sayıda bireysel olarak ölçülmüş ve açıklanmış 'özellik' içeren devasa, karmaşık veri setleri, neredeyse her gün yeni uygulamaların ayrıntılarının yayınlanmasıyla birlikte, doymak bilmez yapay zeka (AI) ve makine öğrenimi sistemleri için yemdir.


Ancak yayın kendi başına olgusallıkla eş anlamlı değildir. Bir makalenin, yöntemin veya veri setinin yayınlanmış olması, doğru ve hatasız olduğu anlamına gelmez. Bu kaynakları kullanmadan önce doğruluk ve geçerlilik kontrolü yapmayan bilim insanları mutlaka hatalarla karşılaşacaktır. Aslında çoktan karşılaştılar bile.

Geçtiğimiz birkaç ay içinde, biyoinformatik ve sistem-biyolojisi laboratuvarımızın üyeleri, moleküllerin kimyasal yapılarına dayanarak metabolitlerin ait olduğu metabolik yolları tahmin etmeye yönelik son teknoloji makine öğrenimi yöntemlerini inceledi1. Metabolik yolların farklı koşullar altında nasıl bozulduğunu belirlemek için en iyi yöntemleri bulmak, uygulamak ve potansiyel olarak geliştirmek istedik: örneğin, hastalıklı ve normal dokularda.

Japonya'daki Kyoto Üniversitesi'nde tutulan Kyoto Genler ve Genomlar Ansiklopedisi'nden (KEGG) türetilen altın standart metabolit veri setine farklı makine öğrenimi yöntemlerinin uygulanmasını gösteren 2011 ve 2022 yılları arasında yayınlanmış birkaç makale bulduk. Algoritmaların zaman içinde gelişmesini bekliyorduk ve tam da bunu gördük: yeni yöntemler eski yöntemlerden daha iyi performans gösterdi. Peki bu gelişmeler gerçek miydi?

Veri sızıntıları

Bilimsel tekrarlanabilirlik, özellikle veri seti yeni uygulamalarda kullanıldığında, verilerin ve sonuçların hakemler ve diğer araştırma grupları tarafından dikkatli bir şekilde incelenmesini sağlar. Neyse ki, hesaplamalı yeniden üretilebilirlik için en iyi uygulamalara uygun olarak, analizimizdeki makalelerden ikisi2,3 gözlemlerini test etmek için gereken her şeyi içeriyordu: kullandıkları veri seti, yöntemlerini uygulamak için yazdıkları bilgisayar kodu ve bu koddan üretilen sonuçlar. Makalelerden üçü2-4 aynı veri setini kullanmıştır, bu da doğrudan karşılaştırma yapmamıza olanak sağlamıştır. Bunu yaptığımızda beklenmedik bir şeyle karşılaştık.

Makine öğreniminde bir veri setini ikiye bölmek ve bir modeli eğitmek için bir alt küme ve performansını değerlendirmek için başka bir alt küme kullanmak yaygın bir uygulamadır. Eğitim ve test alt kümeleri arasında herhangi bir örtüşme yoksa, test aşamasındaki performans modelin ne kadar iyi öğrendiğini ve performans gösterdiğini yansıtacaktır. Ancak analiz ettiğimiz makalelerde, feci bir 'veri sızıntısı' sorunu tespit ettik: iki alt küme çapraz kirlenerek ideal ayrımı bulandırıyordu. KEGG COMPOUND veritabanındaki 6.648 girdinin 1.700'den fazlası - toplam veri setinin yaklaşık dörtte biri - birden fazla kez temsil edildi ve çapraz doğrulama adımlarını bozdu.

Veri setindeki kopyaları çıkardığımızda ve yayınlanan yöntemleri tekrar uyguladığımızda, gözlemlenen performans ilk göründüğünden daha az etkileyiciydi. Doğruluğa benzeyen ancak kesinlik ve geri çağırma açısından hesaplanan bir makine öğrenimi değerlendirme ölçütü olan F1 puanında 0,94'ten 0,82'ye önemli bir düşüş oldu. 0,94'lük bir skor oldukça yüksektir ve algoritmanın birçok bilimsel uygulamada kullanılabilir olduğunu gösterir. Bununla birlikte, 0,82'lik bir puan, algoritmanın yalnızca belirli uygulamalar için ve yalnızca uygun şekilde ele alındığında yararlı olabileceğini göstermektedir.

Bu çalışmaların bozuk veri setinden kaynaklanan hatalı sonuçlarla yayınlanmış olması elbette talihsizliktir; bizim çalışmamız bulgularını sorgulatmaktadır. Ancak çalışmalardan ikisinin yazarları hesaplamalı bilimsel yeniden üretilebilirlikte en iyi uygulamaları izledikleri ve verilerini, kodlarını ve sonuçlarını tamamen erişilebilir hale getirdikleri için, bilimsel yöntem amaçlandığı gibi çalıştı ve kusurlu sonuçlar tespit edildi ve (bildiğimiz kadarıyla) düzeltildi.

Üçüncü ekip, anlayabildiğimiz kadarıyla, ne veri setlerini ne de kodlarını dahil etti, bu da sonuçlarını düzgün bir şekilde değerlendirmemizi imkansız hale getirdi. Eğer tüm gruplar verilerini ve kodlarını erişilebilir kılmayı ihmal etmiş olsalardı, bu veri sızıntısı sorununu yakalamak neredeyse imkansız olurdu. Bu sadece halihazırda yayınlanmış olan çalışmalar için değil, aynı zamanda bu veri setini kendi çalışmaları için kullanmak isteyebilecek diğer tüm bilim insanları için de bir sorun teşkil ederdi.

Daha da sinsisi, bu makalelerde bildirilen hatalı yüksek performans, başkalarını yayınlanan yöntemleri geliştirmeye çalışmaktan caydırabilir, çünkü kendi algoritmalarını karşılaştırma yoluyla yanlış bir şekilde eksik bulabilirler. Aynı derecede rahatsız edici olan bu durum, dergi yayınlarını da zorlaştırabilir, çünkü başarılı bir inceleme için genellikle iyileştirmenin gösterilmesi bir gerekliliktir - potansiyel olarak araştırmayı yıllarca geciktirebilir.

Tekrarlanabilirliği teşvik etmek
Peki, bu hatalı çalışmalarla ne yapmalıyız? Bazıları bunların geri çekilmesi gerektiğini savunuyor. En azından genel bir politika olarak böyle bir tepkiye karşı dikkatli olmalıyız. Analizimizdeki üç makaleden ikisi verileri, kodları ve tüm sonuçları içerdiğinden, bulgularını değerlendirebilir ve sorunlu veri setini işaretleyebiliriz. Bir yandan, bu davranış teşvik edilmelidir - örneğin, yazarların düzeltmeleri yayınlamalarına izin vererek. Öte yandan, hem oldukça kusurlu sonuçları olan hem de tekrarlanabilir araştırmaya çok az destek veren veya hiç destek vermeyen çalışmaların geri çekilmesi, bilimsel tekrarlanabilirliğin isteğe bağlı olmadığı mesajını verecektir. Ayrıca, tam bilimsel tekrarlanabilirlik desteğinin gösterilmesi, dergilerin düzeltme ve retraksiyon arasında karar verirken kullanabilecekleri net bir turnusol testi sağlar.

Artık bilimsel veriler her geçen gün daha karmaşık hale geliyor. Karmaşık analizlerde kullanılan veri setleri, özellikle de yapay zeka içerenler, bilimsel kayıtların bir parçasıdır. Bu veriler, analiz edildikleri kodlarla birlikte ya ek materyal olarak ya da Figshare (Figshare, Nature dergisini yayınlayan Springer Nature ile yayınlanmış makalelerde veri paylaşımını kolaylaştırmak için ortaklık kurmuştur) ve Zenodo gibi verilerin kalıcılığını ve kaynağını sağlayabilen açık veri havuzları aracılığıyla kullanıma sunulmalıdır. Ancak bu adımlar, yalnızca araştırmacılar başkalarının hatalarını tekrarlamaktan kaçınmak için yayınlanmış verilere biraz şüpheyle yaklaşmayı öğrenirlerse yardımcı olacaktır.

Hiç yorum yok:

Yorum Gönder