ABSTRAK
Segmentasi semantik nukleus yang tepat dalam gambar patologis merupakan langkah penting dalam diagnosis dan analisis patologis. Mengingat skala yang terbatas dan tingginya biaya anotasi untuk kumpulan data patologis saat ini, penyertaan petunjuk tekstual yang tepat sebagai pengetahuan awal merupakan kunci untuk mencapai segmentasi multikelas dengan akurasi tinggi. Petunjuk teks ini dapat diperoleh dari informasi gambar seperti morfologi, ukuran, lokasi, dan kepadatan nukleus dalam gambar medis. Petunjuk teks diproses oleh encoder teks untuk memperoleh fitur tekstual, sementara gambar diproses oleh encoder gambar untuk memperoleh peta fitur multiskala. Fitur-fitur ini kemudian digabungkan melalui blok fusi fitur, yang memungkinkan fitur-fitur tersebut berinteraksi dan dipersepsikan dalam cara multimodal multiskala. Terakhir, pembelajaran metrik dan fungsi kehilangan tertimbang diperkenalkan untuk mencegah kehilangan fitur yang disebabkan oleh sejumlah kecil kategori atau ukuran target yang kecil dalam gambar. Hasil eksperimen pada beberapa kumpulan data gambar patologis menunjukkan bahwa metode kami efektif dan mengungguli model yang ada dalam segmentasi gambar patologis. Lebih jauh, penelitian ini memverifikasi keefektifan setiap modul dan mengevaluasi potensi berbagai jenis perintah teks dalam meningkatkan kinerja. Wawasan dan metode yang diajukan dapat menawarkan solusi baru untuk tugas segmentasi dan klasifikasi. Kode dapat dilihat di https://github.com/kahhh743/TPA-Seg .
TPA-Seg: Segmentasi Nukleus Multi-Kelas Menggunakan Prompt Teks dan Cross-Attention
