ABSTRAK
Teknologi layanan mikro, sebagai arsitektur aplikasi yang fleksibel, telah memperoleh popularitas yang luas di bidang Internet of Things (IoT). Aplikasi IoT sangat sensitif terhadap latensi, sehingga sangat penting untuk menempatkan layanan mikro pada server edge yang sesuai dalam lingkungan komputasi edge. Kegagalan untuk melakukannya dapat berdampak signifikan pada kualitas layanan dan menurunkan pengalaman pengguna, sehingga menimbulkan tantangan besar. Mengatasi masalah yang disebutkan di atas, makalah ini mengusulkan strategi penerapan layanan multiobjektif untuk perangkat IoT berdasarkan pembelajaran penguatan. Tujuannya adalah untuk meminimalkan penundaan akses layanan untuk perangkat IoT dan mengurangi konsumsi energi rata-rata server edge dalam konteks komputasi edge seluler. Untuk mencapainya, pertama-tama kami membuat model pengoptimalan stokastik menggunakan kerangka kerja proses keputusan Markov (MDP) untuk menangani penerapan layanan dan alokasi sumber daya secara dinamis. Model ini menangkap karakteristik utama seperti heterogenitas dalam kemampuan server edge, informasi geografis dinamis perangkat IoT, dan ketidakpastian dalam permintaan layanan mikro. Untuk mengatasi tantangan yang terkait dengan dimensionalitas, konvergensi yang lambat, dan tradeoff eksplorasi-eksploitasi dalam algoritma pembelajaran penguatan tradisional, kami memperkenalkan pembelajaran penguatan mendalam ke dalam pengoptimalan penerapan layanan mikro. Secara khusus, kami mengusulkan penggunaan deep deterministic policy gradient (DDPG) untuk memperoleh strategi penyebaran layanan yang mendekati optimal tanpa instruksi manual. DDPG memanfaatkan kedalaman jaringan untuk memandu gradien kebijakan dan menghasilkan solusi yang secara efektif menyeimbangkan eksplorasi dan eksploitasi. Untuk mengevaluasi pendekatan yang diusulkan, kami menerapkan algoritma DPG-MSP ( DDPG -based M icro Service Placement ) menggunakan kumpulan data nyata dan data sintetis. Analisis komparatif dengan algoritma penyebaran layanan mikro yang ada menunjukkan keunggulan DDPG-MSP dalam hal kinerja, ketahanan, dan skalabilitas .
Pertukaran Energi-Latensi untuk Penempatan Layanan Berbasis Pembelajaran Penguatan dalam Komputasi Tepi
