Sotoy appeared in Inacl paper workshop


                                                                Sotoy appeared in Inacl paper workshop

INACL2 ada conference ke 2 dari INACL(Indonesia Associtation of Computing Language) di Pusat Teknologi Infromasi Nasional (PusTikNas) di UIN. Workshop ini memiliki agenda dari beberapa peneliti language computational mengenai tutorial dan paper yang mereka sedang teliti. Dan pada kesempatan ini, KMKLabs mendapatkan kesempatan untuk mempresentasikan paper kita yang akan disubmit ke salah satu conference dan mendengar feedback dari para peneliti dari academia yang lain. Berikut adalah beberapa agenda dari pembicara yang memberikan ilmu yang diberikan tgl 19 Mei kemarin :

2. Oscar Riyandi, M.Sc, founder dari bahasakita ini memaparkan mengenai peluang-peluang yang bisa kita ambil dari computational language terutama dari sisi bahasa. Beliau memaparkan beberapa product yang telah diluncurkan oleh bahasa kita. Untuk lebih lanjut silahkan mengunjungi http://www.bahasakita.com/

3. Dr. Moch Arif Bijaksana, Kesamaan dan Keterkaitan Semantik antar Teks. Pak Dr. Arif merupakan salah satu peneliti dan dosen di Univ Telkom. Beliau juga adalah salah satu pengajar text mining di Data Science Indonesia Bootcamp . Pada kali ini beliau memberikan mengenai paparan antara kesamaan dan keserupaan text. Sebagai contoh: kata Meja dan kata kursi memiliki kesamaan. Kata Samsung dan LG memiliki kesamaan. Teknik ini juga yang dilakukan oleh tim Data Science dari KMKLabs untuk melakukan rekomendasi setiap kata. Untuk slide nya bisa dilihat di http://inacl2.uinjkt.ac.id/presentation/Inacl.pptx

Lalu berikutnya adalah memasuki persentasi paper, dan kebetulan tim dari KMKLabs mendapat ruangan Lecture 2. Di ruangan ini terdapat beberapa peneliti dari ITB, Binus, dan UIN. Dan kebanyakan paper di ruangan ini dipublish oleh team dari ITB.

Abstrak: Two of the main problems in creating an Indonesian parser with high accuracy are the lack of sentence diversity in treebank used for training and suboptimal uses of parsing techniques. To resolve these, we build an Indonesian dependency treebank of 2098 sentences (simple and complex sentences) and use ensemble techniques to maximize the usage of available dependency parser. We compare the combination of seven parsing algorithms provided by MaltParser and MSTParser. MaltParser uses transition-based model, which employs state machine to predict dependencies in a sentence. MSTParser uses graph-based model, which transforms best dependency tree search into maximum spanning tree problem. There are 3 scenarios in the experiment: 1) calculate the accuracy of each dependency parser in order to define best algorithms to be combined in the ensemble schema; 2) compare several ensemble techniques; 3) use the best ensemble technique for several algorithms. For the first experiment, we found that the graph-based model performs better than the transition-based model for Indonesian sentences. As for the second experiment, we found no significant differences between ensemble techniques of voting system with unweighted scheme, Eisner reparsing algorithm, Chu-Liu Edmons reparsing algorithm, and Attardi reparsing algorithm. In the third experiment, we found that the ensemble combination of 2-Planar, Eisner, and Chu-Liu Edmonds achieved the highest accuracy.

team dari ITB ini memberikan paparan mengenai parser-parser yang dilakukan untuk setiap kata-kata. Paper yang diberikan cukup menarik dan kita menunggu untuk dipublish.

2. Jan Wira Gotama Putra dan Masayu Leylia Khodra, Automatic Paper Title Generation Employing Sentence Rhetorical Categories

Abstrak In this paper, we proposed a work on automatic title generation that considers sentence rhetorical categories for scientific paper. Title generation could be considered as a very short summarization of a document, and rhetorical categories could be incorporated during information selection process. Rhetorical categories are information type conveyed by the author of text, for example purpose or method of the research. Our experiment was focused on extracting, and utilizing research purpose and methods information for title generation task. The experiment conducted using two different dataset domains: Computer Science, and Biochemistry. Our research obtained 0.231–0.255 average F1-Measure score for generated titles. It boosted 6–29% performance compared to using title generation which utilizes only simple TF weighting for information selection. Our research recorded 0.833 F1-Measure score at best for generated title. On the other hand, human evaluation score also showed promising results.

Paper dari Jan Wira dari ITB. Anak muda yang satu ini sedang memasuki masa terakhirnya di ITB dan akan bergabung ke Jepang untuk melanjutkan studi S-2 nya dibidang linguistik computation. Paper ini memaparkan mengenai bagaimana sebuah title dari paper itu memiliki nilai kemenarikan . 2 dataset yang digunakan adalah dari Computer science dan Chemical. Yang menarik adalah dia menyatakan evaluasi manusia dan sistem bisa berbeda seperti contoh ada hasil dari klasifikasi dari paper memberikan F1 Score yang cukup jelek tapi menurut orang lain title nya cukup menarik.

3. Parlinggoman Hasibuan dan Yahya Eru Cakra. Sotoy: Spam Detection for Indonesian Text Based Content

Abstrak The growth of vidio.com and liputan6.com users has lead to dramatic increasing of contents (videos or comments). At the same time, the growth of users increases the number of spam content uploaded by fraud users. According to our database, around 47.45% of comments and videos uploaded is spam. In this paper, we use text based feature to create some approaches for spam comments and spam videos detection in liputan6.com and vidio.com. Moreover, we compare the performance achieved by several established machine learning methods. The final result was then validated by cross validation to avoid overfitting in the creation of classifier. The result indicates that Linear Regression method give best result among the other classifiers.

Ini adalah paper dari kmklabs. Paper ini memberikan paparan mengenai penelitian yang kita lakukan dalam mengatasi spam di vidio.com dan liputan6.com. Untuk slide bisa dilihat disini :

4. Ridwan Ilyas dan Masayu Leylia Khodra Peringkasan 5w1h Multi Dokumen Berita Bahasa Indonesia

Abstrak Banyaknya berita online dari berbagai portal dengan frekuensi kemunculan yang tinggi untuk satu topik berita yang sama menimbulkan masalah overload informasi. Informasi utama pada berita dikategorikan 5w1h (what, who, when, where, why dan how). Ekstraksi informasi digunakan untuk mendapatkan elemen 5w1h dari berita. Pendekatan yang dipakai adalah pembelajaran mesin dengan klasifikasi pada level token. Hasil ekstraksi kemudian disusun menjadi ringkasan menggunakan algoritma Maximal Marginal Relevance (MMR) dengan sususan template Who + What + ”pada” + When + ”di” + Where+ ”karena” + Why + How. Tiga algoritma digunakan dalam perhitungan MMR untuk mengukur kedekatan yaitu Cosin Similariry, Ecluidean Distance dan Levenstance Distance. Hasil penilaian paragraf ringkasan terhadap 30 orang responden menunjukkan perhitungan kedekatan pada algoritman MMR dengan Euclidean Distance mendapat nilai paling tinggi.

Paper dari mahasiswa S2 ITB ini menjelaskan tentang bagaimana meringkas sebuah artikel dari berita. Dengan prinsip 5w+1h, paper ini meringkas sebuah artikel dan melakukan pelabelan 5w+1h untuk setiap komponen. Setelah itu mereka membuat beberapa template dari hasil klasifikasi 5w+1h nya dan setelah itu mereka melakukan evaluasi dari beberapa ahli bahasa Indonesia apakah hasil summarisasi dari mereka telah dilakaukan dengan baik dan benar. Paper ini menarik juga jika kita implementasi di artikle liputan6.

5. Rizka Sholikah dan Dimas Fanny Region based Image Retrieval using Percentage of Proportional Overlapping Object

Abstrak Selection of query region in Region Based Image Retrieval (RBIR) consider relevancy of the query to be able to represent what user need. Query region obtained from the query image that has been divided into n x n block. Not every block has valuable information, block with less information will be eliminated from the list of query region. Determination of the relevant block is based on the percentage of image objects that overlap with each sub-blocks. But in some images, the size of object is small and located far from the center point of the image. This can cause the object to be ignored in determining the relevance sub-blocks. Therefore, in this study we proposed system Region Based Image Retrieval (CBIR) based on the percentage of proportional objects that overlap with sub-block. For each sub-block that being selected as a query region, the local features such as color and texture will be extracted. For color, feature will be extracted using HSV histogram, and texture using Local Binary Pattern (LBP). We also use shape as global feature by applying invariant moment as descriptor. Experimental result show that the proposed method can be considered in image retrieval with 95% and 72% of maximum precision and average precision respectively.

Paper ini memberikan classifikasi gambar dengan label yang telah mereka berikan sebelumnya. Cukup menarik mengingat hal ini telah diimplementasikan di google terlebih dahulu.