Daily Archives: 7 September 2010

Mencoba Tools OpenNLP

Tools OpenNLP dapat diunduh dari alamat ini. Setelah itu, silakan ekstrak file unduhan tersebut. Untuk dapat menjalankan tools OpenNLP ini, pada komputer kita harus sudah terinstal JDK.

Sebelumnya, kita harus mengkompilasinya terlebih dahulu. Dokumentasi bagaimana melakukan kompilasi OpenNLP sudah secara jelas disampaikan di sini dan di sini. Kompilasi tersebut akan menghasilkan file opennlp-tools-1.4.3.jar di folder output. Sebelum menjalankan OpenNLP kita perlu menge-set variabel CLASSPATH pada komputer kita. Dokumentasi mengenai cara menge-set variabel CLASSPATH juga sudah terdapat pada artikel tersebut.

Setelah semuanya siap, sekarang saatnya mencoba tools OpenNLP tersebut… 🙂 Pada tulisan saya ini saya menggunakan training model bahasa Inggris karena kita akan mencoba melakukan pemrosesan untuk teks bahasa Inggris. Misalkan, diberikan suatu potongan artikel berbahasa Inggris sebagai berikut (diambil dari The Jakarta Post):

Indonesian Foreign Minister Marty Natalegawa and his Malaysian
counterpart Dato' Sri Anifah Aman arrived at the Le Meridien
Hotel on Monday at 12:30 p.m. local time for the 16th
Indonesia-Malaysia joint commission meeting. The meeting
highlights issues of sea border, the Aug. 13 arrests of
Indonesian civil servants and Malaysian fishermen in
Indonesian waters and Indonesian migrant workers, according
to the hosting minister. "We'll discuss [among others] the
Aug. 13 incident and try to fix it so, that any similar
incidents will not repeat in the future," Anifah told visiting
and local reporters after escorting Marty into the hotel.

Kemudian potongan artikel tersebut kita simpan ke dalam suatu file teks, misal bernama article.txt. Selanjutnya untuk memproses file artikel tersebut, dapat menggunakan aplikasi OpenNLP ini dengan menjalankannya melalui command prompt atau terminal. Hasil pemrosesan tersebut kemudian akan kita simpan dalam file out.txt.
Continue reading