Pembuatan Sistem Prediksi Kepribadian “The Big Five Traits” dari Media Sosial Twitter Nathanael Febrianto Bina Nusantara University School of Computer Science Jakarta, Indonesia Irwan Prasetia Bina Nusantara University School of Computer Science Jakarta, Indonesia Albert Wijaya Bina Nusantara University School of Computer Science Jakarta, Indonesia
[email protected]
[email protected]
[email protected]
Abstrak Social media merupakan tempat bagi penggunanya untuk mengekspresikan diri dan mengungkapkan pendapat. Informasi yang terdapat dalam social media tersebut dapat diolah dan digunakan untuk memprediksi kepribadian penggunanya. Informasi kepribadian tersebut dapat digunakan untuk beberapa hal, seperti membantu pengambilan keputusan dalam perekrutan karyawan baru, namun diperlukan adanya suatu sistem prediksi kepribadian untuk menjembatani antara social media dengan kepribadian seseorang. Tujuan penelitian ini adalah membuat sistem prediksi kepribadian berdasarkan informasi dari media sosial Twitter. Media sosial Twitter dipilih karena datanya berbentuk teks, sehingga cocok dengan penelitian ini yang menggunakan kepribadian “The Big Five Traits” sebagai acuan alat ukur kepribadiannya. Kepribadian ini berawal dari kumpulan kata-kata dalam bahasa Inggris yang dikelompokkan menjadi 5, yang dikenal sebagai OCEAN (Openness, Consciousness, Extrovert, Agreeableness, Neuroticism/Emotional Stability). Sistem ini diharapkan dapat membantu untuk memprediksi kepribadian seseorang secara objektif. Sistem prediksi ini akan menggunakan metode Supervised Learning dan akan diujicoba dengan menggunakan beberapa algoritma classifier, seperti Neural Network, SVM, Naïve Bayes, dan sebagainya. Data training untuk sistem prediksi ini diambil menggunakan API Twitter sebanyak kurang lebih 5 ribu akun Twitter yang masih aktif melakukan posting berbahasa Inggris hingga tanggal 21 Desember 2015 dan telah diberikan label kepribadian dengan mengunakan sistem prediksi kepribadian pada penelitian sebelumnya (Celli, 2012). Kata kunci : Personality Prediction, The Big Five Traits, Supervised Learning, Twitter
I
Pendahuluan Social networking pada website telah berkembang dengan pesat pada dekade terakhir ini. Di bulan Januari 2005, sebuah survey mengenai website social networking sudah mencapai 115 juta member dan terus berkembang hingga saat ini (Golbeck, 2005). Pada saat pembuatan profil social media, user menceritakan tentang diri mereka melalui self-description, status update, photos dan interest, sehingga kepribadian seseorang bisa diamati melalui media sosialnya. Twitter merupakan salah satu social media yang banyak digunakan beberapa negara untuk mengungkapkan perasaan dan kegiatan yang dituliskan dalam satu atau dua kalimat.
Gambar 1: Top 20 countries in terms of Twitter accounts (http://semiocast.com/en/publications/2012_07_30_Twitter_reaches_half_a_billion_ accounts_140m_in_the_US)
Pada gambar di atas dapat dilihat bahwa di negara US saja pengguna Twitter di tahun 2012 sudah mencapai angka 140 juta pengguna dan terus berkembang hingga saat ini. Melihat banyaknya pengguna Twitter dan kebiasaannya melakukan tweet, sehingga dapat dijadikan acuan dalam memprediksi kepribadiannya. Menurut Saulsman dan Page (2004), terdapat hubungan antara sifat dasar manusia dengan kebiasaan yang mereka lakukan dan sifat dasar tersebut juga berhubungan dengan gangguan psikologis, performa dalam pekerjaan, bahkan dalam hubungan dengan lawan jenis. Oleh sebab itu, pembuatan sistem untuk memprediksi kepribadian seseorang melalui social media dianggap perlu sebagai jembatan antara social media dan penelitian kepribadian. Apabila kepribadian seseorang dapat diprediksi dengan akurat melalui sistem ini, maka sistem tersebut akan membantu banyak hal, seperti menentukan tingkat keberhasilan dan kecocokan suatu hubungan dengan lawan jenis (Premuzic, 2007), menentukan jenis musik yang didengarkan berdasarkan kepribadiannya (Rentfrow dan Gosling, 2003), dan bahkan Jost, West dan Gosling (2009) menyebutkan bahwa tipe kepribadian individu dapat digunakan untuk
memprediksi apakah mereka lebih memilih McCain atau Obama sebagai calon presiden Amerika Serikat di tahun 2008. Selain itu, menurut Haslam, Whelan, dan Bastian (2009), di dalam dunia marketing, “Big Five Traits” menunjukkan hasil prediksi yang akurat terhadap pemilihan brand nasional dan brand swasta oleh konsumen. Dalam ilmu komputer, Nass dan Lee (2000) melakukan penelitian mengenai hubungan antara kepribadian dengan jenis penyampaian promosi suatu barang. Dari penelitian tersebut disimpulkan bahwa konsumen yang memiliki trait (jenis) kepribadian introvert cenderung akan membeli barang yang dipromosikan melalui sudut pandang introvert. Sebaliknya, konsumen yang memiliki trait kepribadian ekstrovert cenderung akan membeli barang yang dipromosikan melalui sudut pandang ekstrovert. Begitu juga halnya terhadap penerapan desain user interface untuk sebuah program sosial (Karsvall, 2002). Dari uraian di atas dapat dilihat bahwa kepribadian sangat berpengaruh dalam beberapa aspek kehidupan, sehingga sistem prediksi kepribadian dianggap perlu. Dimana dengan menggunakan sistem prediksi ini, pengguna dapat mengetahui kepribadian seseorang dengan cepat dan akurat. Disamping itu, sistem prediksi ini dapat meminimalisir kesalahan prediksi kepribadian dikarenakan analisa yang bersifat subjektif dari penguji. Sistem prediksi ini dibangun dengan menggunakan “Big Five Traits” sebagai acuan alat ukur kepribadian. Alat ukur ini dipilih karena trait tersebut telah diakui secara internasional sebagai alat ukur yang valid untuk mengidentifikasi kepribadian. Selain itu, trait kepribadian ini dapat dianalisa melalui kata-kata yang digunakan orang pada umumnya, yang tidak hanya dimengerti oleh para psikolog, namun orang biasa juga (Pervin dan John , 2001). Berdasarkan hal tersebut, alat ukur kepribadian berbasis “Big Five Traits” sangat sesuai untuk dijadikan acuan, dikarenakan sistem prediksi kepribadian yang akan dibangun menggunakan data tweet dari media sosial Twitter yang mayoritas berisi percakapan sehari-hari seseorang. Sistem prediksi kepribadian berbasis “Big Five Traits” sudah banyak dikembangkan oleh beberapa peneliti hingga sekarang dan telah diterapkan pada beberapa aspek kehidupan dan media social (seperti Facebook, Twitter, dan FriendFeed). Dalam penerapannya, terdapat banyak algoritma klassifier yang dapat digunakan seperti Neural Network, Naives Bayes, ZeroR, Support Vector Machine (SVM), dan sebagainya. Oleh karena itu, penelitian ini akan dilakukan perbandingan keakuratan dan validitas masing-masing klassifier. Selain itu pada penelitian ini, sistem yang dibuat dibandingkan dengan sistem yang dibuat pada penelitian sebelumnya. II A.
Kajian Literatur The Big Five Personality Inventory Menurut Golbeck et al (2011), dimensi kepribadian berbasis The Big Five merupakan salah satu trait kepribadian yang paling baik untuk dijadikan acuan dalam penelitian dan sangat baik dalam pengukuran kepribadian seseorang. Model kepribadian dikembangkan dengan mengelompokkan kata-kata dalam bahasa Inggris. Hasil pengelompokkan itu terbentuklah 5 faktor yang dijadikan penciri masing-masing kelompok, yang kemudian dikenal menjadi 5 traits kepribadian “The Big Five”. Lima traits kepribadian dalam Big Five (Pervin dan John, 2001) meliputi: a) Neuroticism Trait ini menilai kestabilan dan ketidakstabilan emosi. Trait ini mengidentifikasi kecenderungan individu untuk mengalami stres (Pervin dan John, 2001). Orang
b)
c)
d)
e)
dengan tingkat neuroticism yang rendah cenderung mempunyai ciri-ciri tenang, bergairah, dan merasa aman, sedangkan orang yang memiliki tingkat neuroticism yang tinggi cenderung mudah tertekan, gelisah, dan merasa tidak aman (Mastuti, 2005). Extraversion Trait ini menilai intensitas interaksi interpersonal, tingkat ketergantungan dengan orang lain, dan kemampuan untuk berbahagia (Pervin dan John, 2001). Orang dengan tingkat extraversion yang rendah cenderung tidak ramah, tenang, tidak periang, menyendiri, task-oriented, pemalu, dan pendiam, sedangkan orang yang memiliki tingkat extraversion yang tinggi cenderung mudah bergaul, aktif, banyak berbicara, person-oriented, dan optimis (Mastuti, 2005). Openness to Experience Trait ini menilai keinginan individu untuk mencari dan menghargai pengalaman baru serta kecenderungan untuk senang mengetahui sesuatu yang tidak familiar (Pervin dan John, 2001). Orang dengan tingkat openness yang rendah cenderung hanya mengikuti hal yang sudah ada, tertarik hanya pada satu hal, tidak memiliki jiwa seni, dan kurang analistis, sedangkan orang yang memiliki tingkat openness yang tinggi cenderung lebih menyukai hal baru dan inovasi, kreatif, imajinatif, benar-benar sensitif dan intelek (Mastuti, 2005). Agreeableness Trait ini menilai kualitas orientasi interpersonal seseorang terhadap perasaan kasihan serta sikap toleransi terhadap suatu hal (Pervin dan John, 2001). Orang dengan tingkat agreeableness yang rendah cenderung sinis, kasar, tidak kooperatif, dan manipulative, sedangkan orang yang memiliki tingkat agreeableness yang tinggi cenderung suka menolong, dapat dipercaya, mudah untuk memaafkan, dan sangat kooperatif (Mastuti, 2005). Conscientiousness Trait ini menilai kemampuan individu dalam organisasi, baik mengenai tingkat keteraturan maupun motivasi dalam mencapai tujuan (Pervin dan John, 2001). Orang dengan tingkat conscientiousness yang rendah cenderung malas, kurang dapat dipercaya, tidak disiplin, dan hedonistic, sedangkan orang yang memiliki tingkat conscientiousness yang tinggi cenderung teratur atau terencana, dapat dipercaya, pekerja keras, ambisius, dan tekun dalam bekerja (Mastuti, 2005).
Menurut Larsen dan Buss (2002), salah satu alat yang digunakan untuk mengukur kepribadian “The Big Five” adalah NEO-PI-R, yaitu The NeuroticismExtraversion Openness (NEO) Personality Inventory (PI) Revised (R). Alat ukur NEOPI-R terdiri dari 120 versi pertanyaan untuk mengukur 6 subdimensi kepribadian pada masing-masing trait kepribadian, yang dikenal dengan facet. B.
Personality Research and Social Media Banyak penelitian mengenai kepribadian The Big Five yang telah diterapkan pada beberapa media sosial seperti FriendFeed, Facebook dan Twitter. Secara mayoritas, pendekatan yang digunakan adalah menggunakan pendekatan machine learning dengan memanfaatkan feature extraction. Feature yang digunakan biasanya diadopsi dari Linguistic Inquiry and Word Count (LIWC) tool dan MRC Psycholinguistic Database, sedangkan algoritma classifier yang menjadi baseline ialah ZeroR. Golbeck, Robles, Edmondson dan Turner (2011) melakukan penelitian prediksi kepribadian Big Five Trait pada media sosial Twitter dengan menggunakan
pendekatan supervised machine learning dan algoritma classifier Gaussian Process dan ZeroR. Data yang digunakan dalam penelitian sebanyak 50 pengguna Twitter yang telah menjalani tes kepribadian dengan menggunakan 45 versi pertanyaan Big Five Inventory, yang kemudian masing-masing pengguna Twitter akan diambil 2000 recents tweet-nya atau semua tweet-nya untuk dijadikan sebagai data training. Tweet tersebut kemudian diolah menjadi beberapa set data, seperti: 1) number of followers (people following the user), 2) number of following (people the user follows), 3) density of the social network, 4) number of “@mentions” – An @mention is when a user mentions the name of another user by adding an @ to the front of the username, as is conversation on Twitter, 5) number of replies – Using the API Twitter, we could see how many of the user’s tweets were direct replies to other user’s tweet, 6) number of hastags – Hastags are a way of tagging a tweet to be part of a given topic or event, 7) number of links, 8) words per tweet. Sedangkan feature yang digunakan pada penelitian ini merupakan gabungan dari LIWC dan MRC, dan didapat 81 feature yang berbeda. Disamping itu, masing-masing kata pada tweet dilakukan sentiment analysis dan diberikan nilai -1 hingga 1 pada setiap tweets untuk dijadikan sebagai feature tambahan pada penelitian ini. Hasil akurasi yang didapat sebesar 11%, dikarenakan sedikitnya data yang dijadikan data training (hanya 50 data user). Pendekatan untuk memprediksi kepribadian yang berbeda dilakukan oleh Celli (2012). Berbeda dengan Golbeck, Robles, Edmondson dan Turner (2011), pendekatan yang dilakukan Celli (2012) ialah menggunakan Unsupervised Machine learning. Pendekatan ini tidak memerlukan data kepribadian tiap user untuk dapat dijadikan sebagai data training, sehingga mudah untuk mengumpulkan banyak data training untuk sistem prediksinya. Penelitian pertama dilakukan pada media sosial FriendFeed, merupakan media sosial yang popular di Italia hingga tahun 2011. Sebanyak 748 pengguna FriendFeed dijadikan sebagai data training dan terdapat sekitar 1065 posts. Data tersebut kemudian diolah dan dipisahkan hanya yang berbahasa Italia saja sebelum dijadikan sebagai data training dan dilakukan ekstraksi feature. Feature yang digunakan dalam penelitian ini juga diadopsi dari gabungan LIWC dan MRC sebanyak 22 feature yang meliputi:
No. 1
2 3
Feature all punctuation (ap): jumlah tanda baca seperti titik, koma, titik dua, dan titik koma pada post commas (cm): jumlah dari koma pada post reference to other users (du): jumlah dari pola @ pada post
No. 12
13 14
4
exclamation marks (em): jumlah tanda seru pada post
15
5
external links (el): jumlah dari link luar dari post
16
6
7
8
first person singular pronouns (im): jumlah kata ganti orang pertama tunggal (singularis) pada post negative particles (np): jumlah imbuhan negative pada post negative emotions (ne): jumlah emoticon yang mengekspresikan perasaan negatif pada post
Feature prepositions (pp): jumlah preposisi pada post pronouns (pr): jumlah kata ganti (pronoun) pada post question marks (qm): jumlah tanda tanya pada post long words (sl): jumlah kata yang lebih panjang dari 6 huruf pada post self reference (sr): jumlah kata ganti orang pertama (singularis dan plural) pada post
17
swears (sw): total dari ekpresi vulgar pada post
18
type/token ratio (tt): didefinisi pada rumus yang di bawah
19
word count (wc): jumlah kata pada post
9
numbers (nb): jumlah angka atau bilangan pada post
20
10
parenthesis (pa): jumlah tanda kurung pada post
21
11
positive emotions (pe): jumlah emoticon yang mengekspresikan perasaan positif pada post
22
first person plural pronouns (we): jumlah kata ganti orang pertama jamak (plural) pada post second person singular pronouns (yu): jumlah kata ganti orang kedua tunggal (singularis) pada post mean word frequency (mf): ratarata sederhana dari frekuensi kata pada post yang di definisi pada rumus di bawah
Formula token ratio (tt) dan mean word frequency (mf):
Dimana w adalah jumlah kata yang telah digunakan dalam kalimat, T adalah jumlah kata dalam kalimat, dan wf adalah jumlah banyaknya variasi kata pada dataset.
Hasil prediksi kepribadian pada penelitian ini dinyatakan dengan notasi “y” menyatakan bahwa memiliki nilai tinggi untuk trait tersebut, ”n” menyatakan bahwa memiliki nilai rendah untuk trait tersebut, dan “o” menyatakan bahwa trait tersebut tidak bisa diprediksi dikarenakan tidak ditemukan faktor trait kepribadian itu. Sedangkan untuk akurasi yang didapat dari penelitian ini sebesar 0.631 dengan ratarata nilai validitasnya sebesar 0.729 (tidak termasuk user yang hanya memiliki 1 posting-an pada akunnya). Nilai akurasi menyatakan seberapa tepat pengukuran kepribadian user tersebut, sedangkan nilai validitas menyatakan seberapa sering user tersebut menampilkan kepribadian yang sama tiap posting-nya. Berdasarkan hasilnya, dapat disimpulkan bahwa pengguna FriendFeed sebagian besar mempunyai kepribadian extravert, insecure, agreeable, organized, dan unimaginative. Berikut hasil persentase masing-masing model trait kepribadian :
Tidak berhenti sampai pada prediksi kepribadian pada media sosial FriendFeed, Celli (2012) melanjutkan penelitian pada media sosial Twitter. Pendekatan yang dilakukan masih sama dengan penelitian sebelumnya yakni Unsupervised Machine learning. Feature yang digunakan pada penelitian ini masih menggunakan 22 feature gabungan LIWC dan MRC pada penelitian FriendFeed. Dataset yang digunakan pada penelitian merupakan data yang didapat dari Twitter public timeline, sebanyak 20 hingga 80 post per user pada 28 April hingga 2 May 2011. Dataset ini kemudian disebut “personalitwit” dan berisi sekitar 25700 post. Untuk ekstraksi feature yang digunakan untuk mengolah dataset tersebut, peneliti menggunakan list feature yang sama seperti pada penelitian sebelumnya. Informasi yang didapat dari penelitian ini berupa: 1. username 2. post 3. date 4. platform from which the user posted 5. personality model 6. accuracy of the personality model 7. validity of personality model 8. language Dari penelitian ini didapat hasil akurasinya sebesar 0.6651 dan rata-rata validitasnya sebesar 0.6994. III A.
Metodologi Cara Kerja Pada penelitian ini dilakukan pendekatan yang serupa untuk sistem prediksi kepribadian dari media sosial Twitter, yakni Supervised Machine learning. Pendekatan
ini dipilih karena memiliki tingkat akurasi yang lebih tinggi dibandingkan teknik unsupervised machine learning, namun pendekatan ini tidak cocok jika digunakan untuk domain/bahasa lain. Metode yang digunakan pada penelitian ini adalah menggabungkan feature LIWC dan MRC (yang telah di pakai pada beberapa penelitian sebelumnya) serta menambahkan beberapa feature hasil diskusi dengan pihak expert di bidang psikologi yang mungkin dapat menambah tingkat akurasi pada sistem prediksi kepribadian berbasis Big Five Traits yang dikembangkan. Data training yang digunakan pada sistem ini diambil menggunakan fungsi pada API Twitter. Data yang diambil berupa username akun Twitter yang masih melakukan tweet pada tanggal 26 November 2015 dan user tersebut melakukan posting dengan menggunakan bahasa Inggris. Data yang didapat dari proses tersebut sebanyak 6362 username Twitter. Kemudian masing-masing username tersebut diberikan label kepribadian Big Five dengan menggunakan sistem prediksi kepribadian yang dikembangkan Celli (2012). Data yang sudah terlabel kemudian di filter kembali sebelum dijadikan data training. Proses filtering yang dilakukan meliputi: 1. Mengelompokkan username berdasarkan status akunnya Akun Twitter dikelompokkan menjadi 3 status, yaitu available, suspended, dan deleted. Status available menandakan bahwa akun tersebut aktif dan dapat diakses dengan menggunakan API Twitter, status suspended menandakan bahwa akun tersebut telah ditangguhkan oleh pihak Twitter, sedangkan status deleted menandakan bahwa akun tersebut telah dihapus oleh pemilik akun. Untuk memperoleh data tweet atau informasi menggunakan API Twitter hanya dapat dilakukan pada akun yang memiliki status available. Untuk status suspended, API Twitter hanya dapat mengambil personal information saja namun tidak dapat mengakses tweet-nya. Sedangkan untuk status deleted, API Twitter tidak dapat mengambil personal information maupun tweets-nya. Oleh karena itu, sebelum diambil informasi dan tweet masing-masing akun, dilakukan filtering terlebih dahulu username yang bersifat available. Dari proses ini didapat sebanyak kurang lebih 3000 username yang available untuk dijadikan data training. 2. Menghilangkan Hyperlink Data yang available akan diolah dengan cara menghilangkan hyperlink pada masing-masing tweet. Hyperlink tersebut muncul karena API Twitter menerjemahkan link website lain, link video, atau gambar pada suatu tweet menjadi bentuk standar twitter (https://t.co). Oleh karena itu, hyperlink perlu dihilangkan karena tidak dapat menggambarkan kepribadian dari orang tersebut. 3. Menghilangkan Emoji Emoji merupakan simbol yang digunakan untuk memberi ‘ekspresi’ pada tweet yang dikirim. Emoji perlu dihilangkan karena API Twitter tidak dapat menerjemahkan emoji menjadi sebuah teks, sehingga tidak dapat dibaca kepribadiannya. 4. Menghilangkan jenis tweet yang bersifat retweet Retweet merupakan salah satu bentuk posting tweet dengan cara mengulang atau menulis kembali tweet yang ditulis seseorang, sehingga retweet harus dihilangkan karena tidak menggambarkan kepribadian yang sebenarnya. Retweet pada twitter dapat dilakukan dengan 2 metode, metode pertama dilakukan dengan cara menekan tombol retweet yang sudah disediakan oleh twitter, sedangkan metode kedua dilakukan dengan cara menyalin tweet orang lain dan ditambahkan “RT” pada awal tweet. API Twitter hanya dapat menyaring retweet yang dilakukan dengan metode pertama, namun untuk menyaring metode kedua diperlukan
pencarian keyword “RT” dan apabila ditemukan maka tweet tersebut tidak akan dipakai sebagai data training. Data training yang telah difilter kemudian dilakukan ekstraksi feature. Feature yang digunakan pada penelitian ini diadopsi dari feature MRC dan LIWC seperti pada penelitian sebelumnya. Feature yang digunakan meliputi: No. Feature No. Feature
1
2 3
all punctuation (ap): jumlah tanda baca seperti titik, koma, titik dua, dan titik koma pada post word count (wc): jumlah kata pada post question marks (qm): jumlah tanda tanya pada post
6
7 8
4
exclamation marks (em): jumlah tanda seru pada post
9
5
all punctuation (ap): jumlah tanda baca seperti titik, koma, titik dua, dan titik koma pada post
10
positive emotions (pe): jumlah emoticon yang mengekspresikan perasaan positif pada post numbers (nb): jumlah angka atau bilangan pada post parenthesis (pa): jumlah tanda kurung pada post long words (sl): jumlah kata yang lebih panjang dari 6 huruf pada post positive emotions (pe): jumlah emoticon yang mengekspresikan perasaan positif pada post
Namun feature tersebut masih akan dikembangkan untuk dilihat pengaruhnya terhadap sistem kepribadian pada penelitian ini. Hasil ekstraksi feature tersebut akan diproses oleh machine learning (Weka) untuk dijadikan model dengan menggunakan beberapa algoritma classifier, seperti libsvm, naïve bayes, zeroR, neural network, dsb., untuk dibandingkan nilai akurasinya. Model ini akan digunakan oleh machine learning sebagai acuan dalam menentukan hasil prediksi kepribadian dari data testing yang dimasukkan pada sistem. B. Metode Evaluasi Hasil penelitian ini akan dievaluasi dengan menggunakan 3 metode analisis, meliputi: 1. Membandingkan hasil akurasi dengan beberapa algoritma classifier Setiap algoritma classifier yang digunakan oleh sistem ini akan dihitung nilai akurasinya dengan menggunakan metode cross validation (10 folds) pada machine learning (Weka). Hasil akurasi tersebut akan dibandingkan dan dianalisa untuk menentukan algoritma classifier yang paling sesuai untuk diterapkan pada sistem prediksi kepribadian. 2. Membandingkan hasil akurasi dengan penelitian sebelumnya Hasil akurasi terbaik yang telah didapatkan, akan dibandingkan dengan sistem prediksi yang telah dikembangkan pada penelitian sebelumnya, yaitu penelitian Mining User Personality in Twitter (Celli, 2011) dan Using Linguistic Cues for the Automatic Recognition of Personality in Conversation and Text (Mairesse, 2007). Hasil perbandingan tersebut digunakan untuk menentukan apakah metode yang diterapkan pada sistem prediksi kepribadian lebih akurat jika dibandingkan sistem prediksi pada penelitian sebelumnya.
3.
Evaluasi oleh pakar psikologi Pada metode ini, beberapa pakar psikologi akan melakukan prediksi kepribadian Big Five dengan menganalisa tweets dari user yang bersangkutan secara manual. Hasil prediksi tersebut akan dibandingkan dengan hasil prediksi dari sistem prediksi kepribadian pada penelitian ini. Hasil perbandingan tersebut akan dijadikan acuan apakah sistem prediksi sudah dapat digunakan untuk membantu prediksi kepribadian seseorang.
IV
Hasil Penelitian Saat ini penelitian mengenai Pembuatan Sistem Prediksi Kepribadian “The Big Five Traits” dari Media Sosial Twitter sedang dalam tahap pengembangan dan testing. Tahap yang sedang dilakukan oleh penulis adalah melakukan pemilihan feature-feature yang paling sesuai untuk meningkatkan akurasi pada sistem ini. Disamping itu, penulis juga telah melakukan diskusi dengan pakar psikologi Bina Nusantara (Pingkan Cynthia Belinda Rumondor, S.Psi, M.Psi) mengenai sistem prediksi ini dan meminta bantuan untuk mengevaluasi kurang lebih 100 data yang telah diberikan label kepribadian Big Five dengan menggunakan sistem prediksi kepribadian yang dikembangkan Celli (2012) untuk dijadikan sebagai gold dataset pada penelitian ini. Hasil dari penelitian ini berupa list feature tambahan beserta dengan algoritma classifier yang dapat digunakan untuk meningkatkan akurasi dari penelitian sebelumnya. Hipotesa hasil yang diperoleh dengan menggunakan metode yang diterapkan pada penelitian ini diharapkan mampu meningkatkan akurasi dan validitas sistem prediksi kepribadian “Big Five Traits”.
Reference A. Karsvall. Personality Preferences in Graphical Interface Design. In NordiCHI ’02: Proceedings of the Second Nordic Conference on Human Computer Interaction: 217– 218. New York, 2002. Clifford Nass and Kwan Min Lee. Does Computer-Generated Speech Manifest Personality? An Experimental Test of Similarity-Attraction. In CHI ’00: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems: 329–336. New York, 2000. E. Mastuti. Analisis Faktor Alat Ukur Kepribadian Big Five (Adaptasi dari IPIP) pada Mahasiswa Suku Jawa. INSAN Vol. 7 No. 3, 2005. Fabio Celli. Mining User Personality in Twitter. Language, Interaction and Computation CLIC, 2011. Fabio Celli. Unsupervised Personality Recognition for Social Network Sites. Italy. ICDS 2012: The Sixth International Conference on Digital Society. Pp: 59-62, 2012. F. Mairesse, Marilyn A. Walker, Matthias R. Mehl, Roger K. Moore. Using Linguistic Cues for the Automatic Recognition of Personality in Conversation and Text. In Journal of Artificial Intelligence Research, 30. Pp: 457–500, 2007. Jennifer Golbeck. Computing and Applying Trust in Web-based Social Networks. PhD thesis, University of Maryland, College Park, MD, USA, April 2005. Jennifer Golbeck, Cristina Robles, Michon Edmondson, Karen Turner. Predicting Personality with Social Media. CHI Extended Abstracts. Pp: 253-262, 2011. Jennifer Golbeck, Cristina Robles, Michon Edmondson, Karen Turner. Predicting Personality from Twitter. IEEE International Conference on Privacy , Security , Risk, and Trust, and IEEE International Conference on Social Computing. Pp: 149-156, 2011.
J. Jost, T. West, and S. Gosling. Personality and Ideology as Determinants of Candidate Preferences and Obama Conversion in the 2008 US Presidential Election. Du Bois Review: Social Science Research on Race 6(01):103–124, 2009. L. A. Pervin and O. P. John. Personality; Theory and Research. 8 ed. New York: John Wiley & Sons, Inc, 2001. L. Saulsman, and A. Page. The Five-Factor Model and Personality Disorder Empirical Literature: A meta-analytic review. Clinical Psychology Review 23(8): 1055–1085, 2004. Nick Haslam, Jennifer Whelan, and Brock Bastian. Big Five Traits Mediate Associations Between Values and Subjective Well-Being. Personality and Individual Differences 46: 40–42, 2009. P. Rentfrow, and S. Gosling. The Do Re Mi’s of Everyday Life: The Structure and Personality Correlates of Music Preferences. Journal of Personality and Social Psychology 84(6):1236–1256, 2003. Randy J. Larsen and David M. Buss. Personality Psychology: Domain of Knowledge About Human Nature. New York: McGraw Hill, 2002. Tomas Chamorro-Premuzic. Personality and Romantic Relationships, Volume Personality and Individual Differences. Blackwell Publishing, 2007.