川普與希拉蕊的世紀言論對決

趙熙寧
Marketingdatascience
11 min readApr 19, 2022

--

圖片來源: REUTERS

情境

社群平台和政治一直有著密不可分的關係,任何社群平台中的消息,都可能潛移默化地影響競選人的民意,而推特更在 2016 年 — 美國總統大選的前夕,扮演著重要的角色,支持希拉蕊和川普雙方候選人的言論與辯護隨著民調而起伏,也影響著民調。

從結果來看,川普最終於 2016 年 12 月 19 日贏得美國總統大選,這讓我們不禁希望透過推特的資料探索,做進一步的文字探勘,去察看川普和希拉蕊在文字、用語上是否有什麼差別,也許這可以幫我們找到川普當選的線索。

解決方法

為了解決上述疑惑,並在兩位候選人的推特發文中探索更多的資訊,我們從 Kaggle 上蒐集兩位候選人於 2016 年 1 月至 9 月期間推特的發文資料,進行後續的資料簡介、清理與分析。

1. 資料簡介

為期 9 個月的資料共有 6,444 筆,包含 28 個欄位,較具代表性的欄位包括:

  1. handle:文章作者
  2. text:文章內容
  3. is_retweet:是否為分享文章
  4. original_author:分享文章的原作者,若非分享文章,則此欄位為空值
  5. time:時間
  6. lang:語言

雖然還有如發文地點與位置相關的資訊,但本次分析將先以此 6 個欄位作為代表,進行分析。

2. 資料清理

本次蒐集的資料來自世界各地,因此出現了許多非英文資料,諸如西班牙文、丹麥文,甚至是無法辨別的語言,如圖 1. 所示。

圖 1. 原始資料的語言統計數量

使用其他語言的資料會對後續分析造成阻礙,因此首先將非英文的資料都清理掉,只保留 6,248 筆英文資料。

此外,在檢查資料集內的「文章內容」後,會發現有一些「雜質」,像是:網址、表情符號等等,如圖 2. 所示。

圖 2. 包含雜質的資料示意圖

刪除的雜質內容如下:

  • 清除 「\n"」
  • 清除網址:清除 "https" 開頭的連續文字
  • 清除 「&」
  • 將文字轉為 ASCII 編碼,以去除表情符號(如:😂)

整理後文章內容變成如圖 3. 所示的樣子。

圖 3. 「雜質」清理之後的樣子

經過檢查還可發現,字詞中仍存在無意義或訊息含量較低的字詞,因此要做最後的清除:

  1. 將所有英文字母轉成小寫:避免 "Apple" 和 "apple” 等意思相同的單詞被當成兩個單詞
  2. 去除數字
  3. 去除停用詞(stopwords):停用詞指的是在英文中出現非常頻繁,且不具實際含意的字詞,如:"at”、"the"、"is" 等等
  4. 去除標點符號
  5. 去除空格

要特別注意的是,實際執行時,務必要依照上面幾個步驟的順序,因為每個步驟都有其順序不可打亂的原因。舉例而言,去除停用詞要先於去除標點符號,是因為有些停用詞會包含標點符號(如 "I've"),如果先去除標點符號的話,有些停用詞會因此無法刪除。

3. 常用字詞分析

資料清理完畢後,要做的第一個分析是「常用字詞分析」,我們會分別針對川普、希拉蕊進行分析,並進一步比較兩位候選人的習慣用詞差異。

首先是川普最常使用的 20 個單詞,由高到低分別是川普、希拉蕊等等,如圖 4. 所示。

圖 4. 川普最長使用的 20 個單詞—長條圖

除了長條圖之外,我們另外使用文字雲(wordcloud)來展示前 100 個常見字詞,字體越大代表這個字詞越常被使用,如圖 5. 所示。

圖 5. 川普最常使用的 100 個字詞—標籤雲

在對希拉蕊也進行類似的分析之後,我們接著使用比較雲(comparison cloud)來比較兩位候選人的常用字詞頻率,比較雲指的並非直接將兩個標籤雲合併起來,而是畫出兩者之間的差異。舉例而言,希拉蕊總共用了 226 次「總統」,而川普總共用了 111 次,在比較雲上,「總統」這個詞會靠近希拉蕊那邊,並以115次的頻率差做為文字大小的依據,而在川普這一側則不會有「總統」的出現。

因此,在比較雲上,出現在任一側的字詞,代表本側候選人相較於對側候選人,使用了較多次該字詞,且文字大小意味著使用頻率的差距程度。詳細內容如圖 6. 所示。

圖 6. 兩位候選人的常用字詞比較 — 比較雲

4. 情感分析

找出兩位候選人各自最常使用的字詞之後,我們透過情感分析的方式,來對這些字詞有進一步的理解。以下將使用 2 種情感分析的方式:The Bing lexicon 和 The NRC lexicon。

(1). 首先是 The Bing lexicon,此法的優點為可以清楚地將文章內容分為「正面」與「負面」兩種,如圖 7. 所示。

圖 7. 兩位候選人常用字詞情感分析 — The Bing lexicon

針對這個方法,我們另外做了時間序列分析。如同前面所說,本資料集時間範圍橫跨 2016 年 1 月到 2016 年 9 月,以日期作為單位,查看兩位候選人的長期情感分數趨勢,如圖 8. 所示。

圖 8. 字詞情感分數的時間序列分析 — The Bing lexicon

在圖 8. 中,希拉蕊的在此之前沒有資料,這是由於他當時尚未使用推特發文。而圖中橫軸代表時間,縱軸的 score 則是當天正向詞彙個數減去負向詞彙個數的結果。從整體趨勢來看,無論是希拉蕊或是川普,都沒有很明顯的上升或下降趨勢,兩者的分數都徘徊在接近 0 之處。特別值得一提的是 7 月底一個有趣的現象,在 7 月底的某一天,川普的分數陡降至超過 -30,而希拉蕊的分數衝至超過 20,推測這可能是因為希拉蕊當天發了某篇對選舉有利的貼文,導致川普心情不好上來發文。

(2). 接著是 The NRC lexicon,這個方法直接將貼文分成包含正負面詞彙的 10 種情緒,包括偏向正面的:信任、正面、喜悅、期待,以及偏向負面的:生氣、噁心、害怕、負面、傷心、驚訝,而從圖 10. 中我們可以看出,川普在負向詞彙的頻率普遍比希拉蕊高。

圖 10. 兩位候選人常用字詞情感分析 — The NRC lexicon

成果與應用

回歸我們最初想解決的問題:「如何從候選人的貼文之中,觀察出哪一位會獲選?」這可以分為幾個面向來討論。

從字詞出現的頻率來看,希拉蕊最常提到的字詞為 president、family 等能非常直觀和總統選舉、候選人政見等聯想在一起的詞,而川普除了有自己的口號「make america great again」,還會使用一些較為大膽的形容詞,如「crooked」,而選民似乎對此十分買單。

從字詞的情緒來看,無論是負向字詞的使用頻率或負向的強烈程度,希拉蕊也是遠遠不及川普。舉例而言,在 The NRC Lexicon 分析方法中,川普被歸類為 negative 的字詞數量遠高於 positive 的字詞數量;在 The Bing Lexicon 分析方法中,川普最常使用的負向字詞分別是 crooked、bad、dishonest,其出現次數皆遠高於希拉蕊最常使用的負向字詞 wrong、hate、hard。從這兩點我們可以知道,川普當時之所以掀起風潮,很大程度上是因為他知道選民對生活現況不滿意,以改革家的身分出現,成功抓住選民的心。

此外,本研究指出許多字詞分析的方法,包括常用字詞、情感分析、時間序列分析等等,讀者可根據自身的需求做延伸的應用。舉例而言,假如你是一位對政治新聞特別有研究的資深媒體人,想要調查候選人的社群媒體與其民調支持度的關聯,便可利用時間序列分析搭配常見字詞分析,針對民調出現轉折點的那些日期,查看當天字詞在時間序列的表現是否有異常。在媒體新聞業之外,政治界、學界也都可以利用本篇文章所指出的分析方式,得到一些洞見。

參考資料

Hillary Clinton and Donald Trump Tweets | Kaggle

作者:趙熙寧(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)、劉加德(臺灣行銷研究特邀編審)

◆◆◆ TMR最強新書與新課報到◆◆◆

📣新書快報-最後預購倒數!

【實戰Excel行銷分析|不寫程式也能分析大數據】

優惠價:7.9 折 $356(原價:$450),即日起~4/25(一)預購倒數中

本書透過行銷實例,對數據分析的概念、分析規劃、分析工具與視覺呈現,進行深入的介紹。

👉藉由本書,您將可以學到:
.如何進行分析前的資料清理
.80/20法則在商業領域的應用
.如何藉由數據分析找出潛力產品
.如何分析不同客群的購買行為與樣貌描繪
.如何針對不同的客群進行精準行銷
.如何針對目標客群找出最佳的行銷活動

💡【實戰Excel行銷分析|不寫程式也能分析大數據】書籍點此前往預購

💡相關數位課程連結:不寫程式的數據分析:Excel商業分析實戰

【其他行銷資料科學書籍 79折優惠中

行銷資料科學|大數據x市場分析x人工智慧 優惠價:411元(原價:520元)

STP行銷策略之Python商業應用實戰|網路爬蟲x機器學習x數據分析 優惠價:411 元(原價:520元)

最強行銷武器 — 整合行銷研究與資料科學 優惠價:458 元(原價:580元)

📣新課快報!

【Excel Power BI 實戰商品搭售分析與視覺化】

課程售價:$2,888

購物籃分析資料前處理:利用 Power Query 進行資料前處理,將資料轉換成購物籃分析格式,以利後續找出潛在顧客購物籃中的熱門產品。
產品搭售方法解析:運用 Power Pivot(Excel Power BI) 及 Power View(Power BI),從銷售資料中找出可能的產品搭售。
財務指標分析:運用 Power Pivot(Excel Power BI) 及 Power View(Power BI),從財務價值觀點,找到具獲利效益的產品搭售及產品搭售的建議售價。
應用於自我商城經營:把購物籃分析結果應用於電商平台中,帶領您優化自我商城經營,達到提升營業額的目標。

💡 點此連結,購課詳情輕鬆看

📣新課快報!

【Python輿情應用趣:顧客樣貌分析攻略】

課程售價:$2,388

👉技術面:網路爬蟲學習
◆ 爬蟲技術基礎至實戰教學,建構爬蟲能力,強化爬蟲技巧。
◆ 實戰全台最大輿情平台爬蟲,結合財務指標,蒐羅消費者與市場銷售資料。

👉應用面:顧客樣貌與財務價值分析
◆ 帶您從消費者角度出發,找出消費者在意的重點關鍵字
◆ 以機器學習模型,進行顧客分群,找出重點顧客
◆ 從顧客樣貌分析角度出發,檢視市場上不同區隔的消費者行為與樣貌
◆ 從財務價值分析角度出發,找出有價值的客群市場,協助行銷策略制定

💡 點此連結,購課詳情輕鬆看

往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!

同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公佈最新資訊,讓您重要消息不漏接!

FB粉絲專頁:行銷資料科學

官網:臺灣行銷研究

歡迎加入我們的LINE社群,一起交流行銷資料科學相關知識!

---------------------------------
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

---------------------------------
歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience

--

--

趙熙寧
Marketingdatascience

非典型社科院學生,關注資料科學、心理學、行銷話題。