新媒體的未來實作 (IV) 標籤篇

Gene Hong, 還是黑貘

9 min readMar 27, 2021

這一系列文章本預期大概只會寫 30 點，但看起來應該會寫到 40~50 點，因為想控制每篇文章在 3000 字下，所以每次只會寫 5 點。

在前面的 10 點中，提到有關標籤的有：2. 標籤對閱讀導引的價值，4. 用標籤做簡單的系統化議題事件導灠，5. 麵包屑的再利用，這三項，但當時覺得應該很快寫完就沒分章節。

但也包含這一系列文章，不單以『理念傳達』為主，而是有具體的實作建議為優先，不然單單有關『如何下好標籤』這題目，我已經講過幾十堂課了，並沒有預期在這邊寫。

但看樣子下面還有幾章要寫：策展列表篇、資料連結篇、UI/UX 篇、Schema 篇、搜尋篇，以及一些無法成為篇的幾點要寫。

16. 主要標籤與次要標籤：

之前提到，一組好的標籤應該有一個精神：

讀者一眼看到這樣 5~10 個標籤，可以了解涵蓋大部份要點的名詞，且可以從這標籤識別跟其他文章的差異。

但事實上單單就名詞，尤其是人名，就可能超過 10 個，而要把提到的人名都寫進去，並不實際，可能只能挑 3~5 個來寫說不定還會太多，因此想要從標籤快速看到『主題』，標籤數超過 10 個是完全不合適的。

因此實務上最好能夠設計出『主要標籤』與『次要標籤』，也就是說主要標籤是在文章標題下，可以直接看到的，而次要標籤是在於若是可以展開與收合的話，預設還沒展看就可以看到的標籤。

當然這可能要在後台設計上，不只能夠讓記者編輯設標籤，甚至可以分成主要或次要，實作上可能就是分成兩個欄位，可能是一開始就分開，或是事後再選出較為重要的幾個都可以。

而在 UI 基本上的確是用『展開與收合』區分就好，不完全一定要跟讀者提示這是主要標籤或是次要標籤，這樣的資訊就過於 Overload 負荷過大。

在公視的後台本身有區分主要與次要標籤 https://news.pts.org.tw/article/519030

17. 標籤推薦系統（編輯時）

基本上在沒有做出標籤推薦系統之前，我是不太會在顧問的公司跟編輯與記者上『如何下標籤』，因為編輯記者要思考的還是以內容為主，寫好文章是最重要的，但下標籤這還包含 Meta-Data 等的觀點在其中，也就是如何『閱讀內容』的導引，雖然創作者若能了解這一環是更好，但有時是不想過份的讓作者有太大的負擔。

當然若是『編輯』的角色多於『作者』的話，下好標籤就變得非常重要，但編輯的經驗也是有局限的，因此還是會鼓勵技術人員做簡單的系統協助編輯下標籤，其中有幾個開發的步驟：

Auto Complete 自動完成標籤字，用出現之前文章所用過的次數做導引，就像是 Medium 用的系統一樣。
用之前的文章下過的標籤作為字典，去算出原文有出現過可以建議，這可能就須要有二階段編輯的功能。
透過 API 去抓新聞常用字點（如新文易數），來看其他編輯如何下，以及新的標籤字的使用。
透過 Search Console 導入搜尋字的字典，還可以顯示搜尋量作參考。
直接以語意網路算出值得推薦的字，不只包含原文用過的字，甚至是可以找出事件與議題的標籤。

當然這些是在文章編輯時所要做的事，如何用標籤建議系統協助編輯能夠更精確、更有價值的字是很重要的，尤其是標籤是種『聚焦』，除非是新的事件議題，不然標籤必然是與之前文章串接的一種方式。

18. 標籤推薦系統（使用者資料回饋與後編輯）

標籤是種聚焦，把相同的概念給連起來，因為像人名的名詞會成為主要標籤，因為大部份的同一事件發生的就是那些人，而人名是最好的標籤，因為不用去創造新的名次。

但名詞往往包含『人事時地物因果』，但事件名及因果所產生的延伸關係往往是在後面才發生，因此寫完後有時想再好的標籤還是會有不足的狀況，因此後編輯標籤是很重要的。

只是要讓編輯標籤的後台能夠更方便，透過標籤的完整不只能夠讓文章更完整，也更可以包含閱讀的導引，只是寫過的文章是上萬篇，要去把這些文章重新看一次，想要加入那些標籤是不切實際的，因此更須要的是一個 User-Data Driven 的建議清單。

通常最方便的方法是透過 Search Console 的搜尋關鍵字，若是既有的標籤沒有包含這些字，往往代表這些標籤必然有所遺漏，尤其是在『動機』上面，因為搜尋關鍵字是最好的搜尋動機表相，不只是在編輯時可以導入搜尋關鍵字做為字典，而事後的搜尋量的多寡更可以成為建議清單次序。

當然這些關鍵字已經有標籤就不要提示，只須要提示那些不在標籤與量大的，然後讓編輯去決定那些標籤是要再去補足的，這可以做成後台，讓編輯去知道那 10 各字組與文章關係是最適合建立的，然後由人來判斷，值得加入或不值得加入，畢竟使用者資料沒處理好就是 GIGO (Garbage In Garbage Out)，直接使用是相當危險的。

只是這些字要不要做為前台顯示，或者只是次要標籤，甚至是比次要標籤還要降一階的，例如『搜尋關鍵字』的清單，做為讀者的導引或搜尋頁的加強，也都是可以的。

19. 標籤的權重與 TF-IDF

在第 10 點中有提到 TF-IDF 的應用，而這邊的 F 指的是 Frequency，也就是說這個字在這篇文章出現的次數越高，代表越重要，但在其他全體的文章出現的次數也越高，代表越不重要。

也就是說，標籤不只能夠做為閱讀的導引，也包含對延伸閱讀的導引，都是在於可以經過計算得知這個標籤（字、關鍵字）在這篇文章的價值，也就是說若是能夠算出這篇文章的文字雲，能夠做的事就可多了。

這樣的標籤不只是可以拿來做文章的閱讀導引，分類，做為廣告的元素，UI/UX 的重點提示，麵包屑的母集合與子集合，最重要的也是包含第 11 點的主要標籤與次要標籤的排序。

因為要編輯去區分主要標籤與次要標籤就是一件不算輕鬆的事情，但我們也知道以閱讀行為來看，越前面代表越重要，因此標籤的次序也是有價值的，只是這樣的次序過於細微很難去處理，畢竟很多作者編輯並沒有相關的訓練是很難做到的，或者跟本就是過於模糊很難判斷。

在後面會有幾點講到語意網路，而文字雲是這概念的呈現，只是須不須要每篇文章都有專屬的文字雲在網頁呈現作為閱讀導引，是一件值得討論的事，但若沒有這樣的語意網路大綱摘要，是很難做為進一步的計算，甚至有時候我都有一個想法，有沒有開始以語意資料庫作為 UI/UX 的媒體，可以是舊媒體的畫分。

專頁儀表板的賺錢課程粉絲團分析，你發大財了嗎？

賺錢課程若是有分兩種，一種是騙人的，一種不是騙人的，有人可以跟我講可以從外在的內容表現如何區分嗎？

genehong.medium.com

20. 標籤的標籤

標籤本身是一個扁平的，但透過標籤的距離可以去做分類，集合，延伸等等，雖然說標籤大多都是名詞，但標籤本身還是有其屬性去做不同的用途。

就像是分類本身就是種標籤的特化，事實上會有分類的概念最常是以『管理』用的角度去思維，因為記者編輯的組織常是以分類去劃分。

另一種特化標籤是『旗標 (Flag)』，也就是常見的『屬性』值，例如『編輯精選』、『熱門』、『影音』…. 有時都是種用來標示不同的內容，不同的呈現的可能性，有時就會對應到不同的版面。

還有一種是以『專題』做為分類的標籤，因為標籤是個最常被使用一對多的資料格式，一篇文章在實用上常是只有一種分類，但常屬於不同的專題，所以專題的使用往往是以標籤來標示，而這標籤就像前面的旗標，有時不見得會讓使用者看到。

但除了特化的標籤，一般的標籤還是有很多屬性值，前面常說的人名是最常見的標籤，但事實上還有常見的書名、電影名、課程活動名等等最常用來聚焦的方式，而在內容的呈現上，書籍、電影、活動在頁面上的程現多少還是有點不一樣，甚至是在機讀的 “Schema” 更是有自己的格式定義，而會因為這些標籤的屬性有不同的呈現，本身就要對這標籤再下標籤，針對這些不同的標籤屬性給使用者不同的脈落，才會讓讀者讓文章內容更了解。

而這邊有關 Schema 的部份就後面會有較完整的說明。

Mark Up Movies with Structured Data | Google Search Central

Do you want to claim a specific movie in the knowledge panel? Get verified on Google. Do you want to enable a watch…

developers.google.com

21. 對使用者的貼標

了解完內容，之後就是要了解讀者，而要了解讀者並不是靠第三方 Cookie 這種偷懶的方式而已，而是要針對讀者的閱讀歷程去了解，雖然每一個讀者都是不一樣的，Every One is One of a Kind，但一定有其可以聚焦參考的地方，這個部份就是『標籤』。

與其去知道使用者的姓別、年齡、學歷科系、…..，還不如真的了解這個使用的喜好，這個喜好就是透過這每一篇文章的語意網路、文字雲的標籤，及其這標籤的『權重』，然後把這使用者對於這些文章、商品、專題、收藏、購買等等的資訊去計算，也就是把每一篇篇的獨立文章延展成有量級的標籤，做到降冪又可以保留更完整有用的資訊。

當了解使用者越精確，就可以有對推薦、廣告有更效的機制，而不是停留在推重覆的商品，熱門的文章這種轉換率較低的方法，因為能夠預測出使用者想要尋求的資訊與內容，代表對讀者有更好的服務與體驗 (UX)。

在第一點導灠列 (導航欖 /Navigation Bar) 的實務中，也說明第三種導灠列應該是針對使用者的喜好做為改善 UI 的方法，若是沒有內容標籤的基礎，就無法對使用者貼標或是知道他想要的導灠列是甚麼，換句話說，這個標籤系統若是夠準確，就能夠真的改善使用者點擊的意願。

標籤的小結

當然說到標籤，就很多人認為這只要靠『拆解字詞』就可以做到，雖然拆解字詞是一個簡單的方法，但有時有更多的雜訊存在，即使這也可以透過 A.I. 來去解決這問題，但在實務上是成本相當高的。

就上面所說的，要做到最後的預測與推薦，這資料流是相當可怕的，更不要說是去計算的，因此技術力才是新媒體的另一個重要的核心。