新媒體的未來實作 (IV) 標籤篇

Gene Hong, 還是黑貘
9 min readMar 27, 2021

--

這一系列文章本預期大概只會寫 30 點,但看起來應該會寫到 40~50 點,因為想控制每篇文章在 3000 字下,所以每次只會寫 5 點。

在前面的 10 點中,提到有關標籤的有:2. 標籤對閱讀導引的價值,4. 用標籤做簡單的系統化議題事件導灠,5. 麵包屑的再利用,這三項,但當時覺得應該很快寫完就沒分章節。

但也包含這一系列文章,不單以『理念傳達』為主,而是有具體的實作建議為優先,不然單單有關『如何下好標籤』這題目,我已經講過幾十堂課了,並沒有預期在這邊寫。

但看樣子下面還有幾章要寫:策展列表篇、資料連結篇、UI/UX 篇、Schema 篇、搜尋篇,以及一些無法成為篇的幾點要寫。

16. 主要標籤與次要標籤:

之前提到,一組好的標籤應該有一個精神:

讀者一眼看到這樣 5~10 個標籤,可以了解涵蓋大部份要點的名詞,且可以從這標籤識別跟其他文章的差異。

但事實上單單就名詞,尤其是人名,就可能超過 10 個,而要把提到的人名都寫進去,並不實際,可能只能挑 3~5 個來寫說不定還會太多,因此想要從標籤快速看到『主題』,標籤數超過 10 個是完全不合適的。

因此實務上最好能夠設計出『主要標籤』與『次要標籤』,也就是說主要標籤是在文章標題下,可以直接看到的,而次要標籤是在於若是可以展開與收合的話,預設還沒展看就可以看到的標籤。

當然這可能要在後台設計上,不只能夠讓記者編輯設標籤,甚至可以分成主要或次要,實作上可能就是分成兩個欄位,可能是一開始就分開,或是事後再選出較為重要的幾個都可以。

而在 UI 基本上的確是用『展開與收合』區分就好,不完全一定要跟讀者提示這是主要標籤或是次要標籤,這樣的資訊就過於 Overload 負荷過大。

在公視的後台本身有區分主要與次要標籤 https://news.pts.org.tw/article/519030

17. 標籤推薦系統(編輯時)

基本上在沒有做出標籤推薦系統之前,我是不太會在顧問的公司跟編輯與記者上『如何下標籤』,因為編輯記者要思考的還是以內容為主,寫好文章是最重要的,但下標籤這還包含 Meta-Data 等的觀點在其中,也就是如何『閱讀內容』的導引,雖然創作者若能了解這一環是更好,但有時是不想過份的讓作者有太大的負擔。

當然若是『編輯』的角色多於『作者』的話,下好標籤就變得非常重要,但編輯的經驗也是有局限的,因此還是會鼓勵技術人員做簡單的系統協助編輯下標籤,其中有幾個開發的步驟:

  1. Auto Complete 自動完成標籤字,用出現之前文章所用過的次數做導引,就像是 Medium 用的系統一樣。
  2. 用之前的文章下過的標籤作為字典,去算出原文有出現過可以建議,這可能就須要有二階段編輯的功能。
  3. 透過 API 去抓新聞常用字點(如新文易數),來看其他編輯如何下,以及新的標籤字的使用。
  4. 透過 Search Console 導入搜尋字的字典,還可以顯示搜尋量作參考。
  5. 直接以語意網路算出值得推薦的字,不只包含原文用過的字,甚至是可以找出事件與議題的標籤。

當然這些是在文章編輯時所要做的事,如何用標籤建議系統協助編輯能夠更精確、更有價值的字是很重要的,尤其是標籤是種『聚焦』,除非是新的事件議題,不然標籤必然是與之前文章串接的一種方式。

18. 標籤推薦系統(使用者資料回饋與後編輯)

標籤是種聚焦,把相同的概念給連起來,因為像人名的名詞會成為主要標籤,因為大部份的同一事件發生的就是那些人,而人名是最好的標籤,因為不用去創造新的名次。

但名詞往往包含『人事時地物因果』,但事件名及因果所產生的延伸關係往往是在後面才發生,因此寫完後有時想再好的標籤還是會有不足的狀況,因此後編輯標籤是很重要的。

只是要讓編輯標籤的後台能夠更方便,透過標籤的完整不只能夠讓文章更完整,也更可以包含閱讀的導引,只是寫過的文章是上萬篇,要去把這些文章重新看一次,想要加入那些標籤是不切實際的,因此更須要的是一個 User-Data Driven 的建議清單。

通常最方便的方法是透過 Search Console 的搜尋關鍵字,若是既有的標籤沒有包含這些字,往往代表這些標籤必然有所遺漏,尤其是在『動機』上面,因為搜尋關鍵字是最好的搜尋動機表相,不只是在編輯時可以導入搜尋關鍵字做為字典,而事後的搜尋量的多寡更可以成為建議清單次序。

當然這些關鍵字已經有標籤就不要提示,只須要提示那些不在標籤與量大的,然後讓編輯去決定那些標籤是要再去補足的,這可以做成後台,讓編輯去知道那 10 各字組與文章關係是最適合建立的,然後由人來判斷,值得加入或不值得加入,畢竟使用者資料沒處理好就是 GIGO (Garbage In Garbage Out),直接使用是相當危險的。

只是這些字要不要做為前台顯示,或者只是次要標籤,甚至是比次要標籤還要降一階的,例如『搜尋關鍵字』的清單,做為讀者的導引或搜尋頁的加強,也都是可以的。

19. 標籤的權重與 TF-IDF

在第 10 點中有提到 TF-IDF 的應用,而這邊的 F 指的是 Frequency,也就是說這個字在這篇文章出現的次數越高,代表越重要,但在其他全體的文章出現的次數也越高,代表越不重要。

也就是說,標籤不只能夠做為閱讀的導引,也包含對延伸閱讀的導引,都是在於可以經過計算得知這個標籤(字、關鍵字)在這篇文章的價值,也就是說若是能夠算出這篇文章的文字雲,能夠做的事就可多了。

這樣的標籤不只是可以拿來做文章的閱讀導引,分類,做為廣告的元素,UI/UX 的重點提示,麵包屑的母集合與子集合,最重要的也是包含第 11 點的主要標籤與次要標籤的排序。

因為要編輯去區分主要標籤與次要標籤就是一件不算輕鬆的事情,但我們也知道以閱讀行為來看,越前面代表越重要,因此標籤的次序也是有價值的,只是這樣的次序過於細微很難去處理,畢竟很多作者編輯並沒有相關的訓練是很難做到的,或者跟本就是過於模糊很難判斷。

在後面會有幾點講到語意網路,而文字雲是這概念的呈現,只是須不須要每篇文章都有專屬的文字雲在網頁呈現作為閱讀導引,是一件值得討論的事,但若沒有這樣的語意網路大綱摘要,是很難做為進一步的計算,甚至有時候我都有一個想法,有沒有開始以語意資料庫作為 UI/UX 的媒體,可以是舊媒體的畫分。

20. 標籤的標籤

標籤本身是一個扁平的,但透過標籤的距離可以去做分類,集合,延伸等等,雖然說標籤大多都是名詞,但標籤本身還是有其屬性去做不同的用途。

就像是分類本身就是種標籤的特化,事實上會有分類的概念最常是以『管理』用的角度去思維,因為記者編輯的組織常是以分類去劃分。

另一種特化標籤是『旗標 (Flag)』,也就是常見的『屬性』值,例如『編輯精選』、『熱門』、『影音』…. 有時都是種用來標示不同的內容,不同的呈現的可能性,有時就會對應到不同的版面。

還有一種是以『專題』做為分類的標籤,因為標籤是個最常被使用一對多的資料格式,一篇文章在實用上常是只有一種分類,但常屬於不同的專題,所以專題的使用往往是以標籤來標示,而這標籤就像前面的旗標,有時不見得會讓使用者看到。

但除了特化的標籤,一般的標籤還是有很多屬性值,前面常說的人名是最常見的標籤,但事實上還有常見的書名、電影名、課程活動名等等最常用來聚焦的方式,而在內容的呈現上,書籍、電影、活動在頁面上的程現多少還是有點不一樣,甚至是在機讀的 “Schema” 更是有自己的格式定義,而會因為這些標籤的屬性有不同的呈現,本身就要對這標籤再下標籤,針對這些不同的標籤屬性給使用者不同的脈落,才會讓讀者讓文章內容更了解。

而這邊有關 Schema 的部份就後面會有較完整的說明。

21. 對使用者的貼標

了解完內容,之後就是要了解讀者,而要了解讀者並不是靠第三方 Cookie 這種偷懶的方式而已,而是要針對讀者的閱讀歷程去了解,雖然每一個讀者都是不一樣的,Every One is One of a Kind,但一定有其可以聚焦參考的地方,這個部份就是『標籤』。

與其去知道使用者的姓別、年齡、學歷科系、…..,還不如真的了解這個使用的喜好,這個喜好就是透過這每一篇文章的語意網路、文字雲的標籤,及其這標籤的『權重』,然後把這使用者對於這些文章、商品、專題、收藏、購買等等的資訊去計算,也就是把每一篇篇的獨立文章延展成有量級的標籤,做到降冪又可以保留更完整有用的資訊。

當了解使用者越精確,就可以有對推薦、廣告有更效的機制,而不是停留在推重覆的商品,熱門的文章這種轉換率較低的方法,因為能夠預測出使用者想要尋求的資訊與內容,代表對讀者有更好的服務與體驗 (UX)。

在第一點導灠列 (導航欖 /Navigation Bar) 的實務中,也說明第三種導灠列應該是針對使用者的喜好做為改善 UI 的方法,若是沒有內容標籤的基礎,就無法對使用者貼標或是知道他想要的導灠列是甚麼,換句話說,這個標籤系統若是夠準確,就能夠真的改善使用者點擊的意願。

標籤的小結

當然說到標籤,就很多人認為這只要靠『拆解字詞』就可以做到,雖然拆解字詞是一個簡單的方法,但有時有更多的雜訊存在,即使這也可以透過 A.I. 來去解決這問題,但在實務上是成本相當高的。

就上面所說的,要做到最後的預測與推薦,這資料流是相當可怕的,更不要說是去計算的,因此技術力才是新媒體的另一個重要的核心。

--

--