在 2006 年的時候,看到了一篇新聞說到『知名部落客XXX』的時候,就在想這個人為甚麼我都沒聽過,是我孤陋寡聞嗎還只是新聞炒作,當時就有了動機,透過各種『社群訊號』來計算一個部落格的知名度做排名,也就是當時寫部落格的人都知道的『部落格觀察』。

最後經過部落格觀察排行榜的計算,就可以知道這個部落客是排行約 4xx 名的『不怎知名部落客』,因此這新聞報導若不是種眼界不足就是種炒作。

若民主是種讓人民的聲音被聽見,然後主要依民意的多數來做事,甚至經過投票來決定誰來做事,雖然投票已經是一個民主最基本的防護機制,但到底甚麼是『人民的聲音』或是誰來聽到呢?這環節就是最大的問題,因為大部份的情形都是由『執政官員』來『明察暗訪』來獲得『民意』,或是透過民意調查來獲得。

而大家都知道這種『明察暗訪』或是『民意調查』都是種較為『封閉』的機制,即使不要說偏差的問題很大,更嚴重的是很難被較透明的『驗證』,不像是很多投票機制再怎樣都有或多或少的『防弊』機制,而很多民意輿情系統都是無法驗證的,最後明察暗訪更多是靠『高官朋友之間的飯局』來決定『人民的聲音』。

因此從 BBS 開始,我一直熱衷於透過機制讓資訊能夠更快的統計、聚焦,甚至能夠做因子分析,之後能夠做討論、決策,而這這些所有流程都能夠被大家看到,慢慢的從『信任但要驗證』到『信任來自於可驗證』,認為一個公開、透明的民意系統才是真正的『民主基礎』。

這十幾年下來做了不少利用網路系統或是社群媒體去『趨近』這目標:

歷年民意系統的開發歷史

其中最接近成功的是在 2013 年做的『林克傳說』及 2016 年的『專頁儀表板』,甚至專頁儀表板在 Facebook 停下 API 之前已經很多人在使用了,只是很可惜的要讓這系統復元,超過我只是一個工程師的負擔只好作罷。

因此在 2020 時就開啟了 Youtube 的計劃,只是這兩年包含有身體的因素、個性的因素 (懶墮)、工作時間忙碌的因素及疫情的因素,一直到今年三月才重啟,而在現在才有最基本的成果,就是有一個可以簡單的排行榜,來索引所有政治人物在 Youtube 的『聲量』。

雖然觀看政治人物是最『粗暴』的方式,因為許多議題要去區分角度是很困難的,雖然這樣做也很容易造成社會對政治人物的依賴與神化,但相對的以台灣現狀而言,政治人物是最單純且容易聚焦的。

相較『臉書粉絲專頁』的多元性雖然是好的,但卻沒有好的『索引』機制,因此要去找到足夠完整的資訊是不容易的,而 Youtube 的好處是社會議題的流量集中在新聞與社論,且新的頻道相較臉書須要更多的經營,因此這是較為容易達到足夠的『覆蓋度』而不容易很快失效。

在三月調校了計算效率的方法,四月進一步做出有意義的圖表,五月也針對了標籤加了快取機制,而在昨天跟『新文易數』的 API 串接起來,因此有了這份的排行榜/索引。

--

--

在 2022 的開始,許多網站被新的黑帽 SEO 做連結攻擊,可以從幾個項目來看:

  1. 內部網頁大量增加,尤其是搜尋頁沒有擋好的網站,一開始有效頁面會增加,只是對大型網站是看不出來的,因為比例不高
  2. 外部連結數大量增加,因為他們是用網頁連結來建立網站的內容
  3. 內部連結數也會大量增加,主要是搜尋頁沒做好的話,這頁面本身就會連很多網頁
  4. 新發現的網頁也會大量增加,因為產生的頁面都是不正常的網頁,且都是新網頁,所以對爬蟲而言就會發現一堆新網頁
  5. 在行動裝置可用性、網頁強化的部份也會大量增加,但這只是初期,之後被 Google 認為是沒有意義的網頁時就會降回,甚至會被認為品質不好而更低
  6. 雖然一開始有效頁面會增加,但之後『檢索但未索引』的頁面就會增加,代表這些網頁品質不好被排除

相關的文章可以看:

這篇文章寫了主要的解決方法,只是如何看出這問題的嚴重性及解決之後的成果呢?

為了去了解這狀況,寫了個工具把外部連結的資料下載下來做分析,其中最主要是要看兩部份:交換連結的問題與外站黑帽SEO連結攻擊的部份。

目前設定下面幾個網域是做外站黑帽 SEO 連結攻擊:

array(“.top”, “.pro”, “.site”, “.online”, “.wang”);

事實上這些網站是否真的是否在做攻擊,基本上是 95% 肯定的,只是攻擊的方式不同,我們先來看一個正常的網站:

一個還算優良的網站外部連結分布

這資料表都可以從 Google Search Console 下載下來,但這表只有收錄前 1000 筆連結數的網站,因此不是代表所有的連結。

一個好的連結主要是在於不同網站連結落點在不同網頁上越多越好,因為這樣才是最接近於自然分享的狀況。

若是一個網站建立了很多連結在一個網頁上,這往往代表的是在做『交換連結』,從這張表就可以看出來這個網站有多少個網域有超過 1 個以上的連結但只落在 1 個網頁上。

除了這樣的網域數比例不要太高,這邊會有幾個因素,一個是取樣的總量,自然當網站越大,取樣的比例也越低,這邊可以從最低連結數來看,而最高值就是看出來最多的單一網頁網站連結數是多少,通常是越高越不好。

只是這個數字應該是要如何才是好壞,不能用絕對數字來判斷,因為每一個網站的屬性都不一樣,若是 UGC (User Generated Content) 的網站因為各個作者都會做分享連結,這數字也會較高;相對的越知名的網站也因為越多人分享也會越高,因此這數字只能跟自己的之前做比較,而不能完全跟其他網站做比較。

這邊也列出兩張表讓大家參考:

--

--

在今年一月時,國外發動了一批靠搜尋網頁的連結置入內容的『黑帽 SEO 攻擊』,從原本的俄文波蘭文的關鍵字,連到內部搜尋網站去建立網頁,當這方法有效後,就開始在那群黑帽 SEO 流傳,因此後來也有了越南文與泰文的搜尋字,最近已經有韓文與簡體中文出現,甚至已經看到繁體中文了。

這是一個利用網站的內部搜尋字詞,利用網站提供的『Sitelink』的 Schema,這結構化資料提供這個網站的內部搜尋字詞規則,然後建立一個文件,上面的內容是其為了要『加強的關鍵字』的這網頁連結,若是網站的搜尋系統沒寫好的話,就會在 Search Console 出現一堆『要賭博請來 XXX 網~………』這樣的數百個到上千的網頁,也是用數百個到上千不同的網址來建立。

因此若沒處理的話,一下子網站外部連結就多了上百萬到數百萬個外部連結,且因為是不同網域,所以不同網域所建立的不同網頁連結也大量提升,即使這些搜尋字詞很有可能在網站是沒有的,因此搜尋結果很有可能是為 0,但因為很多網站的搜尋結果遇到沒有結果的不見得會回傳 404 的 HTTP Response Code,所以就被建立了一堆垃圾網頁。

更不要說當搜尋系統沒寫好時,因為上面這個攻擊是一長串文字,大約是 40~200 個字詞,若是用例如 Elastic Search 的系統會幫忙切字切詞時,幾乎是一定有結果,也就往往會回傳 200 OK,就會被檢索到與索引到。

但這些網頁不要說是一種中間列表頁,在 Google Crawler 爬蟲角度可能是較無價值的,會被列為『檢索而未索引』的機會很高,而這個也會讓 Google 認為這個網站的品質相當低,這就是很糟糕了。

從外部連結看被置入搜尋頁的案例(上面的圖表是越左邊是越近)

從上面這張圖就可以看到,在最近的時候外部連結無論就連結數、網頁數、網站數都大量提升,但也可以看到每個網站所提供的連結數在下降,這往往代表每個網站提供的連結品質在下降。

而解決這問題的方法很多,有幾個步驟下手:

  1. 直接不讓 Google 檢索搜尋結果頁,例如在 robots.txt 加上 disallow 或是 meta 加入 noindex,這是最激進有效但會損失很多正常網頁被檢索。
  2. 對於沒有搜尋結果的一定要回 404,千萬不能回 200。
  3. 這邊也可以包含只讓 Google 檢索第一頁,而第二頁以後就設 noindex 及 nofollow,雖然這個不見得是為了防止這攻擊,而是為了要提升網頁品質。
  4. 將搜尋字詞超過 10~20 個字以上就回傳 meta noindex,這是較為合理一點的作法,因為這些黑帽 SEO 的攻擊為了置入這些字詞,因此搜尋關鍵字都會較長,因此這樣就可以擋住大部份的攻擊。
  5. 直接把這些網域加入禁止外部連結,這也是相當合理有效的,只是這些黑帽 SEO 一直會換網域,有時防不勝防,因此不能做為唯一的方法,但若有做好的話,一個月左右也會見效。
  6. 對於過長字串的也不只是 noindex,直接拒絕搜尋以及回 403 與 404 也是可以的,但這會不會讓一些合理的搜尋被排除,也是要思考的。
  7. 調整搜尋系統,讓搜尋字詞更精確,雖然這也是最困難的,但也是對於搜尋品質的提升是很重要的。

事實上在絕大多數的時候,並不認為去擋掉黑帽 SEO 的攻擊是網站經營者的責任,真正該責怪的是那些人為了達成自己的目的,用『狼性』包裝做一些不擇手段的事情,建立不真實的行為與內容去誤導使用者與搜尋引擎,更造成他人的困擾。

雖然這個責任應該是在 Google,我也相信若做好搜尋服務的話也該處理這樣的事,但有時也是要自己去注意這些事,要卻檢查有沒有些異常的現像。

只是這次若是用 Google Search Console 所提供的報表中是較難看到的,尤其是大型網站本身就是數百萬頁與數百萬個連結,從『涵蓋範圍的有效』是較難發現,反而從行動裝置可用性可以發現攻擊的蹤跡,但小型網站就很容易看得出來。

--

--

今天我才回想起來,我大一的時候很想考轉學考,而當時想要轉的是社會系與大傳系,最後我唸了許多大學與研究所,理工文商管都唸了,但就沒有法學院,只是現在想想,我現在的工作最接近的科系也就是社會與大傳。

(但這也沒甚麼,我考過、考上過、念過的科系是蠻多的,也不足掛齒)

在慢慢的專注自己的精神後,決定開始投入在幾年前一直規劃想做的事,其中有一項就是:透過用工人智慧或人工智慧做出一套開放的新聞延伸閱讀系統,更大家更容易的看到新聞的前後脈絡以及不同立場不同觀點,讓這個社會從『看見』開始,看見更廣的資訊而不是所謂最對的資訊,從知道每件事有很多複雜的情境,每一個人都有不同的價值判斷,讓這個社會多一點『容忍度』少一點『正義感』。

而在 2014 年的時候,我做了『新文易數』來做為這計劃的起始點,而當時已經解決一個很重要的問題:想要透過演算法去區分不同事件的新聞,不想被早已追逐流量的媒體,聚焦與受限在那一兩條吸睛的新聞炒作,可以一眼看到不同的事情,讓看社會的主導權收回一些。

只是因為前端與資源的不足,這系統雖然有用,但最後只是一些專業的社群或編輯在使用,能夠幫助的人相當有限,當然受益最大的是我自己,畢竟這是我自己做出來給自己用資料偷窺社會的『惡趣味』作品,因此 UI/UX 都始以我個人做出發,雖然是開放使用但就專業經營的角度是完全不及格。

在這段時間,我也任職了 6 ~ 7 間在台灣前 20 大的新聞網站,且現在還有 3 間在任職顧問,但我只是以一個『技術工程師』的角度來協助這些媒體解決問題,主要是技術型 SEO 以及用演算法或群眾智慧來做標籤、延伸閱讀的系統,但我很避免擔任 PM 的角色,事實上也不合適。

事實上其中一間也曾經以類似 PM 的角色嘗試開發一個『閱讀器』,來讓新文易數不再只是記者編輯使用的,而是讓更多的讀者來使用,雖然系統是開發出來,但太多的溝通問題我沒有做好,反而這成為我十年來最糟糕的案子,最後就被結束了。

當然我不認為這十年我的 PM 能力有變好,事實上應該說更了解自己不合適當一個 PM 的角色,因此開發的系統幾乎都是在極低度的資源整合下操作,也就是所須要的資源整合的成本是低的,尤其是在人際溝通方面都是靠別人,雖然是種逃避但是很有效的,因此更可以專心在系統開發或問題解決上面。

只是要真的做出真的讓更多人使用,可以真的達到『改變社會』這目的不是靠我的能力或是我的技能點才能做到,所以最近在思索是否該認真的好好把這計劃找人一起來做,

延伸閱讀 API:

將做出一個開放給媒體來使用的 API,做為以內容、事件、專題為出發的導讀與延伸閱讀系統,讓台灣的媒體不要主要依賴靠『行為關聯』來做推薦,而是提供有脈絡的『進階閱讀』來讓讀者點擊。

這個 API 會在一定效能以內免費的方式讓媒體去使用,但當抓取量與計算量過大時會請求提供機器來分擔計算,若要更精確或客製化的話請提供工程師,或是會媒合其他工程師來協助。

延伸閱讀 Plug-In:

當然也不會預期有足夠的媒體會願意做這樣的事,尤其是更強調自己是唯一『中立、客觀』,且用來監督敵國政府的媒體只會希望立場觀點只有一個,因此也想做一個以使用者角度能夠做的 Plug-In 來讓大家安裝,或是幫『長輩』安裝。

這部份也是利用上面所說的 API 來做到,只是這部份的計能點包含 Chrome 的 Extension 之類的開發,而手機的實作說不定會更麻煩,雖然這也是最須要討論的,因為現在『探索』推的新聞媒體立場都很強,也是因為有強的立場才能有堅定的受眾。

事件定義的群體協作:

在新聞中最須要動態調整的就是事件的區分與定義,雖然在『新文易數』已經可以很容易區分事件,已經做到 90% 的可接受度,但在這樣只有靠人工智慧的演算法而沒有工人智慧的真人參與是相當容易讓品質大打折扣,因為演算法可以協助 90% 以上的工作,但那 10% 才是連人都須要討論、思考的精隨,也是真正的價值。

而如何靠系統整理出每天 3~10 則的事件,也包含讓所有人包含記者編輯可以貢獻這樣的定義,在『專頁儀表板』的標籤系統已經證實只要好的介面,就會有足夠的人來協助,這才是群眾智慧的本質。

事件時間軸與脈絡的自動化圖表:

有了時間的定義之後,最重要的是要讓大家能夠更透過良好的視覺圖表去了解這個事件的脈絡,尤其是跟其相關的『人事時(事件)地物因果』的交互關係,這些很多可以透過對於標籤及標籤的標籤(屬性)來做一定程度的自動化即時圖表。

在新文易數也有用 D3 做過類似的圖表,但那時還沒有標籤的標籤,因此在解讀起來意義並不高,希望這次有了事件的定義及大家不同技能點的協作而做出有意義的事。

事件脈絡的整理與報導:

這部份可能就是利用上面的演算法與系統,加上真正人的寫作與編輯,做出有意義的報導,我一直相信所謂的『自動化新聞』的價值是讓許多工作環節給自動化,不否認的有些新聞的製作真的是類似『樣版』就可以做到,但真正有價值的新聞須要的是『人性』與『文明的累積』。

因此如何用各方的觀點來看這樣的事件,雖然任何報導只要有人的參與就會有『角度』與『立場、觀點』,這也是好的,真正不好的是明明有立場與觀點硬是說自己是中立客觀。

這篇文章是個對未來的期許也是種『公開招募』

很多人說既然我有能力與資源,為甚麼不開一家公司這樣可以更聚合資源發揮更大的效益, 但我一直覺得這個社會已經不須要有更多『功利』為導向的力量去運作,而且這個計劃所須要的『透明』、『自我揭露』以非營利組織運作是更方便的。

加上這個計劃是架構在 Open Service 的 Crowd Sourcing,從一開始就是這樣,本來就不該往為了『資本、資產』的 Private Property 方向做去,當然最重要的以現在的資源與基礎,這想法已經不再是夢想了,因此這會在這時候提出這計劃,因此這計劃會朝下面幾個方向走:

  1. 這是一個非營利的工作,但事實上會想辦法要有收入讓更多人參與跟使用,但不會有盈餘或分紅,只會有工作報酬。
  2. 並不是不會有收入,也會做出分析報告讓大家訂閱,可能是用 Vocus 之類,但這些報告也是公開透明的,只會用時間差來去區隔。
  3. 但更希望的是有更多的人來參與,甚至做出有意義的作品,讓更多有價值的產品出現,去累積『文明』。
  4. 只是這計劃跟其他組織不一樣是更強調參與者的貢獻與責任,所以做的事都要有 Identity 可以識別與 Credit。

這篇文章會同步在『新文易數』、『專頁儀表板』的粉絲團公布,若有興趣的可以在下面留言,或是直接加入 Slack 一起討論 (請進入 #newuser 頻道)。

--

--

應該很多人都發現,台灣前幾大電子商務網站,不要說 UI/UX 問題很多,甚至 Search Engine Optimization (SEO) 也做得蠻不好的,大部份的基本工都沒有做好,這不是例外而是常態,而為甚麼會有這狀況呢?這邊列出幾個困境與迷思讓大家思考,有些是有機會可以突破,但有些是要解決的代價太高。

在這幾年的文章,大概有 7 成都是新聞與內容網站的討論,最近幾年比較少談到電子商務與廣告的問題,但事實上這幾個領域看起來是獨立的,但事實上是更難分家,要有價值的內容才會有流量,而要把這流量轉換成價值除了訂閱外最主要是靠廣告,而廣告的市場有大半是在電子商務上。

雖然說網路的價值若只是種消費,那就未免也太小看網路,但網路能夠帶來與解決的問題是遠超過消費,甚至是消費後與背後的感受跟效應,這些都會影響或決定這個社會,更不要說每個內容都是種『帶風向』,只是這個風向是種較為形而上的思維,還是很切實務的消費產品都是可以的。

只是每一個網頁的內容,每一個使用者的點擊,每一個資訊的接受,每一個思維的轉變,每一個商品的消費,這些都會影響著你我,也是在影響生活,也在改變社會。

而電子商務並不市劊,即使到了『Metverse』的元宇宙,消費與交易還是存在的,重點是這樣的體驗這樣的感受所產生的每一件事都可以是種『文化』,只是我們期望的文是甚麼,那就不在這幾篇文章探討的了。

這邊提出 9 個電子商務中,以 SEO 為導向的議題,讓大家去思考,去反芻,去突破。

I. 商品頁沒內容,因為大多是型錄式的圖

SEO 再怎樣也是『內容為王』的 Content Is King,但人看的內容與機器(爬蟲)看的內容是完全不同的觀點,要做出很好的內容要吸引顧客這個在沒有網站之前就有了,也就是『型錄』。

很多場商真的很努力的去做好型錄,讓消費者看到這樣的資訊有購買的動機,只是這樣的型錄代表的是要有好的圖片與排版,雖然這聽起來不是問題,但每一個電商的商品頁都不一樣,不太可能去做出一個符合大家商品頁都可以看得漂亮的成品,最簡單的方式就是全部都用圖檔來輸出。

把型錄轉成圖檔放在商品頁,可以確保每一家的商品頁都是一樣漂漂亮亮的,更不用擔心有不同的尺吋寬高,只要可以把圖片塞在網頁上就可以,只是搜尋引擎的爬蟲以目前來看是很難轉譯成使用者須要的『內容』供人搜尋,因此剩下的就是標題與描述,甚至有些規格也是圖,那真的文字只剩下購買須知與退貨原則了。

雖然要把這樣的圖片型錄轉成可以敘述的文字是不難的,只是要如何被爬蟲抓到而不會認為是惡意隱藏內容,因為若是把這些文字內容放在網頁上,要做出好的 UI 就可能要大改前端,不然就很難有好的體驗;而把這些字藏起來不讓讀者看到,又是 SEO 的大忌。

當然內容產生的環節可以在很多地方,可以從商品提供者,可以從商品導購者,甚至是消費者都可以,有時不須要居泥於型錄產生,只是這也是另一個問題。

下面有一點會講到型錄式的內容即使是可以抓到內容的,但其內容也不是搜尋想要的。

II. 搜尋帶進來的流量轉換率是低的

這幾乎是每家電商的共同痛處與迷思,搜尋帶進來的流量轉換率是最低的,比廣告還低,雖然轉換率最高的是社群,但社群的流量是最難捉模的。

為甚麼搜尋的導流轉換率這麼低呢?這邊有幾個問題點:

  1. 搜尋通常是為了找評價與比價居多,而真的是為了找『解決問題的答案』不是網站沒有,或者也是不容易去『媒合』,最後找評價體驗的人知道去電商網站看評價都只有好話,就只有廣告台詞沒甚麼意義。
  2. 而比價更不用說,最後比價要贏人家當然就有轉換率,但毛利率就會下降,說要靠這賺錢很難,只能把沒賺到的當作是經營顧客忠誠度的成本,因此也不太可能每一個商品都這樣做。
  3. 雖然搜尋的精神是『媒合問題與答案』,但事實上每一個介紹頁都很努力把商品說得很神、很厲害、必買的樣子,不要說對於消費情境真的有媒合到,更容易流於廣告的觀點就是努力的置入購買須求。
  4. 會用搜尋的人往往是較不容易被勸敗的,在這種多方去思考是否購買的族群是否是好的電子商務目標受眾,這可能是傳統電商懶得著手的一群人,更不要說這樣的轉換率是很低的。

在電子商務中,轉換率低是高階主管最大的迷思,既然轉換率這麼低,就不用分配資源在上面了吧,因此整個搜尋系統須要改善的內容、UI、策略就被束之高閣,在這種惡性循環下 SEO 就越沒有必要被重視了。

PCHome 的 UI/UX 真的是好嗎?(事實上是我想買的東西)

III. UI/UX 的弱勢

SEO 的精義是『找出對的內容用對的字做連結後給對的人點擊』,在內容網站就是要做好延伸閱讀、策展等導讀,在電子商務網站最跟本的就是做到好的 UI/UX 往往 SEO 就會好。

但實務上我們都知道不要說在台面上那幾家知名的電子商務網站 UI/UX 是百年不變,更不要說有沒有符合 SEO 了,因為手上並沒有這幾家主流電子商務網站的 Search Console,能夠做的只有 On Page Analysis,也就是只能看得到網頁的架構而很難看到網站的架構,但也可以發現很多事。

  1. 事實上有些網站也不是沒在做 SEO,甚至是有做在使用者看不到的地方,但為甚麼只能做在看不到的地方是另一個問題。
  2. UI/UX 是弱勢的話,那誰是強勢呢?當然是賺錢的單位說話了,而在這種情型下說要去追求好的『使用者體驗』就是種神話了。
  3. 除了賺錢的單位最大外,以他們的角度出發最須要聽的就是廠商了,廠商有甚麼要求,UI/UX 單位只能照作外,也不能說甚麼話吧。
  4. 網站體驗只是 UI/UX 的一環,完整的 UX 體驗包含商品本身,運送、客服等等的環節,只是這個就是跨部門跨層級了,甚至是整個架構的思維轉換。

不否認的在電子商務網站因為在利潤中心為思維的情型下,不要說是 UI/UX 的人,技術單位也更容易被放在低階,只是真的要提升這部份須要很多資源與技術才能做到,但說要分配資源的狀況,就是接下來要談的事了。

--

--