來Matters已經三年了,也寫了六十多篇文章,想著多少也能看出點規律了,於是就試著分析了一下自己的周報數據,正好也分享一下一些小發現。或許這篇文章的許多内容你會覺得不分析也能感覺出來,那就當是我做了個印證觀點的工作,各位朋友看看結果樂呵樂呵就好。

首先聲明,這篇文章結論僅供參考,一切基於我自己的數據。更詳細不足點説明我放在了結尾。

廢話不多説,看數據。

相關性分析

我從數據周報中的26列數據中挑選出了部分指標,計算出他們兩兩之間的相關係數。

部分周報重要指標之間的相關係數矩陣

這裏的相關係數描述的是兩個指標之間的綫性相關關係,數字越接近於1,兩者就正相關性就越強,越接近于0就越不相關,越接近於1負相關性就越强。一般來説,相關係數能超過0.4就算是有一定的相關性,超過0.7就可以説有較强相關。

由於每個人關注指標的不同,大家可以參考圖中自己感興趣的指標之間的相關關係。我個人比較關注以下這幾個指標,它們大體可以衡量文章傳播的深度和廣度,以及文章受讀者認可的程度。

登陸用戶有效閱讀時長_小時
總瀏覽次數(登陸用戶有效閱讀次數+總訪客瀏覽次數)
拍手數
收藏數

長篇大論才是王道?

眼尖的朋友可能發現了,在上面的圖表中涉及的數據中,除了字數這個指標外,其他指標均爲這篇文章被閲讀所產生的數據,這些指標並不是文章本身的屬性(比如,字數,發佈時間,内容,作者等等)。因此,嚴格來説他們都不是那個最根源的原因,理論上很難判斷這些指標是誰決定了誰。比如,我們可以看到拍手數和收藏數都與登錄用戶閲讀時長有很大的相關性,但是到底是拍手多導致讀的人變多,進而被閲讀時間也變多呢?還是反過來,閲讀閲讀時長長的文章更容易被用戶刷到進而增加了被拍手的機會?我們無法直接判斷誰是因誰是果。

但是,我們還是能觀察這些閲讀指標之間的相關性,來間接得出一些結論。比如,登陸用戶有效閱讀時長與訪客瀏覽次數之間有著很强的相關關係,又因爲訪客閲讀文章并不會導致登陸用戶有效閱讀時長增加,因此可以説登錄用戶閲讀時間越長,越容易被(訪客或登錄用戶)看到=越容易登上熱門前排=有更多機會被拍手,也就是說登錄用戶閲讀時長很可能是拍手數的因而不是果。想必這一點,各位作者用戶深有體會,從年度最長閱讀時間文章 TOP 10 裏面的文章也能可見一斑,這篇文章只是從數據的角度印證了這種體感,並提供一個大體的參考數字。

既然如此,很自然就會有人想到:那寫長文不就好了?文章越長每個讀者閲讀的時間就越長,就越容易衝上熱門前排,也就越容易被拍手吧?從我自己文章的數據來看,我的結論是:大體上是這樣的。字數與閲讀時長的相關係數是0.58,而閲讀時長與拍手數的相關係數又是0.74,字數與拍手數直接的相關係數達到了0.42。這意味著雖然但文章字數并非決定性因素,但長文確實比較容易獲得更多的拍手。對於寫詩歌或短篇散文的作者來説,這種機制或許並不公平,之前也有用戶吐槽過這個規則。

爲了防止用戶通過刷拍手來冲熱門,用閱讀時間來決定誰熱門文章確實是一個不錯的方法,如果要進一步完善的話,我認爲可以考慮的是用閲讀時間除以字數構建新的指標,並賦予這一新指標一定的權重來抵消現有推薦機制的過度傾斜。這方面的内容,後面也會有所涉及。

真金白銀也很重要?

除了閲讀時間(從根源來説應該是字數)這一指標外,另一個重要的指標就是HKD的支持次數。不知道朋友們有沒有這樣的體驗:一旦一篇文章被支持,它就可以立刻衝到熱門前排,並持續很長一段時間。

作爲一個普通用戶,我大概能夠感覺到有支持與否對文章的曝光度有一定影響,那麽數據是怎樣的呢?首先,我們可以看到上面的相關分析圖表中,hkd支持次數與閲讀時常的相關係數有0.42,證明有一定相關性;而有無likecoin的支持對有效閱讀時間的影響並不大。隨後,我單獨考察了有無hkd支持這一變量對有效閲讀時長的影響。鑒於文章長度不同,因此把字數放在橫坐標,有效閲讀時長為縱坐標,每個點代表一篇文章,藍色點代表沒有hkd支持的文章,橘色點代表有hkd支持的文章。相應地,藍色直綫代表沒有hkd支持的文章的綫性擬合曲綫,橘色直綫代表有hkd支持的文章的綫性擬合曲綫。


從這幅圖我們可以得出兩個結論。第一,有hkd支持的文章有效閲讀時長要明顯多于同等篇幅的文章。第二,橘色綫的比藍色綫更陡峭,證明每增加一個字,有被hkd支持的文章的有效閱讀時間的增加量要多於沒有被支持組,也就是說,收到hkd支持的可能會放大篇幅的“威力”。當然,由於本人能力有限,被hkd支持過的文章總共也就九篇,因此這個結果置信度沒那麽高,結論僅供參考。

字數真的越多越好?

上面説到字數和有效閲讀時間之間存在正相關,那麽如果我們用有效閱讀時間除以字數,得出每個字所獲得的有效閲讀時間(姑且稱之爲“單字閲讀時間”),就可以排除文章之間字數差異帶來的影響。

當然,在在現如今的規則下,就算除以字數后的閲讀時間仍然與字數有較弱的正相關關係(因爲篇幅的增加導致的關注量增加并非綫性),但是與字數的相關係數從0.58降到了0.34。這説明雖然寫長文還是王道,但是并不是字數越多,邊際收益(每增加一個字所帶來的單字閲讀時間的增加)并不是一成不變的。

從下圖中我們可以發現,在現行規則下,相比於2000字以下的短文,在2000-4000字區間的文章有較高的單字閲讀時間,而當字數上升到4000字之後,單字閲讀時間并沒有顯著增加,甚至有減少的傾向。當然,這只是基於我的文章的數據的結果,換做是不同的作者最佳的字數區間可能會有所不同,而且不排除某些爆款文章會成爲異常值——身在最佳區間外依然保持超高單字閲讀時間。

那内容呢?

我分析這些數據,并不是想説明只要找到站方的推薦規律就可以高枕無憂,更不是要大家去鉆漏洞。相反,我認爲所有高閲讀時常、高收藏數以及高拍手的文章都有一定的内容保證(只是文章到底值不值得那麽多閲讀時常和拍手贊賞就仁者見仁智者見智了),畢竟沒有人會僅僅因爲文章寫的長而拍手或收藏。

説到這裏或許有人會問,那内容你分析了嗎?很遺憾,以我的能力和所掌握的數據來看還是有難度的。前文已經提到,作者的文章數據周報中,只有標題、字數和發佈時間是文章本身的屬性,其他都是閲讀產生的指標性數據,巧婦難爲無米之炊,怎奈關於文章屬性的數據太少。

但是,也不是不能分析。沒有現成的數據可以創造數據(當然我的意思不是編造數據)。目前我能想到做法是給每篇文章添加内容標簽數據,就像我們給文章添加標簽一樣。具體做法如下圖,一個屬性就是一列數據,符合該屬性就是1,不符合就是0或空值。你完全可以根據自己關注的方面去構建標簽,説不定會有意想不到的發現。由於我的文章總共也就60多篇,再加上自己寫的文章大多記得内容,我就直接手動添加了,文章較多的用戶可以考慮用爬蟲的方法構建自己的標簽生成方法。由於這部分與每個作者的創作内容息息相關,作者之間存在很大差異,這部分的分析我就不展開了,權當是抛磚引玉。

内容標簽化示例

關於其他屬性的分析

其實除了字數和内容主題,我們還是可以從其他角度量化文章屬性。比如,發佈時間。星期幾發佈會比較有人看呢?一天中什麽時間段發佈會比較有機會成爲熱門?再比如,文章的閲讀數據指標與標題的字數有沒有關係?和有沒有副標題有沒有關係?和摘要字數有沒有關係?再比如,通過對詞頻進行統計,找出某個詞(實詞或虛詞)出現次數是否對文章閲讀時長有沒有影響等等。這些我都還沒有探究,有能力和興趣的朋友可以試著玩一下,或許會有意想不到的發現。

分析的不足和缺陷

第一,數據量不足,難以得出統計上特別靠譜的結論,文章數如果超過一百的話可能會好很多。

第二,分析用到的樣本僅限於我自己的文章,由於創作内容和風格不同,換做其他作者的文章數據可能得出不同結果。因此,當把不同作者文章放在一起分析的時候,作者本身應當作變量考慮。

第三,沒有做嚴密的統計檢驗。這篇文章説到的差異僅僅是樣本反應出來的差異,至於這些差異在多大程度上能推廣到整體,以及這種差異是恰巧因爲樣本選取發生的還是真的普遍存在,這篇文章并沒有進行檢驗。

第四,相關不等於因果,本文只是用相關係數這一指標和我作爲用戶的經驗,對因果性進行推論,但隨著掌握更多信息,本文的推論完全有可能被證明是錯誤的。

所以,各位朋友:

以上内容僅供參考!

以上内容僅供參考!

以上内容僅供參考!