「達文西的密碼」、「安妮日記」、「哈利波特」……不少人為它們徹夜刨書如痴如醉。但你可知道,它們在出版前受過百般冷待,被反覆斷言「勾不起讀者興趣」、「沒有閱讀價值」。判斷一本作品能否成為大熱是一門高深莫測的學問,即使是最有經驗的編輯眼下也難保沒有滄海遺珠。如今,要撥開禾稈,找到真.珍珠,大數據似乎幫得上忙?
暢銷有定律:The Bestseller Code
能判別書籍出版後能否大賣的電腦演算法聽起來似乎過於科幻,但曾任蘋果公司文學研究員的 Jodie Archer 和大學英文副教授 Matthew L. Jockers 證明這並不是天方夜譚。他們利用幾千部電腦,前後研究 2 萬本以上小說,找出分辨暢銷與否的特點,從眾多數據中發掘書籍暢銷的秘密。最後他們使用得出的「暢銷預測計」回顧過去 30 年的出版小說,都能準確預測出榮登紐約時報暢銷榜的作品。這個剖釋近代暢銷書的「暢銷計」,是將於今個月出版的 The Bestseller Code: Anatomy of the Blockbuster Novel。
電腦的文學鑑賞力
這個演算法孕育於 2008 年的史丹福大學,由原是數位人文學教授的 Jockers 研究,但它最初的能力只止於辨別莎翁作品的種類。當時他的學生 Archer 認為這種能力實在平平無奇:「地球人都知道『馬克白』屬於悲劇,這個演算法需要回答一些我們無法回答的問題。」這個問題便是:「暢銷書為何吸引眾多讀者?」
此前不得不提的,是史上首個以大數據選書的網上閱讀平台:Inkitt。Inkitt 通過追蹤大量網上讀者的評論,根據他們對作品評價的優劣高低,選擇出版成實體書的作品,首本根據民意選出的新書 Bright Star 將於明年夏天出版。另外,2011 年創辦的 Jellybooks,也藉提供海量的電子書及試閱本,換取讀者的閱讀習慣數據,協助出版過程的營銷策劃。這些都是大數據在出版界立下的功績。
而 The Bestseller Code 的獨到之處,在於結合數據以及傳統文學鑑賞能力,如 Archer 在 2014 年的論文提到一樣,他們一方面以大量出版書訓練電腦的賞析能力,一方面更仔細入微的解構煉成暢銷書的用詞和語法。
暢銷書的特徵
這些演算法也不是萬能,人類分析書本,會看作者的用字習慣、典故等等,這些都不是沒有文學涵養的人能企及的。但演算法能夠總括較受歡迎的作家的語言色彩,這些作家大多採用直白、甚或口語化的文字,當中語氣較強烈的文字如「need」比「want」更常出現;暢銷書中亦常出現「do」,反映讀者偏好具行動力的主角,反之被動消極的角色是大忌。
語言以外,作品主題也是極好的暢銷指標。儘管榜上有名的暢銷書種類多樣,但按主題歸納起來,暢銷與否也是有跡可尋。 Archer 指有關「人與人之間親密的關係」(human closeness)的主題是暢銷頭牌,所謂「關係」不一定是愛情,也可以親情或友情。 不過 Jockers 解釋:「感情泛濫便過猶不及,如能配合其他主題,感情線佔 30% 則正中紅心。」根據研究,也有互相輝映,成為最佳拍檔的雙生主題例如「吸血鬼與愛情」,但如果作者太貪心包攬過多主題就註定適得其反。出乎意料的是,研究指「性愛」只屬小眾口味,並非暢銷靈藥。而去年大熱的情慾小說 Fifty Shades of Grey 的暢銷之道,在於其轉折的劇情引人入勝,以及書中角色之間互為牽引的親密情感。
未來演算法在出版界的角色
對於這本姿態有如出版聖經的 The Bestseller Code,出版商似乎也各有看法。倫敦文學出版社 Curtis Brown 的行政總裁 Johnny Geller 興趣盎然,早一個月已預訂了這本書,他認為這本書能幫助出版社在篩選來自五湖四海的作品稿件時,發掘有潛力的作品,但說到底只是輔助工具,不可能取代人類:「我也經常使用演算法,但它的能力有限。你需要一個有血有肉的人類,一個有『被驚豔能力』的人。」
紐約出版社 Knopf 的編輯 Carole Baron 卻質疑這本書的「預知」能力:「你不能預視未來的時代精神和思潮,又怎能預視未來的文學和藝術走勢?」
不過,這本「暢銷定律大典」的兩位作者都不認為,只需跟足大典所列的特徵寫作便能寫出暢銷書,而且也沒有即時計劃將其投入商業用途,對他們而言這只是回答了他們最初的問題——暢銷書為何暢銷。但眼看出版社因怕虧本而不敢投資於新手,長期讓老牌作家坐榜,也許這本出版聖經會是鼓勵出版商物色新秀的一劑強心針,也好讓當年的羅琳今天的無名寫手少吃幾次閉門羹,發掘多幾本觸動人心的小說。