ไม่ต้องลุ้นอีกต่อไปแล้วว่านิยายที่เพิ่งออกวางขายวันนี้จะไต่ขึ้นอันดับขายดีในชาร์ตของ The New York Times ได้หรือไม่ เพราะในหนังสือ The Bestseller Code มีอัลกอริทึมที่ใช้วิเคราะห์นิยายแต่ละเล่มได้แล้วว่าจะรุ่งหรือจะร่วง ฟันธงได้ว่ามีโอกาสจะกลายเป็นนิยายขายดีมากน้อยแค่ไหน
หนังสือ The Bestseller Code เล่าถึงงานวิจัยของโจดี อาร์เชอร์ (Jodie Archer) และแมททิว จอกเกอร์ (Matthew Jockers) พวกเขาตั้งสมมติฐานขึ้นมาว่า หากไม่ต้องคำนึงถึงชื่อเสียงอันโด่งดังของนักเขียนที่มีอยู่แล้ว หรืองบการตลาดก้อนใหญ่ของสำนักพิมพ์ที่ใช้ผลักดันยอดขาย พวกเขาคิดว่านิยายที่ขึ้นชาร์ตขายดีของ The New York Times ไม่ได้มาเพราะโชคช่วย แต่น่าจะมีรูปแบบหรือรหัสที่เป็น Bestseller DNA ฝังตัวซุกซ่อนอยู่ในตัวหนังสือ ในพล็อต และในวิธีการเล่าเรื่องของนิยายแต่ละเล่ม
พวกเขาสร้างโมเดลคอมพิวเตอร์ขึ้นมาเพื่อวิเคราะห์นิยายกว่า 20,000 เล่ม หารูปแบบของคำ เนื้อเรื่อง พล็อต และสไตล์การเขียน แล้วขุด ร่อน และสกัดหา Bestseller DNA รหัสของนิยายขายดีที่ซ่อนอยู่ในชุดข้อมูลอันใหญ่มหาศาล
สอนคอมพิวเตอร์ให้อ่านนิยาย
โจดีเคยทำงานเป็นบรรณาธิการฝ่ายคัดเลือกต้นฉบับที่สำนักพิมพ์เพนกวินในลอนดอน เธอตั้งข้อสงสัยไว้ตั้งแต่ตอนที่นิยาย The Da Vinci Code ของแดน บราวน์ ขายดิบขายดีกว่า 80 ล้านเล่ม เวทมนตร์แบบไหนกันที่แดน บราวน์ ร่ายไว้ในตัวหนังสือและเรื่องเล่าของเขาที่ทำให้นิยายกลายเป็น Bestseller
โจดีออกจากเพนกวินเพื่อไปศึกษาต่อปริญญาเอกที่มหาวิทยาลัยสแตนฟอร์ด ที่นั่นเองทำให้เธอรู้จักกับแมททิว หนึ่งในผู้ก่อตั้งห้องทดลองวรรณกรรมของสแตนฟอร์ด ในตอนนั้นแมททิวกำลังทำวิจัยโดยใช้คอมพิวเตอร์สร้างอัลกอริทึมที่ใช้วิเคราะห์กลุ่มคำและสไตล์การเขียนเพื่อแยกแยะว่าผู้เขียนเป็นชายหรือหญิง หรือเป็นชาวอเมริกันหรืออังกฤษ
โจดีและแมททิวรวมทีมกันเพื่อค้นหา The Bestseller Code ตามข้อสงสัยของโจดีที่ว่า ต้องมีรหัสหรือสัญญาณอะไรบางอย่างที่ฝังตัวเป็น Bestseller DNA ในนิยายขายดีแต่ละเล่ม พวกเขาเริ่มต้นด้วยการสอนคอมพิวเตอร์ให้อ่านนิยายด้วยวิธีการของ Text Mining หรือการทำเหมืองข้อมูลตัวหนังสือเพื่อให้คอมพิวเตอร์แยกคำ วลี และประโยคได้อย่างแม่นยำและถูกต้อง
จากนั้นคอมพิวเตอร์จะถูกโปรแกรมให้ค้นหารูปแบบต่างๆ ที่ปรากฏในถ้อยคำ ผ่านกระบวนการ Machine Learning ในขั้นนี้คอมพิวเตอร์จะบอกได้ว่านิยายเรื่องดังกล่าวมีการใช้รูปแบบคำที่สำคัญอย่างไร เช่น การใช้ the การย่อคำ ความถี่ของการใช้เครื่องหมายวรรคตอน และรูปแบบของคำเหล่านี้ประกอบกันเป็นธีมของเรื่อง ร้อยเรียงเป็นพล็อต แสดงน้ำเสียง และสะท้อนวิธีคิดของตัวละครอย่างไรบ้าง
พวกเขาเริ่มต้นให้คอมพิวเตอร์ค้นหารูปแบบในนิยายที่แตกต่างกันกว่า 28,000 รูปแบบ ก่อนจะพบว่ามีรูปแบบที่สำคัญแค่ประมาณ 2,800 รูปแบบ ที่นำมาวิเคราะห์ธีม พล็อต สไตล์การเขียน ตัวละครในเรื่อง และเป็นรูปแบบสำคัญที่สามารถแยกนิยาย Bestseller ออกจากนิยายอื่นที่ไม่ติดชาร์ตได้
คอมพิวเตอร์จะรวมคะแนนในการวิเคราะห์ 2,800 รูปแบบนี้ โดยให้ค่าเป็นเปอร์เซ็นต์ว่านิยายเล่มนั้นมีโอกาสมากแค่ไหนที่จะเป็น Bestseller
ท้ายที่สุด ในการศึกษาสำหรับหนังสือเล่มนี้ พวกเขาจำกัดการวิเคราะห์ให้แคบลง จากนิยาย 20,000 เล่ม เหลือนิยาย 5,000 เล่มเฉพาะในช่วง 30 ปีที่ผ่านมา ในจำนวนนี้มีนิยาย 500 เล่มที่เป็นนิยาย Bestseller ในชาร์ตของ The New York Times
4 ปีของการศึกษาวิจัย พวกเขาได้อัลกอริทึมที่สามารถตรวจจับ Bestseller DNA ที่ว่านี้ได้ ซึ่งอัลกอริทึมนี้สามารถฟันธงว่านิยายเล่มนั้นจะเป็นนิยาย Bestseller หรือไม่ และมีความแม่นยำกว่า 80 เปอร์เซ็นต์
อัลกอริทึมของพวกเขาให้คะแนนนิยายของนักเขียนดังอย่าง Inferno ของแดน บราวน์ 95.7 เปอร์เซ็นต์, The Lincoin Lawyer ของไมเคิล คอนเนลลี 99.2 เปอร์เซ็นต์ และให้คะแนนนิยายขายดีของนักเขียนหน้าใหม่อย่าง Luckiest Girl Alive ของเจสสิกา โนลล์ 99.9 เปอร์เซ็นต์, The Martian ของแอนดี้ เวียร์ 93.4 เปอร์เซ็นต์ หรือนิยายโรมานซ์ Bare to You ของซิลเวีย เดย์ 91.2 เปอร์เซ็นต์ ตัวอย่างทั้งหมดนี้คือนิยายขายดีในชาร์ตของ The New York Times
พวกเขาถอดรหัส Bestseller ได้แล้ว!
The Bestseller Code
โจดีและแมททิวสอนคอมพิวเตอร์ให้อ่านหนังสือ 5,000 เล่ม เพื่อค้นหารูปแบบกว่า 2,000 รูปแบบที่จะนำมาวิเคราะห์ธีม พล็อต สไตล์การเขียน และตัวละครในเรื่อง จนได้อัลกอริทึมที่สามารถทำนายโอกาสเป็น Bestseller ของนิยายแต่ละเล่มได้
ในหนังสือ The Bestseller Code เปิดเผยรูปแบบสำคัญๆ หลายอย่างที่น่าสนใจ ตัวอย่างเช่น
– นิยาย Bestseller จะมีธีมหลักแค่ 3-4 ธีม เป็นเนื้อหาหลักประมาณ 30 เปอร์เซ็นต์ของเรื่อง ธีมเด่นที่สุดในนิยาย Bestseller แทบทุกเล่มคือธีมที่ว่าด้วยความใกล้ชิดกันของมนุษย์ ธีมรองๆ ลงมาคือเรื่องที่เกี่ยวข้องกับบ้าน ครอบครัว งาน เด็ก และเทคโนโลยีสมัยใหม่
– นิยาย Bestseller มักจะมีการดำเนินเรื่องเป็น 3 ช่วงเท่าๆ กัน
– ถ้าตัวละครหลักเป็นผู้หญิง มีความเข้มแข็ง อายุไม่มาก นิสัยเข้ากับคนอื่นไม่ค่อยได้ นิยายเล่มนั้นมีโอกาสเป็น Bestseller สูง (ตัวละครแบบนี้เห็นชัดใน Gone Girl, The Girl on the Train, The Girl with the Dragon Tattoo)
– นิยาย Bestseller ใช้คำว่า need มากกว่า want, ใช้คำว่า really มากกว่า very
– เซ็กซ์ ไม่ใช่สิ่งสำคัญในนิยาย Bestseller
– นิยาย Bestseller ใช้การย่อคำแบบคำพูดในชีวิตประจำวัน มากกว่าการใช้ประโยคเต็มสมบูรณ์
– นิยาย Bestseller ใช้เครื่องหมายตกใจไม่บ่อยนัก
– หากชื่อเรื่องสั้น กระชับ และขึ้นต้นด้วย The แล้วตามด้วยคำนามทั่วๆ ไป (The Goldfinch, The Firm) นิยายเล่มนั้นมีโอกาสเป็น Bestseller สูง นิยายชื่อยากๆ มักจะตกลิสต์
– นิยาย Bestseller มีหมามากกว่าแมว
นิยายเล่มที่ได้คะแนน 100 เต็ม 100
เมื่อวิเคราะห์นิยายแต่ละเล่มโดยใช้อัลกอริทึมของ The Bestseller Code คอมพิวเตอร์จะออกรายงานประมาณ 15 หน้า อธิบายรูปแบบต่างๆ ที่ปรากฏในนิยาย เช่น ธีมทั้งหมดในเรื่องมีอะไรบ้าง แต่ละธีมเป็นสัดส่วนเท่าไร มีความถี่ของการใช้คำ หรือเครื่องหมายแบบไหนที่ซ้ำบ่อยหรือมีนัยสำคัญ
หนังสือ The Bestseller Code ยกตัวอย่างผลการวิเคราะห์นิยายที่ได้คะแนนสูงสุดจากอัลกอรึทึมนี้
1. นิยายมีธีมหลัก 3 ธีม รวมกันเป็นสัดส่วนประมาณ 30 เปอร์เซ็นต์ของทั้งเรื่อง ธีมหลัก 3 ธีมของเรื่องคือ หนึ่ง เทคโนโลยีสมัยใหม่ 21 เปอร์เซ็นต์ สอง งานและเรื่องราวเกิดขึ้นในที่ทำงาน 4 เปอร์เซ็นต์ และสาม ความใกล้ชิดเกี่ยวข้องกันของมนุษย์ อีก 3 เปอร์เซ็นต์
2. การดำเนินเรื่องมี 3 ช่วงแบบเดียวกับ Fifty Shades of Grey และอารมณ์ตอนจบดำดิ่งกว่าตอนเริ่มต้น
3. สไตล์การเขียนอยู่กึ่งกลางระหว่างความเป็นผู้หญิง 52 เปอร์เซ็นต์ และความเป็นชาย 48 เปอร์เซ็นต์ ใช้การย่อคำมากกว่า ใช้เครื่องหมายตกใจไม่บ่อยนัก มีการใช้เครื่องหมายวรรคตอนตัดประโยคในความยาวที่เหมาะเจาะ
4. ตัวละครหลักเป็นผู้หญิง คำกริยาที่ใช้บ่อยคือ need และ want
โดยสรุป นิยายเรื่องนี้ได้คะแนนความน่าจะเป็นนิยาย Bestseller 100 เต็ม 100
โจดีและแมททิวเดาว่า นิยายที่ได้คะแนนสูงสุดเล่มนี้น่าจะเป็นนิยายของนักเขียน Bestseller รุ่นใหญ่อย่าง ลี ไชลด์, นอรา โรเบิร์ตส หรือจอห์น กริแชม เพื่อนบางคนพนันว่าอาจจะเป็นนิยายของนิโคลัส สปาร์กส หรือเจเน็ต อีวาโนวิช
ในท้ายที่สุดแล้ว นิยายเล่มที่ได้คะแนนสูงสุดจากอัลกอริทึมของพวกเขาคือ
The Circle ของเดฟ เอกเกอร์ส
The Circle นิยายดิสโทเปียสไตล์ 1984 เรื่องราวของหญิงสาว (ได้คะแนน: ตัวละครหลักเป็นผู้หญิง) ที่เพิ่งเริ่มงานวันแรก (ได้คะแนน: ธีมสำคัญคืองาน) ในองค์กรไอทียักษ์ใหญ่ระดับโลกที่มีเทคโนโลยีอันน่าสงสัยซึ่งจะครอบงำวิถีชีวิตมนุษย์ (ได้คะแนน: ธีมสำคัญคือเทคโนโลยีสมัยใหม่) ชื่อเรื่องสองพยางค์ สั้น และกระชับ (ได้คะแนน)
ทั้งโจดีและแมททิวไม่เคยอ่าน The Circle ตอนที่รู้ผลนี้ พวกเขาบอกว่ามันคงจะสนุกดีตอนที่ได้อ่านนิยายเรื่องนี้ พร้อมกับให้คะแนนไปด้วยทุกครั้งที่อ่านเจอรูปแบบที่เป็น Bestseller DNA ตามที่อัลกอรึทึมวิเคราะห์ไว้
บรรณาธิการคัดเลือกต้นฉบับจะตกงานไหม
ถ้า The Bestseller Code กลายเป็นโปรแกรมสำเร็จรูปแล้วขายให้กับสำนักพิมพ์ ต้นฉบับนิยายเล่มใหม่ที่ถูกวิเคราะห์โดยอัลกอริทึมสามารถทำนายได้เลยว่าจะเป็นนิยาย Bestseller หรือไม่ บรรณาธิการที่ทำหน้าที่คัดเลือกต้นฉบับจะตกงานไหม
โจดีและแมททิวบอกว่า The Bestseller Code ไม่ได้จะมาแย่งงานบรรณาธิการคัดเลือกต้นฉบับหรอก อัลกอริทึมเป็นการวิเคราะห์รูปแบบจากนิยายที่มีคนเขียนขึ้นมาแล้ว วิธีการดำเนินเรื่องแบบใหม่ๆ และเรื่องเล่าที่คาดไม่ถึงอาจจะสอบตกถ้าผ่านการวิเคราะห์โดยอัลกอริทึมนี้ พวกเรายังต้องการเซอร์ไพรส์จากนิยายรูปแบบใหม่ๆ หรือจากนักเขียนหน้าใหม่อยู่ตลอดเวลา
- The Circle ฉบับภาษาไทยใช้ชื่อว่า เดอะ เซอร์เคิล แปลโดย มณฑารัตน์ ทรงเผ่า สำนักพิมพ์เลเจนด์บุ๊คส์ (ISBN: 9786169205272)
- หนังสือ 100 เล่มในช่วง 30 ปี จัดอันดับตามอัลกอริทึมของ The Bestseller Code
- Dave Eggers – The Circle
- Jodi Picoult – House Rules
- Maria Semple – Where’d You Go, Bernadette
- Michael Connelly – The Burning Room
- David Baldacci – The Hit
- Patricia Cornwell – Scarpetta
- Harlan Coben – Six Years
- James Patterson – Double Cross
- Janet Evanovich – Twelve Sharp
- William Landay – Defending Jacob
- Tom Rachman – The Imperfectionists
- Jessica Knoll – Luckiest Girl Alive
- Matthew Quick – The Silver Linings Playbook
- Wally Lamb – The Hour I First Believed
- Graeme Simsion – The Rosie Project
- Lisa Scottoline – Look Again
- Tom Clancy – Dead or Alive
- Liane Moriarty – The Husband’s Secret
- Tim LaHaye and Jerry Jenkins – The Mark
- Jennifer Weiner – Best Friends Forever
- Emily Giffin – Heart of the Matter
- Lisa Genova – Still Alice
- Mitch Albom – The First Phone Call from Heaven
- Gillian Flynn – Gone Girl
- Jonathan Tropper – This Is Where I Leave You
- Nelson DeMille – Wild Fire
- Kate Jacobs – The Friday Night Knitting Club
- Stephen King – Cell
- Barbara Kingsolver – Flight Behavior
- Jonathan Franzen – Freedom
- Dan Brown – The Lost Symbol
- Chris Culver – The Abbey
- Jane Green – Second Chance
- Vince Flynn – The Last Man
- John Grisham – The Associate
- Chimamanda Ngozi Adichie – Americanah
- Emma McLaughlin and Nicola Kraus – The Nanny Diaries
- Lauren Weisberger – The Devil Wears Prada
- Michael Crichton – Next
- Sylvia Day – Entwined with You
- Kristin Hannah – Firefly Lane
- Lee Child – Personal
- Tatiana de Rosna – A Secret Kept
- Jacquelyn Mitchard – The Deep End of the Ocean
- Paula Hawkins – The Girl on the Train
- Emma Donoghue – Room
- J. Courtney Sullivan – Maine
- Raymond Khoury – The Last Templar
- J. K. Rowling – The Casual Vacancy
- Andy Weir – The Martian
- Chad Harbach – The Art of Fielding
- Jonathan Safran Foer – Extremely Loud and Incredibly Close
- Jamie McGuire – Beautiful Disaster
- Anita Shreve – Testimony
- Jennifer Egan – A Visit from the Goon Squad
- Curtis Sittenfeld – American Wife
- E. L. James – Fifty Shades of Grey
- Jan Karon – Somewhere Safe with Somebody Good
- Nora Roberts – The Next Always
- Tana French – In the Woods
- Nicholas Sparks – The Choice
- Jojo Moyes – Me Before You
- Julian Barnes – The Sense of an Ending
- Jess Walter – Beautiful Ruins
- Christina Baker Kline – Orphan Train
- Alice Sebold – The Lovely Bones
- Dean Koontz – The Darkest Evening of the Year
- Wm. Paul Young – Cross Roads
- Donna Tartt – The Goldfinch
- Junot Díaz – The Brief Wondrous Life of Oscar Wao
- Eric Van Lustbader – The Bourne Betrayal
- Jennifer Probst – The Marriage Bargain
- Heather Gudenkauf – The Weight of Silence
- Terry McMillan – A Day Late and a Dollar Short
- Aravind Adiga – The White Tiger
- Robert Galbraith – The Cuckoo’s Calling
- Khaled Hosseini – And the Mountains Echoed
- David Sedaris – Squirrel Seeks Chipmunk
- Mary Higgins Clark – Daddy’s Gone a Hunting
- Charlaine Harris – Dead in the Family
- Garth Stein – The Art of Racing in the Rain
- A. S. A. Harrison – The Silent Wife
- Jamie Ford – Hotel on the Corner of Bitter and Sweet
- Anne Tyler – A Spool of Blue Thread
- Danielle Steel – The Klone and I
- John Sandford – Easy Prey
- Max Brooks – World War Z
- Eleanor Brown – The Weird Sisters
- Jhumpa Lahiri – Unaccustomed Earth
- Adam Johnson – The Orphan Master’s Son
- Nicholas Evans – The Horse Whisperer
- David Nicholls – One Day
- Elizabeth Strout – Olive Kitteridge
- Stieg Larsson – The Girl Who Kicked the Hornets’ Nest
- Darcie Chan – The Mill River Recluse
- John Hart – The Last Child
- Chris Cleave – Little Bee
- Joe Klein – Primary Colors
- Ann Patchett – State of Wonder
- Dennis Lehane – Shutter Island