社交账号登录

社交账号登录

0/34

上传头像

拖拽或者缩放虚线框,生成自己满意的头像

头像

预览

忘记密码

设置新密码

智能

那些作品版权过期的作家,计算机替他们排了个榜

唐云路2014-11-19 20:58:24

每个人心中当然都有一个最爱作家的榜单,有一个计算项目将第一名颁给了那个写了《荒原》的 T·S·艾略特。

根据著作权保护规则,作家和艺术家的作品版权期限是作者在生以及去世后的 50 年,截止于作者死亡后第 50 年的 12 月 31日。于是每年的 1 月 1 日,都有一大批作品进入公共领域。

这意味着任何人都可以自由利用这些作品,包括复制、数字化以及重新出版发行。

上图列出了 2014 年进入公共领域的一些知名作者,比如位于第二排左数第二位的尼古拉·特斯拉,和位于第三排最右的碧雅翠丝· 波特女士,她是彼得兔系列童书的作者。

人们用“公共领域日”庆祝版权失效的那一刻。一些公益项目则将这些进入公共领域的书籍进行数字化,令更多读者能够从中获益。肇始于 1971 年的古登堡计划是其中最著名的一项,该计划将那些公版书籍的原本制作成电子书,目前已经拥有超过 40000 本馆藏。此外,成立于 2007 年的 LibriVox 则致力于将公共领域的书籍以有声书的形式制作、保存,目前它们平均每月能够生产 89 本有声书。

然而,每年有无数的作品进入公共领域,究竟这当中哪些书籍是真正值得注意的,就需要一个排名系统。建立一个人工审核的评定委员会,既不现实也不够客观。如果计算机能够承担这一任务,客观性就无需担心了。

日前,来自美国达特茅斯学院的 Allen Riddell 研发出一种算法,能够通过数据分析,客观地指出哪些作者是值得注意的,哪些作品在过去被忽视了。

这种深度学习的算法基于两个数据库,一个是由宾夕法尼亚大学提供的百万在线书籍计划,另一个则是维基百科。算法首先自动从维基百科的条目中提取作家和作品的关键信息,比如作品的长短、作品的成书年份、条目日访问量等,通过比对上述两个数据库的相关性,就得出了公共领域书籍的排名

在这个排名中,我们发现,在即将在 2015 年进入公共领域的作者中,这一新算法将 T·S·艾略特排在了第一位,毛姆、丘吉尔和马尔科姆·X 也颇受计算机的青睐。此外,这个算法还按图书分类提供了各自的排名,最有价值的法国哲学作者排给了萨特,而在美国女性作家中,泰瑞·温德琳的排名则非常靠前。

它还不够完美,比如它天然地将维基百科内容的主观性和缺憾照单全收,无法避免,但是跟那些专家的榜单对比,里德尔算法也并不逊色。事实上,这个榜单与其说是计算机喜欢谁,不如说是计算出了“大众”更喜欢谁。

当我们说“文无第一”,意味着我们无法将心中的私家 Top 10 强加给任何人,里德尔算法则给出了一种路径,让人们能够注意到那些,被大多数人爱着的作品。

不过,我更期待的是,什么时候这套算法能够真正延伸到英文作品之外的世界。如果在中文的语境中使用这套算法,会是一番怎样的情景。

不过,中文作品需要期待“公共领域日”吗?

题图来自 Gutenberg Bible

喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。