pkuanvil
    • 版块
    • 标签
    • 帮助
    • 注册
    • 登录

    Anna’s Archive 正在寻找 LLM 公司提供 359TB 中文非虚构类图书的高质量 OCR 扫描

    Networking
    3
    6
    719
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • test1T
      test1
      最后由 test1 编辑

      Anna’s Archive 获得了754万本/359TB 来自读秀(超星电子图书馆)的电子书。读秀的这些电子书已经在中文互联网上长期盗版,被二次销售时通常低于1美元。即使如此,大批量地获得这些书是很难的。Anna’s Archive 一直将这放在TODO list上,并分配了好几个月全职工作在这方面。

      不过,有志愿者联系了 Anna’s Archive,表示他们以高昂的代价已经获得了这些书。他们分享了收藏的所有书给 Anna’s Archive,没有索取任何回报,(当然)条件是要长期保存这些书。他们同意在将这些书 OCR 的过程中寻求帮助。

      Anna’s Archive 正在寻求来自 LLM 公司或学术机构的帮助。高质量的学术图书非常有利于 LLM 的训练,尽管这些书是用中文写的,但无论源语言是什么,模型都能理解概念和知识。Anna’s Archive 愿意给予您一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码,我们愿意将该收藏品禁运更长时间。当然,在禁令失效以后 Anna’s Archive 会发布整个收藏。

      https://annas-blog.org/duxiu-exclusive.html

      wumingshiW 1 条回复 最后回复 回复 引用 0
      • test1T
        test1
        最后由 test1 编辑

        示例页面

        为了证明您有良好的 OCR 处理流程,您可以从以下的来自一本有关半导体的书的示例页面开始。您的流程应当正确处理数学,表格,图表,脚注等等。

        1.jpg
        2.jpg
        3.jpg
        4.jpg

        将您处理好的页面发送到 AnnaArchivist@proton.me 。如果它们看上去良好,我们会私下向您发送更多页面,并且我们期待您能够在这些页面上快速运行您的流程。当我们满意的时候我们就能达成协议。

        1 条回复 最后回复 回复 引用 0
        • wumingshiW
          wumingshi @test1
          最后由 编辑

          @test1 有点好奇获得这些书的高昂的代价具体指什么,总不会是花钱买的吧(

          test1T 1 条回复 最后回复 回复 引用 0
          • test1T
            test1 @wumingshi
            最后由 编辑

            @wumingshi 有可能,不是全部也至少有一部分

            1 条回复 最后回复 回复 引用 0
            • W
              wojcid397
              最后由 编辑

              会有组考虑用这个数据库吗

              1 条回复 最后回复 回复 引用 0
              • W
                wojcid397
                最后由 编辑

                此回复已被删除!
                1 条回复 最后回复 回复 引用 0
                • 1 / 1
                • 第一个帖子
                  最后一个帖子