爱小说

第400章 不可逾越的高山

小说:重生学神有系统 作者:一碗酸梅汤 更新时间:2020-04-02 23:05
爱小说(www.ixs.cc)开通手机站了,手机用户可以登录 m.ixs.cc 进行阅读,效果更好哦!
  江寒在网上搜索了一番,参考了一下同类软件。
  最后他决定,采用市场接受度较高的免费下载、试用模式。
  超过试用次数和时间后,只要花费58元RMB,购买注册码,就可以终身使用。
  在软件保护策略上,江寒毫不犹豫地启动了“坏苹果2代”技术。
  经过加密后,“极光OCR”的可执行文件,以及动态链接库等要害部位,堪称坚不可摧。
  江寒又用InstallShieldWizard,制作出一个1G大小的安装包,然后挂到了大江官网上。
  技术上的事情,至此全部搞定。
  至于其他的事情,全盘委托给老江和夏如冰就好……
  江寒想了想,又访问了一下布置在地下机房里的数据服务器。
  过了这么多天,他为ISLVRC2013图像识别挑战赛,打造的深度CNN网络,也终于完成了训练。
  江寒将代码中关于训练的部分,暂时全部剔除,然后将验证集数据加载进来,跑了一下。
  结果还算不错,top-1项目的识别正确率,达到了62.7%,top-5项目中,更是达到了85.4%的正确率。
  所谓top-1,就是对于每张要分类的图片,只允许给出唯一答案,对就对,错就错。
  至于top-5,要求就比较宽松了,每张图可以给出5种预测,有一个与标签相同,就算分类正确。
  现在这个成绩,已经相当接近去年的冠军算法了。
  但江寒怎么可能就此满足呢?
  他深入思考了一番,重新编写了预测函数。
  这一次,他使用了一个小技巧。
  将待分类的图片加载到内存中之后,先进行预处理。
  从图片的四个角,以及中间部分,依次进行矩形抠图,这样就得到了5张子图片。
  接下来,再对这5张子图片,依次进行镜像操作,子图片的总数就变成了10。
  最后再对这10张图片,分别进行预测,再把10个结果的平均值,作为网络的最后输出。
  这可以有效地防止程序“发呆”,以得到更接近正确答案的预测。
  不出所料,使用了这个技巧后,深度CNN在验证集上的表现,果然改善了不少。
  top-1上的正确率,足足提高了2%,在top-5上的正确率,也提高了1.84%。
  不过,感觉还有进一步提升的空间。
  江寒思考了一下,又对训练集图片的RGB数值,做了PCA,也就是主成分分析,并且对主成分做了0.1标准差的高斯扰动。
  这样做的目的,是增加一些噪声数据,以提高模型的泛化能力。
  处理完庞大的训练集后,就可以让网络重新进行训练了。
  安排妥当这件事之后,江寒开始考虑学科等级的事情。
  经过几天的奋战,他已经学完了化学、生物两科,在大学本科阶段的全部专业课。
  单论理论上的水平,超过了绝大多数相应科目的本科生、甚至硕士研究生。
  江寒打开系统UI看了一眼。
  学科等级面板上,数学、物理、化学、生物、信息学,这五个学科全都达到了高级。
  其中,信息学的经验条已经过半,距离下一个级别不远了。
  不过,工程、材料、能源三科,仍然没有任何评级。
  江寒思考了一下,决定在网上找一找这三个专业的教材,深入地学习一番。
  然而,他很快就发现了一个问题。
  所谓的工程,到底是什么工程呢?
  生物工程也是工程,电子工程也是工程。
  此外还有机械工程、信息工程、采矿工程、石油工程、建筑工程……
  不搜不知道,一搜吓一跳,工程学这个总类里,居然足足包括了21个小类,上百个专业!
  然后是材料学。
  化学材料、生物材料、金属材料、电工材料、材料物理……
  也是几乎无所不包!
  能源好一些,基本也就是引力能、热能、生物能、化学能、核能……
  好吧,既然都是交叉学科,那就交叉着学呗。
  江寒上网查找了一下,将所有涉及到这三科的书籍,汇总、整理了一下,列出了一张非常长的书单。
  真的很长,足足有上千种书籍。
  好在其中大多数,都能下载到PDF或者Ebook资源。
  江寒将这些文件,全都用极光OCR,转换成了txt加小图片的格式,然后轮流发送到了虚拟空间中,并打印了出来。
  也有部分资料,网上根本下载不到,这种情况,就只能邮购实体书了。
  江寒在各大网上书店里,一顿狠淘,终于凑全了列表中的所有书籍。
  至于花了多少钱,他也没仔细统计,大概估计下,怎么也得几万RMB。
  也就是本科阶段的教材并不怎么难买,很多专业性很强的资料也都有中文版。
  若是去亚马逊海淘英文原版,估计再添一个0,可能都不怎么够……
  ※※※
  有图科技,软件研发部。
  蓝崭新再次主持会议。
  与会的十来个人,全都陷入了死一般的沉寂。
  良久后,蓝战新叹了口气:“这件事问题不在咱们,你们开发的OCR软件,已经是国内领先的了……”
  后面的话,他虽然没说,可又有谁猜不到了?
  那家大江科技,虽然成立还不到一周……
  然而,谁能想到这家公司手中,竟掌握着那么厉害的OCR技术呢?
  王仁默然不语。
  那个极光OCR的性能,实在太恐怖了一点,对于普通文本的识别正确率,竟然超过了98%!
  这种技术代差,真是让人越想越浑身无力。
  国内外的同类软件,没有一个能与之竞争。
  不夸张地说,这就是集体被吊打,一点还手之力都没有……
  蓝战新忽然问:“王工,你们技术部有没有试一试,逆向一下极光OCR?”
  王仁苦着脸,回答说:“我们一发现这款产品,第一时间就下载并尝试逆向了。”
  代码虽然不能抄,至少也应该了解一下别人采用的算法……
  王仁续道:“只可惜……试了很多办法,全都失败了。”
  蓝战新有点意外。
  王仁这些人的实力,他是十分清楚的,能难住他们的加密手段,可谓少之又少。
  另一位同事摇了摇头,说:“我们都怀疑,那是一种从来没出现过的新加密技术。”
  蓝战新若有所思:“这样啊……”
  寂静再一次笼罩了这个房间。
  良久后。
  “咱们接下来怎么办?”一名工程师问。
  蓝战新思索了一下,叹了口气,说:“我先汇报一下,看看顾总怎么说。”
  十五分钟后。
  “我知道了……”
  蓝战新挂了电话,扫视了在座的众人一眼:“我先尝试和大江的人联系一下,看有没有达成合作的可能。”
  有图的主要业务是卖硬件,为了促进扫描仪的销售,才去研发配套的OCR软件。
  既然自家研发的OCR,性能上比不上别人,那争取合作、取长补短,也在情理之中。
  如果可以达成独家代理,那么无论多少钱,都一定要拿下来!
  这是顾总的原话。
  蓝战新看向王仁:“至于咱们研发部,还得继续努力研发下一代产品。”
  顿了顿:“至于目标……暂时先跟极光OCR看齐吧!”
  在场几位技术大拿的心头,顿时感觉沉甸甸的。
  98%!
  这个数字,就仿佛一座不可逾越的高山……
  ※※※
  两天后,深度CNN网络再次完成了训练。
  江寒重新跑了一次验证集,这一次,错误率在原来的基础上,又下降了1%以上。
  top-1的正确率接近乐66%,而在top-5项目中,更是达到了惊人的88.8%!
  江寒对这个成绩还算满意,给这个网络命名为:“JiangNet-3”。
  然后登录ImageNet官网,将最终的算法模型提交了上去。
  他没有对代码进行加密,一个是赛事规则不允许,再一个也是没有必要。
  提交上去的代码和数据,只包含网络主体架构、激活函数、预测函数,以及训练得到的权重数据。
  至于算法的核心部分,训练函数、损失函数和梯度下降……一概予以删除。
  这样的代码,根本没有什么可以抄的。
  搞定了这件事后,江寒将目光放在了书桌上。
  从昨天开始,网购的实体书就陆续快递到了手中。
  到了今天下午,终于到齐了。
  看着那高高一堆,上百本书籍,他不禁有点头疼。
  看书不费力气,一本一本慢慢看,两、三个月怎么也看完了。
  但如果想加快学习进度,就得把这些实体书,全都折腾到虚拟空间里……
爱小说WWW.IXS.CC努力创造无弹窗阅读环境,大家喜欢就按 Ctrl+D 加下收藏吧,有你们的支持,让我们走得更远!
可以使用回车、←→快捷键阅读