注册 | 登录 忘记密码? 51cto首页 | 博客 | 论坛 | 招聘
热点文章 linux服务器被黑了
 帮助

闲话Google拼音输入法及其它(一)


2007-04-07 02:27:41
 标签:google 输入法   [推送到技术圈]

版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://chenghong.blog.51cto.com/10677/22935
暮春三月,草长莺飞,IT业界层出不穷的传闻八卦也有如雨后春笋此起彼伏地涌入互联网。这边厢有所谓人事地震,那一处又陡传高管离职,于是人们奔走相告——灰色唷,黑幕呀,爆料喽,潜规则啦……
花开数朵,各表一枝,这一回要说的是Google拼音输入法剽窃事件。
这件事其实往简单里说也就一句话:Google新推出的互联网输入法涉嫌剽窃了此前Sogou推出的拼音输入法的词库。苦主声称在搜狗词库建立之初就加入了“词库指纹”,现在这些以员工姓名、绰号为印记的“指纹”原封不动地都出现在了Google输入法的词库中,甚至一些Bug词语也同样被克隆了。
 输入“佟子健”对比:
铁证如山:谷歌拼音抄袭搜狗新证据
Google输入法
铁证如山:谷歌拼音抄袭搜狗新证据
搜狗输入法
    输入“赵立洋”对比:
铁证如山:谷歌拼音抄袭搜狗新证据
Google输入法
铁证如山:谷歌拼音抄袭搜狗新证据
搜狗输入法
    输入“郭博”对比:
铁证如山:谷歌拼音抄袭搜狗新证据
Google输入法
铁证如山:谷歌拼音抄袭搜狗新证据
搜狗输入法
    输入“茹立云”对比:
铁证如山:谷歌拼音抄袭搜狗新证据
Google输入法
铁证如山:谷歌拼音抄袭搜狗新证据
铁证如山,口水四溅。一边看新闻后面那些慷慨激昂的评论,一边喝黄酒啃鸡翅,不亦快哉。
起初我想,“词库指纹”这个创新的说法当真又形象又精辟,还透着点生物识别的高科技味道,搜狗输入法小组的工程师们真是太有才了。但是不亦快哉之后啃了一个鸡翅,就忆起其实是有珠玉在前。
话说上个世纪九十年代初,我国汉字字符编码标准起草人胡万进先生就曾在“胡”字编码里嵌入了闻名遐迩的“胡万进印”四字,堪称数字签名用于知识产权保护的启蒙,只可惜当时没总结出个“字库指纹”的概念包装。再啃再想,类似词库指纹的做法在历朝历代流传的藏头露尾诗和字谜中也曾有所表现。啃了两个鸡翅就总结出词库指纹的创新性有折扣,欣欣然感觉自己也蛮有才的。当然,搜狗采取的版权保护策略能够师法自然,逾古出新,也算是难能可贵。

新建一个Microsoft Office Word(2000以上的版本)文档,在其中输入一个“胡”字(隶书或者幼园),将字号设大(值在100左右或将显示比例增大为500%),按鼠标右键,在菜单中选择“字体”,将其改为空心字,然后会发现,“胡万进印”四个字出现在“古”字旁的“十” 字中间

啃到第三个鸡翅的时候,看到有PCword也对此事予以长篇报道。但是粗略读过之后,感觉这样一件沸沸扬扬的事情翻译成English不仅起不到树国人志气的作用,反而是明珠投暗了。西洋人不仅没有“字”的概念,而且所有的词都是由有数的字母组成,要跟他们解释词的拼法和词频尚有剽窃抄袭一说,岂不是对牛弹琴么?
 
看到这里,大家对Google拼音输入法事件的认识是否又提升到了一个新的高度?
有关此事的另外一些观点,且待明天再与大家分享。

本文出自 “程鸿的博客—|事件|思考|分享|” 博客,请务必保留此出处http://chenghong.blog.51cto.com/10677/22935





    文章评论
 
2007-04-07 08:02:56
google输入法不如微软的,google的一次性输入的文字有上限,微软的就没有。至于字词的辨别能力似乎和微软输入法差别不大。反映速度似乎比微软的快。

2007-04-09 08:54:02
从上面的例子页可以看出,Google是在自己的词库上增加了一些,也是“拿来主义”了。看来有的口水战了。
不过对用户来说,最好大家的词库全部统一才好呢。

2007-04-09 11:54:37
搜狗又未必没有剽窃紫光输入法呢?

2007-04-09 15:54:55
好象人家搜狗本来就是用的紫光的引擎吧?

对于输入法来说,词库基本上就等于所有的技术。有了搜狗的词库,相信google自己要做的事情也就不多了。

其实如果google大方地在自己的版权声明中加上一句“完全兼容搜狗词库”,而且在自己发布的版本中不带词库,让用户自己去下;或者是利用google强大的搜索功能自动去第三方的站点上搜索词库,相信搜狗也就没什么好说的了。

 

发表评论

昵   称:
验证码:  点击图片可刷新验证码  博客过2级,无需填写验证码
内   容: