tag:blogger.com,1999:blog-6270665.post6295935431318062205..comments2023-04-02T13:01:27.594+08:00Comments on Wozy Learns to Write: 你可知王小波《黄金时代》中最常用词是什么?Wozyhttp://www.blogger.com/profile/02818210851068191710noreply@blogger.comBlogger11125tag:blogger.com,1999:blog-6270665.post-72207922066999204232005-03-08T15:13:46.000+08:002005-03-08T15:13:46.000+08:00拜读大作。由于阁下还未写完,其实不便发表意见,不过还是忍不住要说两句。把文章分词,其实是把文章按照分...拜读大作。由于阁下还未写完,其实不便发表意见,不过还是忍不住要说两句。<br><br>把文章分词,其实是把文章按照分词程序的意旨切分,这涉及切分的方法和其既有的词库。大部分的分词程序都不认识新词,例如主角“陈清扬”是一个词,软件能认出“清扬”已算不错了。<br><br>我用歪林先生的宝剑也分出一个结果来,给你参考:<br><a href="http://input.foruto.com/compare/temp/x.rar" rel="nofollow">http://input.foruto.com/compare/temp/x.rar</a><br>先不讨论,请先写下去,完成你要说的东西。<br><br>AhManAhManhttp://input.foruto.com/compare/noreply@blogger.comtag:blogger.com,1999:blog-6270665.post-65585979571250788282005-03-08T20:11:00.000+08:002005-03-08T20:11:00.000+08:00ahman老师,很荣幸你能光临敝舍指导:)这篇随手涂鸦的文章之所以还没写完,倒不是要在节骨眼上卖关子...ahman老师,很荣幸你能光临敝舍指导:)<br><br>这篇随手涂鸦的文章之所以还没写完,倒不是要在节骨眼上卖关子,而是那天写到那里时要查找那个软件的名称(老记不住那名字,是ICTCLAS,中科院计算所软件室弄的分词软件。),一时找不着,又有急事出去了,周末又忙着升级词库,所以就暂时搁在那了。争取这一两天写完。<br><br>其实后面要写的也很简单,就是介绍一下这个软件的使用情况,及分词后后面统计词频的一些处理步骤(这点主要是您在论坛上介绍过的技巧,我学来了:)所以整篇文章实在称不上大作,主要是为了给自己的博客充实内容而胡扯的:)<br><br>关于分词工具,其实最早我找这类东西的时候,首先就是找了之前保存过的从您那来的一个工具(印象中没错的话应该就是上面你用的这个歪林工具),但是发现结果很不理想(如你统计的结果中看到),所以到网络上到处搜寻别的,总算找到了上面说的这款,虽然并不完善(那版本后来也看到更新)。<br><br>对分词工具的要求,我觉得最好是能自定义词库,即指定另外的词库作为切分标准。另外象您上面所提到的新词问题,最好分词工具还能在标准词库基础上增加临时的自定义词条,如在某篇作品中的人名地名等,这样才能更好地发挥作用。你上面提到我那个统计中能识别“清扬”这个名字,其实不然,在那里工具不是识别了清扬这个名字,而是“清扬”本身就是一个通用词语:)wozyhttp://wozy.innoreply@blogger.comtag:blogger.com,1999:blog-6270665.post-74850578711185247322005-03-10T09:19:09.000+08:002005-03-10T09:19:09.000+08:00收到留言, 有空我们可以交流一下分词的一些想法.收到留言, 有空我们可以交流一下分词的一些想法.6ehttp://www.wespoke.comnoreply@blogger.comtag:blogger.com,1999:blog-6270665.post-51988595465507431482005-03-11T01:53:44.000+08:002005-03-11T01:53:44.000+08:00欢迎6e。自己对分词方面其实也只算是皮毛的兴趣和见解,但能跟专业人士学习和交流也是一种大乐趣:)欢迎6e。自己对分词方面其实也只算是皮毛的兴趣和见解,但能跟专业人士学习和交流也是一种大乐趣:)wozyhttp://wozy.innoreply@blogger.comtag:blogger.com,1999:blog-6270665.post-41469186392777361522005-03-30T06:39:22.000+08:002005-03-30T06:39:22.000+08:00我最近也在做分词方面的一些工作,中科院那个软件我也用了。正如文中说的,它的词库不公开。所以我找了些新...我最近也在做分词方面的一些工作,中科院那个软件我也用了。正如文中说的,它的词库不公开。所以我找了些新的途径。写一个简单的分词程序还是很容易,不过缺乏一个大容量的词库。在这方面,希望和大家一同探讨!johnwayhttp://www.paypie.orgnoreply@blogger.comtag:blogger.com,1999:blog-6270665.post-27336791021587401992005-03-30T08:07:20.000+08:002005-03-30T08:07:20.000+08:00大容量词库,我去年倒是花了大半年时间作了一个,不过是供五笔使用的词库,因为重码原因而会去掉少量词组,...大容量词库,我去年倒是花了大半年时间作了一个,不过是供五笔使用的词库,因为重码原因而会去掉少量词组,对于分词作用来说,需要补上。wozynoreply@blogger.comtag:blogger.com,1999:blog-6270665.post-2395387370138462732005-04-27T19:58:32.000+08:002005-04-27T19:58:32.000+08:00我现在要做一个句型查询的系统,任何从一句话中抽取出关键字来呢?比如:这样问:什么是计算机? 然后进行...我现在要做一个句型查询的系统,任何从一句话中抽取出关键字来呢?比如:这样问:什么是计算机? 然后进行关键字匹配呢?有什么算法吗?如果可以获取关键字为: 什么(定义) 计算机 就可以对计算机及其它的定义进行查询了!合叶noreply@blogger.comtag:blogger.com,1999:blog-6270665.post-75291483565576158342005-04-27T21:31:19.000+08:002005-04-27T21:31:19.000+08:00合叶,不太明白你的意思。另外,可能很抱歉,我不是技术人员,对什么算法之类的东西基本是一窍不通,恐怕说...合叶,不太明白你的意思。另外,可能很抱歉,我不是技术人员,对什么算法之类的东西基本是一窍不通,恐怕说不上什么:)wozyhttp://wozy.innoreply@blogger.comtag:blogger.com,1999:blog-6270665.post-85316180168385934962005-06-09T00:15:55.000+08:002005-06-09T00:15:55.000+08:00在excel里头倒来倒去的,如果语料量不大还好,就烦了,你就不能编个小软件来统计一下词频啊。在excel里头倒来倒去的,如果语料量不大还好,就烦了,你就不能编个小软件来统计一下词频啊。开开noreply@blogger.comtag:blogger.com,1999:blog-6270665.post-86301430309326559362005-06-09T04:31:23.000+08:002005-06-09T04:31:23.000+08:00兄弟,不是每个人都会编程的,比如我:)兄弟,不是每个人都会编程的,比如我:)wozyhttp://wozy.innoreply@blogger.comtag:blogger.com,1999:blog-6270665.post-28808845457477611962005-10-01T09:13:29.000+08:002005-10-01T09:13:29.000+08:00[...] http://wozy.in/blog/2005/03/04/28 [...][...] http://wozy.in/blog/2005/03/04/28 [...]EndTech @ micy.cn » 我的"相关文章"wordpress插件http://www.micy.cn/blog/index.php/archives/146.htmlnoreply@blogger.com