之前在公司实习, 虽然一周五天每天工作12小时(其实中间有近2个小时的外出吃饭时间), 但感觉很充实, 因为整个中关村的人都在 busy living. 回到学校后, 看着寝室的人一天到晚玩游戏, 我既学习不下, 也不想玩. 感觉这样的生活太浪费时间了!
我想做点东西, 但想不出有什么可行的计划. 不像在公司, 有立即需要解决的问题在眼前. 也许我的问题就在于不善于发现问题.
我的毕业论文是基于关键词的新闻标题分类, 我感到很难. 首先是中文分词, 有些资料说明, 受限于当前汉语的研究水平, 中文分词的准确率最高在 80% 左右. 其次是新闻标题本身信息量太少. 再次是如何定义分类.
我的想法是基于统计的分类方法, 我甚至不想基于关键词, 而是基于单个汉字, 因为分词本身就不准确, 不能基于不准确的信息作进一步的处理. 不过, 似乎单个汉字并不是一种高效的语言单位(词语本身也只是某种层面上的有某些效果的语言单位). 我计划首先从1千个或者更多个已经分类的标题中, 统计出各个词语出现次数, 还有它们的位置关系, 尽量使用多个量来描述词语, 然后找到某个公式(如正态分布, 高斯分布等), 应用上就行了. 这样, 论文也就交差了.
那要等一两年后才知道了… Reply
我的留言本加了防广告功能, 可能会对正常的留言产生影响. 实在抱歉. 你可以通过邮件和我讨论. Reply
注:您留言本好像坏了,不知道给你留在哪,放在这吧 Reply