mdict
概述MDict 是一款用于WinCE PDA的支持多语言的电子辞典电子辞典,软件本身不提供辞典数据,而是直接使用现有的辞典数据。
MDict软件是一款由中国的Rayman Zhang(张文伟)开发的、用于查看各种mdx格式词典文件的阅读器(mdx格式词典文件又被称为“词库”;mdx为此类文件的扩展名)。电脑、手机需要运行相应的MDict软件。目前,MDict软件最新正式版为:MDict for PC 1.0 Beta2【适用于电脑,Windows XP或Vista系统】;MDict 3.0 Release【适用于手机,有自动、手动两种安装包;又细分为多种适用于不同手机操作系统的MDict软件】。 PPC、HPC、Smartphone操作系统的智能手机可以运行该软件,而Symbian系统或其它操作系统的智能手机则暂无法运行它。
MDict软件本身并不提供“词库”,但软件作者提供了“词库”制作工具。目前由第三方为MDict制作的“词库”包括:现代汉语词典、成语词典、唐诗鉴赏词典、牛津英汉双解词典等等,现已达四百余种。
本辞典软件的特色:
优点:
对个人非商业用途免费!
多语言支持
支持使用多个辞典文件,可以自己制作词库
支持词典联合和全文检索
支持在线取词
内置简/繁体转换
支持PPC/HPC/Smartphone操作系统
词库格式采用压缩算法,体积较小
运行速度较理想
支持在线取词
缺点
词库数目远超过10个时,不易在各词库之间迅速切换
查看MDict版维基百科的时候,常因简/繁体转换而产生无法跳转链接的情况(但一般可通过更改简/繁体转换设置加以解决)
MDict版维基百科
使用相关软件及“词库”制作工具,有使用者将维基百科的数据库制作成了mdx格式词典文件,成为方便使用的离线百科全书,极大丰富了智能手机、掌上电脑的词典资源。
安装:
Smartphone版本
1. 自动安装版
a) 安装程序
b) 将数据文件放到内存或者存储卡上的任意目录里
c) 运行MDict, 选Library->Search all. 程序会自动查找所有".mdx"结尾的文件,并在Library菜单下显示。
d) 在Library菜单里选择你需要使用的数据文件
e) 可以开始使用, 用Back键可以切换到输入状态, Enter键进行查找.
2. 手动安装版
a) 选择对应你的机器的安装包,在存储卡上建一个MDict的目录,然后将安装包解压到那个目录下
b) 剩下的和自动安装包的步骤一样。
PPC/HPC版本
1. 自动安装版
a) 安装程序
b) 将数据文件放到内存或者存储卡上的"My Documents"目录里
c) 运行MDict, 选Library->Open Library来打开文件.或者"Library->Search all" 程序会自动查找所有".mdx"结尾的文件,并在Library菜单下显示。
d) 在Library菜单里选择你需要使用的数据文件
e) 开始使用
2. 手动安装版
a) 选择对应你的机器的安装包,在存储卡上建一个MDict的目录,然后将安装包解压到那个目录下
b) 剩下的和自动安装包的步骤一样。
mdict版制作方法和常用工具1、mdict制作常用文本格式
转换软件MdxBuilder,下载地址http://pdawiki.5d6d.com/thread-1124-1-1.html
首先制作MdxBuilder转换所需的原始格式txt文本文件
最常用的是MDict的html格式
每个项目两行
第一行是关键字
第二行开始是正文, 这里的正文应该包括关键字。可以使用html的标记(不要包含<html>
<body></body></html>, 这个程序会自动加上, 另注意在转换时要指明源数据为html).
如果需要显示音标的话,可以利用html指定字体就可以显示了。(参见下面的例子)
正文结束后必须用一行</>表示结束
例子: 1.txt
词条1标题Whole
词条1内容<font size=5>whole</font><br><font face="Kingsoft Phonetic Plain, Tahoma">(hol,hJl; houl)</font>
</>
词条2标题
词条2内容
</>
词条3标题
词条3内容
</>
(注意"</>"和下一个记录间不要有任何其他空行,请参考example.txt中的例子)
在html中连接到其它关键字的方法:
<a href="entry://key">key</a>
其中key是关键字,
词条内部跳转方法<a href="entry://#1">目录一</a>(一定要有<a name=1></a>相对应)
在html中嵌入图片的方法 )
<img src=file:///abc.gif>其中src指向的文件名大小写不敏感
并将所有图片文件放在一个单独的目录中(不要与词典源文件放在同一目录中). 数据目录中可以
带有子目录。在使用MdxBuilder制作词库时,将Data路径指向上面存放数据的目录,该目录中的
所有文件都会被压缩到后缀名为.mdd文件中,使用时该.mdd文件应当与.mdx文件在同一目录下。
2、mdict版制作常用工具
UltraEdit-32
编辑工具
UEDIT查找替换高级教程(制作电子书与MDIT辞典必看)
其实UEDIT32的搜索替换至少有两个最明显的优点:
一、执行速度非常快,是WORD的数千倍,不信你打开一个20M的TXT文档,用UEDIT替换只要3秒钟,用WORD看要不要几个钟头?
二、UEDIT的替换内容可以包括查找到的内容,这是在WORD以及更高级更专业的“微软正则表达式”所都无法支持的,不过这个应用可能大部分的朋友都不知道。
虽然许多极其复杂的文档查找与替换必须使用较专业的正则表达式来处理,但对于一般甚至比较高级的操作来说,UEDIT还是我们的不二选择。现在我来简要介绍一下UEDIT的查找与替换的高级应用。
以下的示例使用中文版UEDIT10进行讲解
1. UEDIT查找的快捷键是Ctrl+F(find)或ALT-F3,替换的快捷键是Ctrl+R(replace),再次查找的快捷键是F3。
2. 一般查找与替换功能:
※在查找/替换框内将“正规表达式”的√给去除,并分别在查找与替换的框格内输入所需的字符,执行查找与替换即可。
※如果需要匹配回车键,在查找框中可输入^p(注意p是小写)来代替回车键
说明:在unix格式中^n表示换行,而在mac的文本格式中^r 表示换行,dos格式中^p 表示换行,不过一般情况下^p 可以同时兼容^r 或^p
举例:
将
dfdf
ss
fssdf给替换为dfdf,ss,fssdf格式:可在查找中输入^p,替换中输入,(半角逗号)即可。
反之将dfdf,ss,fssdf给替换成以上三行只要在查找中输入,(半角逗号),替换中输入^p即可。
高级查找部分:
1.要记住将查找/替换框中的正规表达式给√上
2.常用的查找/替换命令:
% 匹配行头(0字符,仅是匹配一个位置)
$ 匹配行尾(0字符,仅是匹配一个位置)
? 在一行中匹配一个单字符
* 匹配一个或多个字符(不允许跨行匹配)
+ 匹配+左边的那个字符一或多次(不允许跨行匹配).
++ 匹配+左边的那个字符零或多次(不允许跨行匹配).
^b 匹配分页
^p 匹配DOS文本的换行符(通用)
^r 匹配MAC文本的换行符
^n 匹配UNIX格式文本的换行符(在wondows操作系统中一般情况下可与^p互换)
^t 匹配tab符
[ ] 匹配单字符或字符范围
^{A^}^{B^} 匹配A或匹配B
^(...^) 用于替换框中代替查找的内容
http://bbs.pdafans.com/viewthread.php?tid=565520&extra=page%3D1%26area%3D
EditPlus v3.1汉化版
适合少量文本文件批处理,支持不超过50M的单个文件,拥有强大的正则表达式处理功能。
菲菲更名宝贝
支持文件批量、改名以网页标题更名、以文本文件的第一行更名,各种内码转换等等;
http://www.newhua.com/soft/59019.htm
http://www.ffhome.com/Soft/ShowSoftDown.asp?UrlID=2&SoftID=7
多行文本替换工具
http://www.rayfile.com/files/a089fd7a-973f-11dd-96d5-0019d11a795f/
TextForever
编码转换,批量htm网页转txt文本
包括HTML到文本文件的转换、文件合并、文件切分、段落合并、段落切分、内码转换(只能在Win 2k/XP下用)、文本替换、HTML整理、文本抽取、正则表达式(需要IE 5.5以上版本的支持)、批量OCR、tcr文件压缩/解压等功能。
http://download.pchome.net/utility/file/editor/download-83578.html
teleport pro网站网页抓取软件
Teleport Pro可以从Internet的任何地方抓回你想要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象,作为创建你自己的网站的参考。 Name:greendown Code:714841311
http://www.quxp.com/download/view-software-1446.html
http://www.86nt.com.cn/tracky/article.asp?id=38
wget绿色版下载工具
是一个从网络上自动下载文件的自由工具。
wget可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构。这又常被称作"递归下载"。在递归下载的时候,wget遵循Robot Exclusion标准(/robots.txt). wget可以在下载的同时,将链接转换成指向本地文件,以方便离线浏览。
wget非常稳定,它在带宽很窄的情况下和不稳定网络中有很强的适应性.如果是由于网络的原因下载失败,wget会不断的尝试,直到整个文件下载完毕。如果是服务器打断下载过程,它会再次联到服务器上从停止的地方继续下载。这对从那些限定了链接时间的服务器上下载大文件非常有用。
--------------
3、数据处理方法
一、MDICT文本处理软件(推荐,见附件)
感谢 nbdx-mmrs 网友制作此软件 以下摘自原作者说明: 将自己电脑上很多的文本文件集合到一个MDICT字典去,经过软件处理,制作完全正常,比较方便,所以放上来让朋友们共享 希望能方便制作MDICT字典的朋友(电脑端软件) 通过程序,我只用几分钟,就将我电脑上的几千个文本文件整合到MDX文件了,分类明确,而且无错,感觉比较方便*_*
注意事项:每个txt文本文件的名称作为词条标题,类别处请留空(删除“AA”)。
二、处理好txt文本或者htm文件后,可以利用
http://pdawiki.5d6d.com/thread-883-1-1.html 中的方法导入数据库然后再导出为所需格式,支持无限多文本
或者比较少的数据可以使用这个工具
简单的编辑工具,MDict词库可视化编辑器(Mdx Source File Maker) V0.3 http://bbs.pdafans.com/viewthread.php?tid=609517
三、html2mdx
将html文件转换为MDict格式文件的程序 重点推荐!Wncable(Bowang)大侠的巨好工具软件,可以将Html格式一次性转换成符合Mdx格式要求的Txt文件,随后便可以用MdxBuilder软件直接生成Mdx文件了!
http://pdawiki.5d6d.com/viewthread.php?tid=84
四、其他方法:
a.逐条输入→MdxBuilder支持txt→MdxBuilder生成(适用于制作自己平时日积月累的东西,可以生成漂亮的表格)
b.利用MdxBuilder支持的格式的词库转(适用于转现成的SugarDict,KDict词典)
c.其他→(excel)→文字编辑软件(用UltraEdit-32好于EmEditor好于word)→MdxBuilder支持的txt文档格式→MdxBuilder生成(适用于高效制作一切能方便转为excel文档的词典)
http://bbs.pdafans.com/viewthread.php?tid=179661
五、维基百科
原始数据:[url]http://download.wikimedia.org/zhwiki/[/url]
维基百科转mdx源文件制作工具
http://pdawiki.5d6d.com/thread-1315-1-1.html
http://pdawiki.5d6d.com/viewthread.php?tid=86
维基转换工具Wiki2Txt V1.1
下载地址 http://bbs.pdafans.com/viewthread.php?tid=500730
六、Txt文件词条合并工具Combine,绿色版
Wncable(Bowang)大侠的巨作,可将多个词典的相同词条合并成1个!
http://pdawiki.5d6d.com/thread-87-1-17.html
--------------
4、以上方法处理后得到的文件再用mdxbuilder转换
MdxBuilder关于选项的说明:
a) Key case sensitive
关键字(标题)是否大小写敏感。多数情况下词典是大小写不敏感的,所以不要选。
b) Allow export to text
是否允许导出为文本。如果选了,就可以用MdxExport这个工具吧词典导出为文本格式。
c) Right to left text
文字的阅读顺序。中文是从左到右,阿拉伯文之类的是从右到左。
d) Strip key
是否去掉关键字中的特殊符号。例如21世纪词典里的关键字是显示成"lis.ten" 这个样子的,如果不去掉".",则用户需要输入"lis.ten"而不是”listen"来查询单词。
e) Title
这个是用来标示词典的名字,计划将来在需要显示词典名称的地方进行显示用的。但目前暂时没有用处。
f) Description
词典的详细介绍。第一次打开词典时看到的欢迎页面。
g) Build Data archive
仅进行数据文件制作。主要是用来制作图库,声音库时用。勾选后就不用填写Source路径。
h) Index block size, Record block size. 这两个是调整性能用的,用缺省值就好了。
i) Encryption Key
词典加密的密匙,用于词典授权用的。可以参见MdxBuilder.zip里的LibKeygen.txt的说明
注意事项:
1、图片链接最好使用 <img src=file:///1/1.jpg> 这样的格式
2、转换出错一般是标题位置有多余的空行
如:
词条1标题
词条1内容
</>
词条2内容
</>
3、mdxbuilder处理转换后的mdx文档大小应在4G以下
外部链接
http://www.mdict.cn/