Розподіл частих слів у коротких текстових повідомленнях
DOI:
https://doi.org/10.24144/2616-7700.2024.45(2).115-125Ключові слова:
розподіл частот слів, математична лінгвістика, критерій хі-квадрат, критерій AIC, критерій BICАнотація
Розглядається задача про розподіл частот слів у текстовому корпусі, що складається з коротких повідомлень (акцент зроблено на частих словах). Серед декількох сімей розподілів знайдені найбільш адекватні (використовувався критерій хі-квадрат, а також порівняння за допомогою статистик AIC та BIC).
Посилання
- Tagg, C. (2009). A corpus linguistics study of SMS text messaging [PhD Thesis, University of Birmingham]. Retrieved from https://etheses.bham.ac.uk/id/eprint/253/
- Ni, X., Quan, X., Lu, Z., Wenyin, L., & Hua, B. (2011). Short text clustering by finding core terms. Knowledge and Information Systems, 27(3), 345–365. https://doi.org/10.1007/s10115-010-0299-7
- Rafeeque, P. C., & Sendhilkumar, S. (2011). A survey on short text analysis in web. 2011 Third International Conference on Advanced Computing. Retrieved from https://ieeexplore.ieee.org/abstract/document/6165203/
- Brocardo, M. L., Traore, I., Saad, S., & Woungang, I. (2013). Authorship verification for short messages using stylometry. 2013 International Conference on Computer, Information and Telecommunication Systems (CITS). https://doi.org/10.1109/CITS.2013.6705711
- Lyddy, F., Farina, F., Hanney, J., Farrell, L., & O’Neill, N. K. (2014). An analysis of language in university students’ text messages. Journal of Computer-Mediated Communication, 19(3), 546–561. Retrieved from https://academic.oup.com/jcmc/article-abstract/19/3/546/4067601
- Xu, J., Xu, B., Wang, P., Zheng, S., Tian, G., Zhao, J., & Xu, B. (2017). Selftaught convolutional neural networks for short text clustering. Neural Networks, 88, 22–31. https://doi.org/10.1016/j.neunet.2016.12.008
- Zheng, C. T., Liu, C., & Wong, H. S. (2018). Corpus-based topic diffusion for short text clustering. Neurocomputing, 275, 2444–2458. https://doi.org/10.1016/j.neucom.2017.11.019
- Sjarif, N. N. A., Azmi, N. F. M., Chuprat, S., Sarkan, H. M., Yahya, Y., & Sam, S. M. (2019). SMS spam message detection using term frequency-inverse document frequency and random forest algorithm. Procedia Computer Science, 161, 509–515. Retrieved from https://www.sciencedirect.com/science/article/pii/S1877050919318617
- Srinivasan, L., & Nalini, C. (2019). An improved framework for authorship identification in online messages. Cluster Computing, 22(S5), 12101–12110. https://doi.org/10.1007/s10586-017-1563-3
- Albalawi, R., Yeap, T. H., & Benyoucef, M. (2020). Using topic modeling methods for shorttext data: A comparative analysis. Frontiers in Artificial Intelligence, 3, 42. Retrieved from https://www.frontiersin.org/articles/10.3389/frai.2020.00042/full
- Qiang, J., Qian, Z., Li, Y., Yuan, Y., & Wu, X. (2020). Short text topic modeling techniques, applications, and performance: a survey. IEEE Transactions on Knowledge and Data Engineering, 34(3), 1427–1445. Retrieved from https://ieeexplore.ieee.org/abstract/document/9086136/
- mshenoda/spam-messages ‧ Datasets at Hugging Face. Retrieved from https://huggingface.co/datasets/mshenoda/spam-messages
- Johnson, N. L., Kemp, A. W., & Kotz, S. (2005). Univariate Discrete Distributions. Hoboken, N.J.: Wiley.
- Bulmer, M. G. (1974). On fitting the Poisson lognormal distribution to species-abundance data. Biometrics, 30(1), 101. https://doi.org/10.2307/2529621
- Nakagawa, T., & Osaki, S. (1975). The discrete weibull distribution. IEEE Transactions on Reliability, R-24(5), 300–301. https://doi.org/10.1109/TR.1975.5214915
- Delignette-Muller, M. L., & Dutang, C. (2015). fitdistrplus: An R package for fitting distributions. Journal of Statistical Software, 64(4), 1–34. https://doi.org/10.18637/jss.v064.i04
- DiscreteWeibull: Discrete Weibull Distributions (Type 1 and 3). Retrieved from https://cran.r-project.org/web/packages/DiscreteWeibull/index.html
- Feinerer I., & Hornik K. (2024). tm: Text Mining Package. R package version 0.7-13. Retrieved from https://CRAN.R-project.org/package=tm
- gamlss.dist: Distributions for Generalized Additive Models for Location Scale and Shape. Retrieved from https://cran.r-project.org/package=gamlss.dist
- Prado P., Dantas Miranda M., & Chalom A. sads: Maximum Likelihood Models for Species Abundance Distributions. Retrieved from https://CRAN.R-project.org/package=sads
##submission.downloads##
Опубліковано
2024-11-21
Як цитувати
Турчин, Є. В., & Федорченко, Ю. С. (2024). Розподіл частих слів у коротких текстових повідомленнях. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 45(2), 115–125. https://doi.org/10.24144/2616-7700.2024.45(2).115-125
Номер
Розділ
Математика та статистика
Ліцензія
Авторське право (c) 2024 Є. В. Турчин, Ю. С. Федорченко
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.